点击下方卡片,关注 「AI视界引擎」 公众号
( 添加时备注:方向+学校/公司+昵称/姓名 )
评估数学推理能力对于推进通用人工智能(AGI)至关重要。
尽管大型语言模型在解决数学问题方面表现出色,但现有的基准测试(如GSM8K和MATH)存在局限性,包括问题定义狭窄、特定数字依赖和预定规则,这些因素限制了对推理和适应性的准确评估。
本文介绍了UTMath基准测试,通过大量单元测试对模型进行评估。该基准测试包括9个数学领域的1053个问题,每个问题有超过68个测试用例。
作者提出了一种创新的评估框架,灵感来源于软件开发中的单元测试,注重结果的准确性和可靠性。
此外,作者引入了“思想到编码的推理”(RCoT)方法,鼓励在生成代码之前进行显式推理,从而生成更高级的解决方案并提高性能。
此外,作者不仅发布了UTMath基准测试,还发布了UTMath-Train训练数据集(超过70k个样本),以支持社区进一步探索数学推理。
1 Introduction
AGI的追求需要强大的数学推理能力,因此评估这种能力的研究领域变得至关重要。周等人(2024年)指出,近年来在LLM方面的进步已经展示了在解决复杂数学问题方面的显著熟练程度,并在各种数学文字题(MWPs)数据集上取得了令人印象深刻的性能,如GSM8K Cobbe等人 ,MATH Hendrycks等人,定理QA Chen等人(2023年)。
然而,经典的基准测试存在一些局限性,这些局限性阻碍了对这些模型能力进行准确和全面的评估。Ahn等人指出,首先,这些基准测试针对的是窄义的问题和一些特定的数字,这并不能充分评估模型在类似但变化较小的情况下的适应性,如图1所示。
其次,它们的评估依赖于预先确定的规则或LLM-as-a-Judge Dubois等人;Zheng等人的方法,通常会导致LLM给出任意的回应。例如,在数据集GSM8K, TheoremQA和MATH上,需要提取准确答案以精确匹配最终答案。
此外,这些基准测试更注重最终答案,而不是基础推理步骤。虽然最近在开发评估LLM数学推理的新基准测试方面取得了巨大进步,但许多这些方法仍然未能解决早期数据集的基本局限性。例如,像GSM-HARD Gao等人(2023年),GSM-IC Shi等人,2023年的GSM-Plus,MetaMath(Yu等人,2023年)等基准测试都通过替换、反转、干扰插入等方法扩展了GSM8K或MATH的数据集。虽然这些努力非常有价值,但它们的特点是覆盖面有限且成本高昂。
在这个背景下,作者的工作旨在通过提出一个准确评估LLM数学能力的坚固和强大的基准来弥合这些差距。受到软件开发中评价方法的影响,其中解决方案的正确性通过全面单元测试来确定。如果一个解决方案通过了所有测试,那么它就被认为正确,因为这意味着它的逻辑在广泛的场景下具有足够的鲁棒性。同样,作者提出设计一个全面的一组单元测试来严格评估LLM的推理过程。如果一个解决方案通过了所有相似问题的单元测试,那么这表明解决方案背后的推理过程更可靠和值得信赖。
具体而言,作者引入了UTMath,这是一个新基准,源于在线整数序列百科全书(OEIS)(OEIS基金会,2024)。该基准包括1053个问题,涵盖了9个数学领域,如数论和几何。每个问题都附有超过68个测试用例,提供一组输入及其相应的输出。
在评估方法方面,作者的基准要求模型为一类问题得出通用的解决方案,通常以代码形式表示。与解决特定数字问题相比,开发这样的一般解决方案更具挑战性,需要更高的智力和推理能力。然而,作者观察到,当模型需要在一个响应中执行推理和编码,如"思维程序(PoT)"(Chen等人,2022年),它倾向于产生更简单、更直接的解决方案。作者推测,这种趋势可能受到编码数据分布的影响。为了解决这个问题,作者引入了**"推理到编码的思维(RCoT)"**方法,该方法要求LLM在第一轮进行数学推理,而不需要任何编码指令,然后根据推理编写代码。与PoT相比,RCoT在第一轮将代码分布转向数学,促使更多的推理步骤。作者对8个LLM进行了全面研究。以下是作者的一些关键发现:
(1)最佳模型GPT-4o只解决了作者基准中的26.93%问题,表明作者基准的难度。
(2)现代LLM在图论、群论、几何和拓扑(图4)方面的表现不佳。
(3)使用RCoT,8个评估的LLM产生了更有效的设计,大多数模型获得了更高的评分(图2)。
(4)推理的质量显著影响了模型最终解决方案的准确性和效率(SS 5.5)。更多的有趣发现可以在SS 5中找到。作者希望作者的发现有助于更深入地理解LLM的当前推理能力,并促进模型的进一步发展。
2 Related Work
Benchmarks
随着语言模型的快速发展,评估和探索这些模型的智能和局限性已经成为亟待解决的重要问题(张等人,2024年)。推理能力作为一般智能的至关重要组成部分,自语言模型的出现以来,已经引起了广泛关注。由于其复杂的数学特性和严谨的逻辑关系,数学推理被认为是一种抽象和高难度任务,在展示模型的推理能力方面起着关键作用。
为此,研究行人提出了各种以数学推理为焦点的基准测试。一种自然且主流的方法是将LLM评估为人类参加数学考试的方式,使用人类考试问题来测试其推理能力,按所需知识水平进行分类。例如,包括小学水平的GSM8K,高中水平的Math 和 GaokaoBench-Math ,大学水平的College Math(唐等,2024年),定理问答(陈等,2023年),大学水平的ARB ,竞赛水平的OlympiadBench(何等,2024年)和 AGIeval-Math。
此外,研究行人还提出了许多其他专注于评估LLM(语言模型)各种方面的研究,如鲁棒性。这些包括基于GSM8K变体的研究:GSM-8K-Adv ,GSM-Hard ,GSMPlus(李等人,2024年),GSM-IC(石等人,2023年),以及多个独立的基准测试:Mathattack(周等人,2024年),MetaMath(于等人,2023年),PROBLEMATHIC(Anantheswaran等人,2024年),MATHCHECK(周等人,2024年),以及其他基准测试。
Building Methods
构建有效、高质量的数据集是一个复杂且耗时的过程。LLM的出现为作者改变这一现状提供了机会。例如,(Almoubayed等人,2023年)使用GPT-4o根据MATHia(Ritter等人,2007年)重写数学问题以帮助学生提高数学表现,通过验证12,374名学生的方式证明了使用LLM构建数据集的有效性。这些努力为利用LLM进行数据处理提供了可靠的基础。
在作者的研究中,作者利用GPT-4o来帮助作者处理数据,例如通过提供必要的背景知识来回答问题,使它们更具可理解性,并在附录C中展示了使用的 Prompt 。随后,进行了人工验证,以确保在LLM使用前后的一致性。
Prompting Methods
考虑到大型模型的属性,它们对 Prompt 非常敏感,使得 Prompt 工程成为一个关键的研究领域。
链式思维(魏等,2022年)启发技术促使模型在得出结论之前用自然语言表达推理步骤。同样,(小岛等,2022年)的方法使用“让作者逐步思考”这一短语有效地指导大型语言模型进行推理。
受到CoT启发,已经开发出几种有效的 Prompt 方法,例如思维树(姚等,2024年)、思维图(比斯塔等,2024年)。
程序思维 Prompt :PoT将程序作为中间步骤生成,并集成外部工具,如Python解释器进行精确计算,以及其他 Prompt 方法(Wang等人,2023年;高等人,2023年)。
作者的推理编码思想(RCoT)方法通过将推理分为两个步骤:基于推理的推理和实施,从而脱颖而出。这种细分提供了对LLM推理能力的更深入见解。编码减少了由于计算能力有限而产生的错误,并评估了更好的成功和效率解决方案。其优势可以总结如下:
代码输出评估:作者要求LLMs输出代码,重点关注推理而非直接答案,以更好地反映其推理能力。
观察推理过程 通过命令代码实现,作者可以观察和验证 LLM 的推理过程,而不仅仅是最终答案。
3 UTMath Benchmark
Introduction for OEIS.
《OEIS》旨在记录对专业和业余数学家都有兴趣的整数序列,并在数学界得到了广泛引用。截至2024年2月,它包含了超过37万个序列(OEIS 基金会,2024年)。每个序列都附带一个识别号码、简要描述、一些示例整数、生成规则、相关文献链接,以及可能的程序代码来计算这些序列。附录A中展示了一个示例序列。
Benchmark Construction
符合作者预期且可用于测试推理能力的序列应满足以下条件:
这段话的翻译是:序列需要经过推理才能得出其递归或公式,而不仅仅是简单的计算。
序列必须可以推导出无穷多个项,从而可以推导出对于任何正整数n的a(n)。
必须准确描述序列,才能完全从描述中推导出序列。
数学序列应属于数学,防止由于缺乏领域知识而产生的推理错误。
OEIS为用户提供了一份主序列列表1,这些主序列是OEIS中的代表性序列。为了帮助用户在感兴趣的领域内快速找到主要序列,OEIS将这些序列根据内容主题的前2-3个字母分为118个类别。通过爬取每个类别的类别标签以及其下级序列的AIDs,作者获得了569个类别和23,238个主序列的AIDs。OEIS提供一个接口,用户可以通过其AID请求每个序列的HTML页面的JSON数据。通过将序列AIDs传递给这个接口,作者获得了这些23,238个序列的JSON数据。
作者发现收集的一些序列未能达到作者的标准,应予删除。在此,作者仅展示部分内容,更多细节见附录B。
难以解决,少数几个项是可发现的在OEIS(在线编码和信息系统档案馆)的检索项中,有一部分序列被 Token 为"hard"(困难)。根据OEIS,"任何只能通过新想法而不是更多计算来扩展的序列都应具有关键字:hard。同样,如果计算序列的一个项可能值得在同行评审的期刊上发表一篇文章(讨论结果、算法等)" 3 另一个相关的关键字属性是"fin"(有限),表示长度有限序列。对于作者来说,一个"合适"的序列应该具有无限个项并且可以无限派生。
在OEIS中,大多数序列都提供了诸如Mathematica、程序或公式等字段,但并非所有序列都包含这些字段。由于OEIS没有指定缺少这些字段的原因,作者假设这些序列可能难以通过编程方式生成。
过于简单的序列需要很少的推理,并具有明确的解决算法。由于序列描述的不确定性,作者使用 GPT-4o 来确定一个序列是否需要推理,还是仅仅需要实现;如果是主要实现,则会被排除在外。例如,A0001784: "超阶数:n!的乘积。" 这是一个只需要实现的序列,因此会被移除。
在解决了上述问题之后,作者最终获得了1053条符合作者标准的序列。
标准化问题陈述As OEIS是一个专业的学术工具,作者无法直接使用每个序列提供的描述作为问题陈述。这主要有以下几个原因:
- 专业术语 某些序列描述使用了复杂的数学术语,需要例子或解释才能明确。直接将它们作为问题使用可能会测试数学知识,而不是推理能力。因此,解释关键概念以关注推理并减少所需的其他知识非常重要。
- 简洁性与歧义性 某些序列描述过于简短,且未明确定义什么是(an)。
作者使用 GPT-4o 对这些问题进行了标准化,通过添加背景信息但不泄露解决方案,使语言更流畅。尽管作者要求确保原始描述和处理后的描述在意义上保持一致,幻觉仍然可能出现。为了减轻这种影响,作者对标准化的问题陈述进行了手动验证,以确保它们在意义上与原始描述相符,并且易于理解。
论文的主要目标是评估LLM的推理能力。一般来说,解决问题更有效的解决方案意味着更强的推理能力。因此,作者的评估目标是区分一个解决方案是否有效。然而,在OEIS(在线整数序列百科全书)中,每个序列只列出前几个n项,通常n<100,这些可以通过不需要特别有效的方法获得。这一限制使得评估无法有效地区分有效和无效的解决方案。显然,在规定时间内计算一个序列的前10项的难度与计算从第106项开始计算的项的难度有显著不同。因此,作者的目标是创建更具挑战性的测试数据,以更好地评估LLM的推理能力。
幸运的是,许多OEIS序列包括相应的Mathematica代码,可以被视为每个问题的真实解。作者为每个序列提取这些Mathematica代码,并将其形式化为计算序列的前项,。使用二分查找算法,作者确定了代码可以在10秒内计算序列的最大值,其中作者设置为上限。最后,作者将序列的最后10项添加到作者的基准中,作为困难的测试用例来评估解决方案的复杂性。作者的实验表明,这些情况准确地区分了更高效和智能的解决方案。
Evaluation Metrics
作者采用指标pass@来评估LLM的性能。pass@是代码生成的经典指标,其中针对每个问题生成k个代码样本,如果一个问题中的任何样本通过了单元测试,则该问题被视为解决,最后报告解决问题总数占总数的百分比。作者采用了Chen等人(2021年)提出的稳定计算方法:
Dataset Statistics
为了更深入地理解UTMath基准测试的组成,作者分析了每个问题可能所属的潜在领域,并确定了九个数学领域:数论、图论、群论、博弈论、离散数学、组合数学、几何与拓扑、多项式与级数展开、特殊数、形式语言。使用GPT-4o,作者将每个问题分配到这些领域,并得到了表1所示的分布。
4 Reasoning-to-Coding of Thoughts
相比仅依赖检查 LLM 生成的结果是否相同以评估评估方法,作者提出了一种基于通过代码实现评估数学推理过程的方法。
最初,作者采用了思维程序(PoT)方法,其中LLM需要在一步内执行推理并实现。然而,作者注意到LLM经常采用更简单的算法,这导致了由于推理深度有限而与更复杂问题相关的较高时间复杂性或甚至失败。为了改进这一点,作者探索了思维到编码的推理框架,将推理和实现分为不同的步骤。
在第一轮中,LLM仅专注于推理问题。与PoT不同,其中推理被广泛描述,为LLM分配一个完整的轮次用于推理,允许LLM生成一个逐步、详细的逻辑推理链,包括数学定理、公式和属性。这种更深入的推理方法减少了错误的可能性,并便于创建更简单的算法。
在第二轮中,LLM实现了第一轮生成的推理过程。这为作者评估推理能力提供了超越最终答案的新视角。通过将计算过程转换为代码,作者避免了由低计算技能引起错误,使作者能够获得更多关于LLM推理能力更准确、更真实的见解。此外,评估代码的通过率和运行时间为作者提供了一种评估推理策略的方法,更优的方法应具有更高的准确性和更低的复杂性。
将过程分为两步,第一轮详细推理确保第二轮代码实现与推理过程高度一致,从而减少推理与实现之间的不匹配。
5 Experiment
Experimental Setup
在这里,作者考虑了封闭源模型,即来自OpenAI的GPT-3.5-Turbo/GPT-4o,Claude-3.5-Sonnet,Gemini-1.5-Pro ,以及开源模型,即LaMA-3.1(Dubey等人,2024年),Qwen2.5(Qwen,2024a),Qwen2.5-Math(Qwen,2024b),DeepSeek-V2.5(Bi等人,2024)。作者计算了指标,即在5次运行的平均结果。所有评估都在配备Intel(R) Core(TM) i7-10750H CPU @ 2.60GHz的笔记本电脑上进行。
Evaluation on UTMath
在表2中,作者使用RCoT和PoT评估了开源和封闭源模型。实验结果显示,所有测试模型在作者的基准测试上表现不佳。最佳模型GPT-4o仅解决了作者基准中的26.93%问题。由于作者的问题源于OEIS,它们包括来自不同数学家在尖端研究背景下的序列和解决方案。这表明作者的基准足够具有挑战性,可以指导未来改进LLM的方向。
与PoT相比,作者的方法RCOT在两个方面具有优势。首先,使用RCOT Prompt 实现更高的6个LLM的性能,在GPT-4o上观察到最佳结果。其次,由RCOT生成的解决方案表现出更高的性能,特别是Qwen2.5-72B,与PoT相比,RCOT方法实现了36.42%的效率提升,这在表2和Fig. 2中得到体现。这表明,使用RCOT Prompt ,模型进行更深入的推理,显著减少解决方案的复杂性,并提高解决方案的性能。
然而,一些模型在RCoT上的pass有所下降。Gemini-1.5-Pro,GPT-3.5-Turbo和Qwen2.5-72B的准确性略有降低。Qwen2.5-72B在pass上的准确性下降,但在pass上有所提高。这表明,RCoT在多次推理中提供了更大的空间。这种较差的性能可能是因为试图设计更高效的解决方案通常涉及更高的难度,当这些模型通过更复杂的解决方案进行推理时,更容易出错。
The Effectiveness of Hard Test Cases
正如作者在第3.2节中提到的,OEIS中的每个序列只列出了初始项,作者称之为“简单测试用例”。为了研究模型处理挑战性案例的能力,作者评估了它是否能够预测序列中出现较晚的值(即)。这些较晚的值通常在预训练数据中代表性不足,通常需要更多的计算时间和更精确的实现才能准确获取。
表3中的实验结果揭示了模型在处理这些困难案例时的性能显著下降。这表明引入这些案例可以防止简单的解决方案通过所有简单案例,从而筛选出更先进的解决方案。作者的基准提供了不同模型之间推理能力的更好衡量标准。
Scaling of the Inference Times
作者比较了运行LLM五次之间的性能差异,并报告了pass的指标。如图4所示,所有模型随着推理次数的增加,性能都得到了提升。对于Qwen2.5-72B,RCoT在第一次推理时略弱于PoT,但在后续运行时间中迅速接近并超越了PoT。对于GPT-3.5-Turbo和Gemini-1.5-Pro,PoT始终优于RCoT。
作者观察到,随着推理次数的增加,RCoT在几乎所有模型上,除了GPT-3.5,都表现出性能持续增长的优势。这表明RCoT可能在具有更强推理能力的模型中表现更好。
在五个领域中实现最佳性能。值得注意的是,它在组合数学领域比第二好的模型高出7.6%,在形式语言领域高出18.21%。相反,作为开源模型,Qwen2.5-72B在其他三个领域占据了首位。
所有模型在图论、群论和几何拓扑等领域的准确率都低于12%,这突显了在这些领域进行进一步探索的必要性。
[0]. UTMath: Math Evaluation with Unit Test.
点击上方卡片,关注 「AI视界引擎」 公众号
