LLM 数学解题大比拼：DeepSeek R1 准确性领先！

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

这项研究调查了DeepSeek R1语言模型在30个来自MATH数据集的具有挑战性的数学问题上的表现，这些问题在其他模型在时间限制下已经证明无法解决。

与以往的研究不同，这项研究取消了时间限制，以探究DeepSeek R1的架构——以其基于 Token 的推理依赖性而闻名——是否可以通过多步骤过程实现准确的解决方案。该研究将DeepSeek R1与四种其他模型（gemini-1.5-flash-8b、gpt-4o-mini-2024-07-18、llama3.1:8b和mistral-8b-latest）在11个温度设置下进行了比较。结果表明，DeepSeek R1在这些复杂问题上实现了更高的准确性，但生成的 Token 数量显著多于其他模型，证实了其 Token 密集型方法。

研究发现，在大语言模型解决数学问题时，准确性与效率之间存在权衡：虽然DeepSeek R1在准确性方面表现突出，但其对大量 Token 生成的依赖可能并不适合需要快速响应的应用。该研究强调了在选择LLM时考虑特定任务要求的重要性，并强调了温度设置在优化性能中的作用。

unset

unset1. 引言unset

unset

本研究考察了 DeepSeek R1 [1] 模型在从 MATH 数据集 [2] 中选取的一组具有挑战性的数学问题子集上的表现。先前的研究表明，在严格的时间限制下，有几个语言模型未能解决这些特定问题 [3]。

与以往的实验不同，本研究取消了时间限制，以探究这一假设：DeepSeek R1 的架构（据记载其依赖基于标记的推理方式）通过更审慎的多步骤过程，有助于得出准确的解决方案。

本研究的核心目标是分析模型在解决这些复杂数学问题时的准确率与其标记使用之间的关系，从而深入了解在该领域实现高准确率所涉及的计算成本。

unset

unset2. 背景及相关研究unset

unset

本研究探讨了DeepSeek R1 [1]模型在由MATH数据集[2]生成的具有挑战性的数学问题子集上的性能。先前的研究表明，在严格的时限下，这些特定问题被多个语言模型所遗留未解[3]。与那些先前实验不同，本研究移除了时间限制，以检验DeepSeek R1的架构，凭借其对基于 Token 推理的记录依赖，通过更谨慎、多步骤的过程实现准确解决方案的假设。核心目标是分析模型在解决这些复杂数学问题时的准确性与其 Token 使用之间的关系，从而深入了解实现该领域高精度所需的相关计算成本。

近年来，自然语言处理技术的进步激发了人们将大语言模型（LLMs）应用于数学问题解决的兴趣。尽管最初的符号方法在处理自然语言细微差别方面存在局限性，但基于Transformer的模型[4]的出现显著提升了LLMs处理和生成数学文本的能力。因此，已经开发出能够解决基本数学文字问题的模型[5]。然而，更复杂的问题，如MATH数据集中发现的问题[6]，通常需要多步骤推理和符号操作，仍然是一个巨大的挑战。使用MATH数据集的基准测试表明，即使是最新模型也难以实现高精度，尤其是在资源受限的情况下[3]。本研究关注的DeepSeek R1模型因其记录的基于 Token 推理步骤的依赖性而特别引起兴趣，这表明通过更迭过程可能提高准确性的潜在机制。此外，温度设置对模型输出的影响，它影响着创造性与连贯性的平衡，在数学推理的背景下值得考虑。本研究在前人工作的基础上，通过探讨模型架构、资源利用（特别是 Token 生成）以及温度对DeepSeek R1和其他领先LLMs解决复杂数学问题能力的影响，展开了深入研究。

unset

unset3. 研究方法unset

unset

本研究基于先前基准实验的结果，即“逐词再生与领域偏差：高级数学问题解决中大语言模型（LLMs）的基准测试”[3]，该实验评估了各种大语言模型（LLMs）在MATH数据集上的表现。先前研究对响应生成设定了严格的时间限制，以防止无限循环，这一限制显著阻碍了DeepSeek Rl模型的表现。当前实验旨在探索DeepSeek Rl和其他LLMs在MATH数据集子集上的能力，不受这些时间限制，而是专注于识别和减轻重复性响应模式。

3.1 数据集创建

本研究的数据集来源于前述先前实验的结果。具体来说，从MATH数据集中选取了30个问题，这些问题是原始研究中没有任何模型能在规定的时限内正确解决的。这30个问题构成了本实验的数据集，代表了数学推理任务中的一个具有挑战性的子集。

3.2 模型选择

本次实验中选出了五种不同的大语言模型进行评估：

本研究的重点模型为deepseek-rl:8b [1]，由于前次实验的时间限制，该模型受到显著影响。官方文档建议在0.6至0.8的温度设置下达到最佳性能，并警告不要使用系统 Prompt 。

Gemini-1.5-Flash-8b [7]：谷歌提出的一个采用不同架构方法的模型。

OpenAI近期发布的一个模型，用于比较分析。

Llama3.1:8b [9]：一个以在各种基准测试中表现出色而闻名的开源模型。

Mistral-8b-latest [10]：另一个强大的开源模型，作为比较的基准。

每个模型都经过11种不同温度设置的测试，温度范围从0.0到1.0，增量为0.1。这总共导致了1650次实验运行（30个问题，5个模型，11个温度）。

3.3 评估指标

主要评估指标是每个问题的解决方案的正确性。鉴于可能存在过于冗长或重复的回答，实施了以下程序：

超过1000字符的回复被截断，仅保留最后1000字符进行评估。这假设回复的最后一部分包含了模型的最终答案。为了解决潜在的无限循环问题，实施了一个重复检测机制。如果发现回复的最后40个字符重复了400次，生成过程将被强制终止。最终或截断的回复与已知的正确答案进行了比较。每个回复的正确性使用二进制指标进行评估：如果模型的答案与预期答案完全匹配，则为1，否则为0。这次评估使用了mistral-large-2411 [11]模型作为评判标准。

此外，还计算了所有成功运行中每个模型平均生成的 Token 数。

unset

unset4. 结果unset

unset

实验产生了1650个数据点，代表了每个模型在每个温度设置下对每个问题的响应。其中只有一部分运行产生了正确答案。表1展示了每个模型在其各自的成功运行中的平均 Token 数。图1直观地描绘了这些结果，突出了DeepSeek R1与其他模型在 Token 使用上的显著差异。

picture.image

五、关键观察

研究结果[12]明确表明，DeepSeek R1虽然能够解决在先前受限实验中其他模型无法解决的复杂数学问题，但这样做是以显著增加的token使用为代价的。DeepSeek R1的平均token计数（4717.5）比测试的其他模型高出整整一个数量级。这一观察结果与该模型的架构设计相符，根据其文档，该设计高度依赖基于token的推理步骤，甚至暗示了这些“推理token”对于正常工作所必需的。

此外，该实验强调了温度设置对模型行为的影响的重要性。观察到Llama 3.1仅在0.4的温度下才能得到正确结果，这突显了某些模型对这一参数的敏感性，并表明最佳性能可能需要超出默认设置的微调。

这些发现表明，在复杂数学问题求解的背景下，速度与准确性之间存在权衡。尽管DeepSeek R1在拥有充足计算资源（即 Token 生成）时，在解决具有挑战性的问题上表现出卓越的准确性，但其性能是以显著更长的处理时间为代价的，相比之下，那些生成更简洁、但可能准确性较低的响应的模型。这突显了在选择合适的语言模型时，仔细考虑特定任务的特定要求的重要性。对于需要快速响应的任务，Mistral模型可能更为可取，而那些优先考虑复杂问题准确性的任务可能从DeepSeek R1更为谨慎、注重 Token 的方法中获益。

进一步的研究应探究DeepSeek R1的内部机制，以更好地理解“推理 Token ”的作用，并调查可能降低 Token 使用量而不牺牲准确性的潜在优化方案。此外，研究不同 Prompt 工程策略对模型性能的影响，尤其是对于DeepSeek R1这样的模型，可能为最大化其能力提供宝贵的见解。

unset

unset6总结与结论unset

unset

本研究评估了五种大语言模型在30个具有挑战性的数学问题上的表现，特别关注DeepSeek R1模型在先前时间限制下，解决其他模型无法解决的问题的能力。结果显示，当DeepSeek R1被允许生成显著更多的 Token 时，它能够在这些复杂问题上实现高精度，证实了其依赖于多步推理过程。然而，这种方法与其他模型相比， Token 数量大幅增加，表明了准确性与效率之间的权衡。

总结来说，研究结果表明在选择大语言模型来解决数学问题时，考虑任务的具体要求至关重要。虽然DeepSeek R1在解决难题时准确性突出，但其密集的token处理方式可能不适用于需要快速响应的应用。

相反，生成token较少的模型可能在速度上更快，但在复杂任务上的准确性可能较低。这项研究强调了深入理解不同大语言模型架构的优缺点的重要性，并强调了在优化性能中温度设置等因素的显著作用。

参考文献

[1]. Token-Hungry, Yet Precise: DeepSeek R1 Highlights the Need for Multi-Step Reasoning Over Speed in MATH.

点击上方卡片，关注「AI视界引擎」公众号

LLM 数学解题大比拼：DeepSeek R1 准确性领先 ！

unset

unset

unset

unset

unset