1B 参数的语言模型能否超越 405B 参数的语言模型？重新思考计算最优的测试时扩展 - 文章 - 开发者社区

论文原文：https://arxiv.org/abs/2502.06703

以下翻译基于豆包翻译整理

Runze Liu1,2,*, Junqi Gao1,3, Jian Zhao4, Kaiyan Zhang2, Xiu Li2, Biqing Qi1,†, Wanli Ouyang1和Bowen Zhou1,2,† 1上海人工智能实验室，2清华大学，3哈尔滨工业大学，4北京邮电大学

摘要

推理时缩放计算量（Test-Time Scaling, TTS）是一种通过在推理阶段增加计算资源来提升大语言模型（LLMs）性能的重要方法。然而，目前的研究并未系统分析策略模型、过程奖励模型（Process Reward Models, PRMs）和问题难度对TTS的影响。这种分析的缺失限制了人们对TTS方法的理解和实际应用。在本文中，我们聚焦两个核心问题：（1）在不同的策略模型、PRM和问题难度水平下，推理时计算量的最优缩放方法是什么？（2）扩展计算量在多大程度上能提升大语言模型在复杂任务上的性能，小语言模型能否通过这种方法超越大语言模型？通过在MATH-500和具有挑战性的AIME24任务上进行全面实验，我们有如下发现：（1）计算最优的TTS策略高度依赖于策略模型、PRM的选择以及问题的难度。（2）采用我们的计算最优TTS策略，极小的策略模型能够超越更大的模型。例如，在MATH-500任务上，一个10亿参数的大语言模型的表现可以超过4050亿参数的大语言模型。此外，在MATH-500和AIME24任务上，一个5亿参数的大语言模型的表现优于GPT-4o，一个30亿参数的大语言模型超过了4050亿参数的大语言模型，一个70亿参数的大语言模型击败了o1和DeepSeek-R1，且推理效率更高。这些发现表明了根据每个任务和模型的具体特征调整TTS策略的重要性，并表明TTS是一种提升大语言模型推理能力的有前景的方法。我们的项目网站为https://ryanliu112.github.io/compute-optimal-tts。

picture.image

图1：在MATH-500和AIME24任务上，采用计算最优TTS的较小大语言模型与采用思维链（CoT）的较大大语言模型的性能对比。（a）和（d）：Llama-3.2-3B-Instruct在MATH-500和AIME24任务上的表现优于Llama-3.1-405B-Instruct和GPT-4o；（b）和（e）：DeepSeek-R1-Distill-1.5B在MATH-500和AIME24任务上的表现优于o1-preview，且在MATH-500任务上超过o1-mini；（c）和（f）：DeepSeek-R1-Distill-7B在MATH-500和AIME24任务上击败o1，且在AIME24任务上超越DeepSeek-R1。

引言

大语言模型（LLMs）在多个领域都取得了显著进展（OpenAI, 2023; Hurst等人, 2024; Anthropic, 2023; OpenAI, 2024; DeepSeek-AI等人, 2025）。最近，OpenAI的o1（OpenAI, 2024）证明了推理时缩放计算量（TTS）可以通过在推理时分配额外计算资源来增强大语言模型的推理能力，使其成为提升大语言模型性能的有效方法（Qwen团队, 2024; Kimi团队等人, 2025; DeepSeek-AI等人, 2025）。

TTS方法主要分为两类：（1）内部TTS，训练大语言模型通过长思维链（CoT）进行 “慢思考”（OpenAI, 2024; DeepSeek-AI等人, 2025）；（2）外部TTS，通过基于采样或搜索的方法，在固定大语言模型的基础上提升推理性能（Wu等人, 2024; Snell等人, 2024）。外部TTS的关键挑战在于如何最优地缩放计算量，即为每个问题分配最优的计算资源（Snell等人, 2024）。当前的TTS方法使用过程奖励模型（PRMs）来指导生成过程并选择最终答案，从而有效地缩放推理时的计算量（Wu等人, 2024; Snell等人, 2024; Beeching等人, 2024）。这些TTS方法涉及几个重要因素，如策略模型、PRM和问题难度。然而，关于策略模型、PRM和问题难度如何影响这些TTS策略的系统分析有限。这种限制阻碍了研究人员充分理解该方法的有效性，也难以开发出计算最优的TTS策略。

为了解决这些问题，本文旨在通过全面的实验分析，研究策略模型、PRM和问题难度对TTS的影响。此外，我们还探索TTS方法的具体特性和性能边界。具体而言，我们在MATH-500（Lightman等人, 2024）和具有挑战性的AIME24（AI-MO, 2024）任务上，使用一系列PRM（涵盖不同模型系列，参数从15亿到720亿不等）和多种策略模型（涵盖两个模型家族，参数从5亿到720亿不等）进行了广泛的实验。我们的结果表明，计算最优的TTS策略在很大程度上取决于具体的策略模型、PRM和问题难度。即使是较小的模型（如10亿参数的模型），通过应用计算最优的TTS，也能在具有挑战性的推理任务中超越较大的模型（如4050亿参数的模型），甚至超越最先进的推理模型，如o1或DeepSeek-R1。

本文的贡献总结如下：

我们使用各种最新的策略模型、多个PRM、不同的缩放方法以及更具挑战性的任务，对不同的TTS方法进行了全面评估。
我们的分析强调了在TTS过程中考虑奖励影响的必要性，并引入了考虑奖励的计算最优TTS。我们还证明了计算最优的缩放策略会因不同的策略模型、PRM和问题难度而有所不同。
实证结果表明，小语言模型通过TTS超越大语言模型具有巨大潜力。使用考虑奖励的计算最优TTS策略，我们发现一个30亿参数的大语言模型的表现可以超过4050亿参数的大语言模型，一个70亿参数的大语言模型在MATH-500和AIME24任务上的表现可以超越o1和DeepSeek-R1。
实验设置与预备知识

2.1 问题公式化

我们将推理问题公式化为马尔可夫决策过程（MDP）（Sutton和Barto, 2018），由元组

(

)

定义，其中

是状态空间，

是动作空间，

→

是转移函数，

→

是奖励函数，

∈

[

]

是折扣因子。给定一个提示

∼

，参数为

的策略生成初始动作

∼

(

⋅

)

，其中

是初始状态。该策略获得奖励

(

)

，状态转移到

[

]

，这里

[

∵

⋅

]

表示两个字符串的连接。这个过程持续进行，直到达到最大步数或生成一个 <EOS>标记时，该过程结束。长度为

的轨迹表示为

⋯

。这个过程可以总结如下：

初

始

状

态

动

作

状

态

转

移

奖

励

初

始

状

态

∼

动

作

∼

(

⋅

)

状

态

转

移

(

⋅

)

[

]

奖

励

(

)

2.2 推理时缩放计算量方法

我们考虑三种TTS方法：Best-of-N（BoN）（Brown等人, 2024）、束搜索（beam search）（Snell等人, 2024）和多样化验证树搜索（Diverse Verifier Tree Search, DVTS）（Beeching等人, 2024）。正如Snell等人（2024）所指出的，由于多步采样，前瞻性搜索效率低下，因此我们不评估它或其他涉及前瞻性操作的方法，如蒙特卡洛树搜索（MCTS）。这些TTS方法如图2所示。

picture.image

Figure 2:Comparison of different external TTS methods.

Best-of-N ：在BoN方法中，策略模型生成

个响应，然后应用评分和投票方法来选择最终答案。

束搜索 ：给定束宽

和束大小

，策略模型首先生成

步。验证器选择前

步用于后续搜索。在下一步中，策略模型为每个选定的前一步采样

步。这个过程重复进行，直到达到最大深度或生成 <EOS> 标记。

多样化验证树搜索 ：为了增加多样性，DVTS将搜索过程划分为

个子树，对每个子树独立使用束搜索进行探索，从而扩展了束搜索。如Beeching等人（2024）所示，在计算预算

较大的情况下，DVTS在简单和中等难度问题上的表现优于束搜索。在Chen等人（2024）中也观察到类似的趋势，即在相同预算下，增加并行子树的数量比增加束宽更有效。

2.3 推理时最优计算量缩放

为了最大化TTS的性能，Snell等人（2024）提出了一种推理时计算最优的缩放策略，该策略为给定的推理时策略选择超参数，以最大化特定提示下的性能提升。给定提示

，令

(

)

表示参数为

且计算预算为

的策略模型对

产生的输出分布。

𝟙

∗

(

)

∗

(

)

(

∼

(

)

[

∗

(

)

]

)

其中

∗

(

)

表示

的真实正确响应，

∗

(

)

∗

(

)

表示计算预算为

时，问题

的推理时计算最优缩放策略。

重新思考推理时最优计算量缩放

3.1 计算最优的缩放策略应考虑奖励

计算最优的TTS旨在为每个问题分配最优的计算量（Snell等人, 2024）。以往关于TTS的工作使用单个PRM作为验证器（Snell等人, 2024; Wu等人, 2024; Beeching等人, 2024）。Snell等人（2024）在策略模型的响应上训练一个PRM，并将其用作验证器，与同一策略模型一起进行TTS，而Wu等人（2024）和Beeching等人（2024）则使用在不同策略模型上训练的PRM进行TTS。从强化学习（RL）的角度来看，前者得到的是一个在线策略PRM，而后者则是一个离线PRM。在线策略PRM为策略模型的响应提供更准确的奖励，而离线PRM由于分布外（OOD）问题，往往会产生不准确的奖励（Snell等人, 2024; Zheng等人, 2024）。

对于计算最优TTS的实际应用来说，为每个策略模型训练一个PRM以避免OOD问题的计算成本过高。因此，我们在更一般的情况下研究计算最优的TTS策略，即PRM可能在与用于TTS的策略模型不同的模型上进行训练。对于基于搜索的方法，PRM在每个响应步骤指导选择；对于基于采样的方法，PRM在生成后评估响应。这表明：（1）奖励在所有方法中都会影响响应选择；（2）对于基于搜索的方法，奖励还会影响搜索过程。

为了分析这些点，我们以Llama-3.1-8B-Instruct为策略模型，RLHFlow-PRM-Mistral-8B和RLHFlow-PRM-Deepseek-8B为PRM，使用束搜索进行了一个初步案例研究。图12中的结果表明，奖励显著影响生成过程和结果。RLHFlow-PRM-Mistral-8B给短响应分配高奖励，导致答案错误；而使用RLHFlow-Deepseek-PRM-8B进行搜索能产生正确答案，但使用了更多的token。在第4节中，我们还通过实验表明，奖励对TTS性能和输出token有很大影响。

基于这些发现，我们建议将奖励整合到计算最优的TTS策略中。我们将奖励函数表示为

。我们考虑奖励的计算最优TTS策略公式为：

𝟙

∗

(

)

∗

(

)

(

∼

(

)

[

∗

(

)

]

)

其中

(

)

表示在计算预算

和提示

下，由奖励函数

调整的策略模型

的输出分布。对于基于采样的缩放方法，

(

)

(

)

。这种考虑奖励的策略确保计算最优的缩放能够适应策略模型、提示和奖励函数，从而为实际的TTS提供了一个更通用的框架。

3.2 绝对问题难度标准比分位数更有效

为了考虑问题难度对TTS的影响，Snell等人（2024）根据Pass@1准确率的分位数将问题分为五个难度级别。然而，我们发现，由于不同的策略模型具有不同的推理能力，使用MATH（Hendrycks等人, 2021）中的难度级别或基于Pass@1准确率分位数的神谕标签（Snell等人, 2024）并不有效。如图3所示，Qwen2.5-72B-Instruct在76.2%的MATH-500问题上实现了超过80%的Pass@1准确率。因此，我们使用绝对阈值而不是分位数来衡量问题难度。具体来说，我们根据Pass@1准确率定义了三个难度级别：简单（50% - 100%）、中等（10% - 50%）和困难（0% - 10%）。

Refer to caption

Figure 3:Distribution of Pass@1 accuracy of Qwen2.5-72B-Instruct on MATH-500, divided into five bins.

如何最优地缩放推理时的计算量？

在本节中，我们旨在回答以下问题：

问题1：不同的策略模型和PRM如何影响TTS的提升效果？
问题2：TTS在不同难度级别的问题上如何提升效果？
问题3：PRM对特定响应长度是否存在偏好，对投票方法是否敏感？

4.1 实验设置

数据集 ：我们在竞赛级别的数学数据集上进行实验，包括MATH-500（Lightman等人, 2024）和AIME24（AI-MO, 2024）。MATH-500包含从MATH（Hendrycks等人, 2021）测试集中选取的500个代表性问题，我们沿用Snell等人（2024）和Beeching等人（2024）的做法使用这个子集。由于最近的大语言模型在数学推理方面取得了显著进展（OpenAI, 2024; DeepSeek-AI等人, 2025），我们纳入更具挑战性的AIME24进行实验。
策略模型 ：对于推理时的方法，我们使用来自Llama 3（Dubey等人, 2024）和Qwen2.5（Yang等人, 2024b）系列的不同规模的策略模型。所有策略模型均使用Instruct版本。
过程奖励模型 ：我们考虑以下开源PRM进行评估：

Math-Shepherd （Wang等人, 2024b）：Math-Shepherd-PRM-7B是在Mistral-7B（Jiang等人, 2023）上训练得到的，训练数据是由在MetaMath（Yu等人, 2024）上微调的Mistral-7B生成的PRM数据。
RLHFlow系列 （Xiong等人, 2024）：RLHFlow包括RLHFlow-PRM-Mistral-8B和RLHFlow-PRM-Deepseek-8B，它们分别在在MetaMath（Yu等人, 2024）上微调的Mistral-7B和deepseek-math-7b-instruct（Shao等人, 2024）的数据上进行训练。这两个PRM的基础模型都是Llama-3.1-8B-Instruct（Dubey等人, 2024）。
Skywork系列 （Skywork o1团队, 2024）：Skywork系列包括Skywork-PRM1.5B和Skywork-PRM-7B，分别在Qwen2.5-Math-1.5B-Instruct和Qwen2.5-Math-7BInstruct（Yang等人, 2024c）上训练。训练数据是由在数学数据集上微调的Llama-2（Touvron等人, 2023）和Qwen2-Math（Yang等人, 2024a）系列模型生成的。
Qwen2.5-Math系列 （Zhang等人, 2025）：我们评估Qwen2.5-Math-PRM-7B和Qwen2.5-Math-PRM-72B，它们分别在Qwen2.5-Math-7B-Instruct和Qwen2.5-Math-72B-Instruct（Yang等人, 2024c）上进行训练。训练数据是使用Qwen2-Math（Yang等人, 2024a）和Qwen2.5-Math系列模型（Yang等人, 2024c）生成的。在列出的所有PRM中，Qwen2.5-Math-PRM-72B是数学任务中最强的开源PRM，而Qwen2.5-Math-PRM-7B是70亿/80亿参数中能力最强的PRM，如Zhang等人（2025）所示。

评分和投票方法 ：遵循Wang等人（2024a）的方法，我们考虑三种评分方法：PRM-Min、PRM-Last和PRM-Avg，以及三种投票方法：多数投票（Majority Vote）、PRM-Max和PRM-Vote。为了获得最终答案，我们首先使用评分方法评估答案。对于长度为H的轨迹，不同评分方法对每个轨迹的评分计算如下：（1）PRM-Min通过所有步骤中的最小奖励对每个轨迹进行评分，即

min

；（2）PRM-Last通过最后一步的奖励对每个轨迹进行评分，即

；（3）PRM-Avg通过所有步骤的平均奖励对每个轨迹进行评分，即

∑

。然后，投票方法汇总分数以确定最终答案。多数投票选择得票最多的答案（Wang等人, 2023），而PRM-Max选择得分最高的答案，PRM-Vote首先累加所有相同答案的分数，然后选择得分最高的答案。

我们使用OpenR2（一个开源的大语言模型推理框架）作为代码库。在大多数实验中，我们使用

{

256

}

作为计算预算。步骤的划分遵循先前工作（Xiong等人, 2024; Zhang等人, 2025）中的

格式。对于束搜索和DVTS，束宽设置为4。思维链（CoT）的温度为0.0，而其他方法的温度为0.7。对于CoT和BoN，我们将新生成的令牌的最大数量限制为8192。对于基于搜索的方法，每个步骤的令牌限制为2048，总响应的令牌限制为8192。

4.2 不同的策略模型和PRM如何影响TTS的提升效果？（问题1）

Refer to caption

Figure 4:Performance of Llama-3.1-8B-Instruct and Qwen2.5-7B-Instruct on MATH-500 with different PRMs and TTS strategies.

picture.image

Figure 5:Performance of Llama-3.1-8B-Instruct and Qwen2.5-7B-Instruct on AIME24 with different PRMs and TTS strategies.

PRM很难在不同的策略模型和任务中通用。如图4所示，对于Llama-3.1-8B-Instruct，使用Skywork和Qwen2.5-Math的PRM时，基于搜索的方法的性能随着计算预算的增加而显著提升，而使用Math-Shepherd和RLHFlow的PRM进行搜索的结果仍然相对较差，甚至比多数投票还差。对于Qwen2.5-7B-Instruct，使用Skywork-PRM-7B和Qwen2.5-Math的PRM进行搜索时，性能随着预算的增加而提升良好，而其他PRM的性能仍然不佳。在图5中，尽管两个策略模型的Pass@k准确率随着计算预算的增加有很大提升，但TTS的性能提升仍然较为温和。这些结果表明，PRM在不同的策略模型和任务中，尤其是在更复杂的任务中，通用性特别具有挑战性。

最优的TTS方法取决于所使用的PRM。如图4所示，在使用Math-Shepherd和RLHFlow的PRM时，BoN在大多数情况下优于其他策略，而使用Skywork和Qwen2.5-Math的PRM时，基于搜索的方法表现更好。这种差异的发生是因为对分布外（OOD）的策略响应使用PRM会导致次优答案，因为PRM在不同策略模型之间的通用性有限。此外，如果我们使用OOD的PRM选择每个步骤，很可能会得到陷入局部最优的答案，从而使性能恶化。这也可能与PRM的基础模型有关，因为在Qwen2.5-Math-7B-Instruct上使用PRM800K（Lightman等人, 2024）训练的PRM比以Mistral和Llama为基础模型的PRM通用性更好（Zhang等人, 2025）。第4.4节和附录C提供了进一步的分析。这些结果表明，最优TTS策略的选择取决于所使用的特定PRM，强调了在计算最优的TTS中考虑奖励信息的重要性。我们还探索了TTS性能与不同PRM的过程监督能力之间的关系。如图6所示，TTS性能与PRM的过程监督能力呈正相关，拟合函数为

7.66

(

)

44.31

，其中Y代表TTS性能，X代表PRM的过程监督能力（Zhang等人, 2025）。

picture.image

Figure 6:The relationship between TTS performance and process supervision abilities of different PRMs on MATH, where the size of each circle represents the number of parameters of the PRM and the curve represents the fitted function.

picture.image

Figure 7:TTS performance of policy models with parameters from 0.5B to 72B on MATH-500 with different scaling methods.

最优的TTS方法因策略模型而异。为了研究策略模型的参数与最优TTS方法之间的关系，我们使用Qwen2.5系列大语言模型（Yang等人, 2024b）进行了实验，包括参数为5亿、15亿、30亿、70亿、140亿、320亿和720亿的模型。图7中的结果表明，最优的TTS方法取决于特定的策略模型。对于小策略模型，基于搜索的方法优于BoN，而对于大策略模型，BoN比基于搜索的方法更有效。这种差异的原因是较大的模型具有更强的推理能力，不需要验证器进行逐步选择。相比之下，较小的模型依赖验证器选择每个步骤，以确保每个中间步骤的正确性。

4.3 TTS在不同难度级别的问题上如何提升效果？（问题2）

遵循Snell等人（2024）的方法，我们对不同难度级别的任务进行了全面评估。然而，正如第3.2节所解释的，我们观察到使用MATH（Hendrycks等人, 2021）中定义的难度级别或基于Pass@1准确率分位数的神谕标签（Snell等人, 2024）并不合适，因为不同的策略模型表现出不同的推理能力。为了解决这个问题，我们根据Pass@1准确率的绝对值将难度级别分为三组：简单（50% - 100%）、中等（10% - 50%）和困难（0% - 10%）。

最优的TTS方法因不同的难度级别而异。图8和图9中的结果表明，对于小策略模型（即参数少于70亿的模型），BoN在简单问题上表现更好，而束搜索在更难的问题上效果更好。对于参数在70亿到320亿之间的策略模型，DVTS在简单和中等问题上表现良好，而束搜索在困难问题上更可取。对于参数为720亿的策略模型，BoN是所有难度级别下的最佳方法。

picture.image

Figure 8:TTS performance of three Llama policy models on MATH-500 with three difficulty levels.

4.4 PRM对特定响应长度是否存在偏好，对投票方法是否敏感？（问题3）

PRM对步骤长度存在偏好。

picture.image

尽管在之前的实验中我们在相同的预算下进行TTS，但我们发现不同PRM的推理令牌数量差异很大。例如，在相同的预算和相同的策略模型下，使用RLHFlow-PRM-Deepseek-8B进行缩放的推理令牌数量始终比RLHFlow-PRM-Mistral-8B多，几乎是其两倍。RLHFlow系列PRM的训练数据是从不同的大语言模型中采样得到的，这可能导致对输出长度的偏好。为了验证这一点，我们分析了RLHFlow-PRM-Mistral-8B和RLHFlow-PRM-Deepseek-8B训练数据的几个属性。如表1所示，DeepSeek-PRM-Data的每个响应的平均令牌数和每个步骤的平均令牌数都大于Mistral-PRM-Data，这表明RLHFlow-PRM-Deepseek-8B的训练数据比RLHFlow-PRM-Mistral-8B更长。这可能导致对输出长度的偏好。我们还发现，使用Qwen2.5-Math-7B进行缩放的推理令牌数量比Skywork-PRM-7B多，但性能非常接近，这表明使用Skywork-PRM-7B进行搜索比使用Qwen2.5-Math-7B更有效。

PRM对投票方法敏感。

picture.image

从表2中的结果可以看出，Skywork-PRM-7B使用PRM-Vote的效果比使用PRM-Max更好，而Qwen2.5-Math-PRM-7B对投票方法不太敏感。主要原因是Qwen2.5-Math的PRM的训练数据是使用大语言模型作为评判（LLM-as-a-judge）（Zheng等人, 2023）进行处理的，这去除了训练数据中被标记为正步骤的错误中间步骤，使得输出的高奖励值更有可能是正确的。这表明PRM的训练数据对于提高在搜索过程中发现错误的能力很重要。

推理时最优计算量缩放的结果

使用第4节中探索的推理时最优计算量缩放策略，我们进行了进一步的实验，以探索以下问题：

问题4：使用推理时最优计算量缩放策略，较小的策略模型能否超越较大的模型？
问题5：与思维链（CoT）和多数投票相比，推理时最优计算量缩放有何改进？
问题6：TTS比基于长思维链的方法更有效吗？

5.1 使用推理时最优计算量缩放策略，较小的策略模型能否超越较大的模型？（问题4）

对小策略模型进行推理时计算量的缩放对于提高大语言模型的推理性能至关重要。我们想知道使用推理时最优计算量缩放策略，较小的策略模型是否能超越较大的模型，甚至超越GPT-4o、o1和DeepSeek-R1。首先，我们在MATH-500和AIME24上比较了Llama-3.2-3B-Instruct（推理时最优计算量缩放）和Llama-3.1-405B-Instruct（思维链）的性能。此外，我们还在上述两个任务上比较了Qwen2.5-0.5B-Instruct、Qwen2.5-1.5B-Instruct、Llama-3.2-1B-Instruct和Llama-3.2-3B-Instruct与GPT-4o的性能。由于AIME24对当前的大语言模型来说具有挑战性，我们还在AIME24上比较了DeepSeek-R1-Distill-Qwen-1.5B和DeepSeek-R1-Distill-Qwen-7B与o1的性能。

Table 3:Comparison of small policy models (compute-optimal TTS) with frontier reasoning LLMs (CoT) on MATH-500 and AIME24.

picture.image

从表3中的结果，我们有以下观察：（1）使用推理时最优计算量缩放策略的Llama-3.2-3B-Instruct在MATH-500和AIME24上的表现优于Llama-3.1-405B-Instruct，这意味着较小的模型使用推理时最优计算量缩放策略可以超越比其大135倍的模型。与之前关于TTS的工作（Snell等人, 2024; Beeching等人, 2024）相比，我们将结果提高了487.0%（23对135）。（2）如果我们进一步将计算预算增加到

512

，使用推理时最优计算量缩放策略的Llama-3.2-1B-Instruct在MATH-500上的表现优于Llama-3.1-405B-Instruct，但在AIME24上的表现不如Llama-3.1-405B-Instruct。（3）使用推理时最优计算量缩放策略的Qwen2.5-0.5B-Instruct和Llama-3.2-3B-Instruct的表现优于GPT-4o，这表明小模型使用推理时最优计算量缩放策略可以超越GPT级别的性能。（4）使用推理时最优计算量缩放策略的DeepSeek-R1-Distill-Qwen-1.5B在MATH-500和AIME24上的表现优于o1-preview和o1-mini。我们还表明，使用推理时最优计算量缩放策略的DeepSeek-R1-Distill-Qwen-7B在MATH-500和AIME24上的表现优于o1和DeepSeek-R1。这些结果表明，推理增强的小模型使用推理时最优计算量缩放策略可以超越前沿的推理大语言模型。

FLOPS比较 ：为了回答推理时最优计算量缩放是否比增加模型大小更有效的问题，我们按照Snell等人（2024）的方法，在表4中比较了评估模型的FLOPS，计算出的FLOPS与表3中的结果相对应。从结果中可以看出，小策略模型即使在推理FLOPS较少的情况下也能超越大模型，并且总FLOPS减少了100到1000倍。

Table 4:FLOPS comparison between smaller policy models (compute-optimal TTS) and larger ones (CoT).

picture.image

5.2 与思维链（CoT）和多数投票相比，推理时最优计算量缩放有何改进？（问题5）

基于对不同策略模型、PRM和难度级别的推理时最优计算量缩放的研究结果，我们在表5中总结了每个策略模型在MATH-500上的推理时最优计算量缩放的结果。我们发现，推理时最优计算量缩放比多数投票效率高256倍，并且比思维链（CoT）的推理性能提高了154.6%。这些结果表明，推理时最优计算量缩放显著增强了大语言模型的推理能力。然而，随着策略模型参数数量的增加，TTS的改进逐渐减少。这表明TTS的有效性与策略模型的推理能力直接相关。具体来说，对于推理能力较弱的模型，缩放推理时的计算量会带来显著的改进，而对于推理能力较强的模型，增益则有限。

picture.image

5.3 TTS比基于长思维链的方法更有效吗？（问题6）

最近，基于长思维链的方法在数学推理方面取得了显著进展（Guan等人, 2025; Cui等人, 2025; Zeng等人, 2025; DeepSeek-AI等人, 2025）。我们将TTS的性能与这些方法进行了比较。

实验设置 ：我们评估了以下方法：（1）rStar-Math（Guan等人, 2025）：该方法首先通过MCTS生成推理数据，然后进行在线策略和偏好模型学习。（2）Eurus-2（Cui等人, 2025）：该方法通过隐式过程奖励和在线强化学习来增强大语言模型的推理能力。（3）SimpleRL（Zeng等人, 2025）：该方法仅使用8K训练数据进行自我反思。（4）Satori（Shen等人, 2025）：该方法首先学习格式，然后通过强化学习提高推理能力。（5）DeepSeek-R1-Distill-Qwen-7B（DeepSeek-AI等人, 2025）：该方法从具有6710亿参数的DeepSeek-R1中提取800K高质量推理样本，蒸馏到一个70亿参数的大语言模型中。
结果：如表6所示，我们发现使用Qwen2.5-7B-Instruct的TTS在MATH-500和AIME24上的表现优于rStar-Math、Eurus-2、SimpleRL和Satori。然而，虽然TTS在MATH-500上的性能与DeepSeek-R1-Distill-Qwen-7B接近，但在AIME24上却有显著下降。这些结果表明，TTS比在通过MCTS生成的数据上应用直接强化学习或监督微调（SFT）的方法更有效，但比从强推理模型中蒸馏的方法效果差。此外，TTS在较简单的任务上比在更复杂的任务上更有效。

picture.image

相关工作

6.1 大语言模型推理时缩放计算量

缩放大语言模型推理时的计算量是提高性能的有效方法（OpenAI, 2024）。先前的工作探索了多数投票（Wang等人, 2023）、基于搜索的方法（Yao等人, 2023; Xie等人, 2023; Khanov等人, 2024; Wan等人, 2024）和优化（Qu等人, 2024）来提高性能。对于验证引导的推理时计算，Brown等人（2024）探索了使用重复采样和领域验证器的推理计算，而Kang等人（2024）、Wu等人（2024）和Snell等人（2024）进一步探索了由过程奖励引导的基于搜索的方法，Wang等人（2024c）将这种设置扩展到视觉语言模型（VLMs）。为了消除对外部奖励模型的需求和大量样本的生成，Manvi等人（2024）提出了一种用于自适应和高效推理时计算的自我评估方法。最近的一项工作（Beeching等人, 2024）通过具有多样性的搜索方法探索TTS。然而，这些工作缺乏对强大验证器或不同规模/能力策略的评估。在本文中，我们旨在使用最新的策略和验证器、更具挑战性的任务进行更系统的评估，并为实际的TTS提供一些原则。

6.2 提高大语言模型的数学推理能力

先前提高数学推理能力的方法可分为训练阶段方法和推理阶段方法。在训练阶段，以往的工作探索了大规模数学语料库预训练（OpenAI, 2023; Azerbayev等人, 2024; Shao等人, 2024）和监督微调（Luo等人, 2023; Yu等人, 2024; Gou等人, 2024; Tang等人, 2024; Tong等人, 2024; Zeng等人, 2024）以提升数学能力。另一类工作探索自训练和自我改进策略（Zelikman等人, 2022; Gulcehre等人, 2023; Trung等人, 2024; Hosseini等人, 2024; Zelikman等人, 2024; Zhang等人, 2024a; Setlur等人, 2024a; Kumar等人, 2024; Cui等人, 2025），通过在自我生成的解决方案上进行微调来提高推理能力。最近，许多工作借助长思维链（Qin等人, 2024; Huang等人, 2024; Kimi, 2024; DeepSeek-AI等人, 2025; Qwen团队, 2024; Skywork, 2024; Zhao等人, 2024）来提升数学推理能力，正如OpenAI o1（OpenAI, 2024）通过长思考展现出强大的推理能力。

在推理阶段，基于提示的方法得到了广泛研究，旨在不改变模型参数的情况下增强推理能力。思维链（Chain-of-Thought，CoT）（Wei等人, 2022）及其变体（Yao等人, 2023; Leang等人, 2024）等技术引导模型将问题分解为可管理的子步骤，从而提高数学推理的准确性和连贯性。除了提示策略，自我优化技术（Madaan等人, 2023）允许模型审查和纠正其输出，而外部工具集成（Gao等人, 2023; Chen等人, 2023）利用程序解释器或符号操作器进行精确计算和验证。自我验证方法（Weng等人, 2023）使模型能够评估自身推理过程的正确性，进一步提高稳健性。这些推理阶段策略与训练阶段的改进相辅相成，共同显著提升了大语言模型的数学推理能力。我们的工作主要通过由PRM引导的搜索方法来缩放推理时的计算量，从而增强推理性能。

6.3 过程奖励模型

先前的工作表明，过程奖励模型（PRMs）比结果奖励模型（ORMs）更有效（Uesato等人, 2022; Lightman等人, 2024）。然而，收集高质量的PRMs数据，如PRM800K（Lightman等人, 2024），通常成本较高。研究人员探索了通过直接蒙特卡罗估计（Wang等人, 2024b）、检测ORMs的相对分数（Lu等人, 2024）以及带有二分搜索的高效MCTS（Luo等人, 2024）来自动收集PRM数据。最近，从优势建模（Setlur等人, 2024b）、Q值排序（Li和Li, 2024）、隐式奖励（Yuan等人, 2024）和熵正则化（Zhang等人, 2024b）等角度探索了更先进的PRMs。此外，更多开源的PRMs被发布（Xiong等人, 2024; Skywork, 2024; Zhang等人, 2024b; Li和Li, 2024; Yuan等人, 2024; Zhang等人, 2025），在数学任务上表现出强大的性能。随着PRMs的快速发展，ProcessBench（Zheng等人, 2024）和PRMBench（Song等人, 2025）被提出，用于对PRMs进行全面评估。Zhang等人（2025）为PRMs的实际开发提供了指导方针，并发布了目前数学任务中能力最强的PRMs。

结论与讨论

在本文中，我们从不同策略模型、PRMs以及更具挑战性的评估任务等角度，对推理时最优计算量缩放进行了全面的实证分析。我们的研究结果表明，推理时最优计算量缩放策略依赖于策略模型、PRMs和问题难度，这证实了在应用推理时最优计算量缩放时，较小的语言模型能够比大型模型表现更优。我们的结果显示，一个10亿参数的模型通过TTS可以实现比4050亿参数模型更好的性能。此外，我们证明了一个70亿参数的PRM通过监督能力更强的720亿参数策略模型，可以获得很强的TTS结果，这表明研究真正的 “以弱监督强” 方法的重要性，而不是当前用于策略优化的 “以强监督弱” 方法。为了实现这一目标，我们需要开发更高效的监督方法，因为基于PRM和基于强化学习的方法都因依赖高质量监督而存在局限性。未来的工作应专注于开发更具适应性和通用性的监督机制，以提升小语言模型在复杂任务上的性能，并为开发高效推理策略提供新方法。

局限性

尽管我们对TTS在数学任务上进行了全面评估，但仍存在一些局限性和未来探索方向：（1）将TTS扩展到更多任务，如编码和化学任务；（2）探索更有效的推理时最优计算量缩放方法。