R1-VL登场 | 清华团队提出StepGRPO逐步奖励机制，重塑AI推理范式 - 文章 - 开发者社区

导读

近期研究通常通过在高质量思维链推理数据上进行的监督微调来增强多语言语言模型（MLLMs）的推理能力，这往往导致模型仅仅模仿成功的推理路径，而不理解错误的推理路径是什么。

在本工作中，作者旨在提升MLLMs的推理能力，使其超越被动模仿正面的推理路径。为此，作者设计了逐步分组相对策略优化（StepGRPO），一个新的在线强化学习框架，它使MLLMs能够通过简单、有效且密集的逐步奖励来自我提升推理能力。具体来说，StepGRPO引入了两种基于规则的推理奖励：逐步推理准确度奖励（StepRAR）和逐步推理有效性奖励（StepRVR）。StepRAR通过软键步匹配技术奖励包含必要中间推理步骤的推理路径，而StepRVR通过推理完整性和逻辑评估策略奖励遵循良好结构化和逻辑一致的推理过程的推理路径。

通过提出的StepGRPO，作者引入了R1-VL，一系列在逐步推理方面具有卓越能力的MLLMs。在8个基准上的大量实验证明了R1-VL的优势。

引言

多模态大语言模型（MLLMs）在视觉语言理解方面取得了显著进展[1,7, 13, 16, 19, 34, 40, 46]。近期的研究工作通常通过在由强大模型（如GPT4）生成的高质量思维链（CoT）推理数据上应用监督微调（SFT）来增强MLLMs的推理能力[33, 41, 42, 49]。例如，Mulberry[42]引入了CoMCTS，该技术利用多个模型集体搜索和识别有效的推理路径，随后对收集到的推理数据进行SFT。然而，SFT方法仅关注正推理路径（即那些导致正确答案的路径），而负推理路径则被大量忽视。这种局限性可能导致模型仅仅模仿成功的推理路径，而不理解哪些是错误的推理路径。

在本工作中，作者旨在提升MLLMs的推理能力，使其超越被动模仿正向推理路径。近年来，自然语言处理（NLP）领域的进展，如Deepseek-R1[12]和Kimi-K1.5[32]，已显示出通过主动自我探索来激励LLMs推理能力的巨大潜力。这些进展的核心设计（例如，Deepseek-R1中的GRPO）在于无需奖励模型的在线强化学习，这鼓励LLMs生成一组推理路径，并通过基于规则奖励函数对生成的推理路径进行奖励，从而迭代地优化其推理过程。通常，采用结果层奖励策略：导致正确答案的推理路径获得更高的奖励，而那些导致错误答案的则获得较低的奖励。

直观的想法是直接将这些简单有效的LLM在线强化学习方法应用于MLLM。然而，像Deepseek-R1的GRPO那样仅依靠结果级奖励，在MLLM推理学习上往往遭受Sparse奖励问题，导致性能不佳。具体来说，大多数MLLM，尤其是较小的MLLM，在长链推理的准确性和有效性方面表现出非常有限的能力，而只有少数由MLLM生成的推理路径能够获得正面的/高奖励。这种缺乏正面奖励信号降低了探索效率，并导致学习过程不稳定，如图1所示。

picture.image

作者提出通过引入密集的逐步推理奖励来解决Sparse奖励问题，同时补充Sparse的结果级奖励。为此，作者设计了逐步组相对策略优化（StepGRPO），这是一种新的在线强化学习框架，它使多语言语言模型能够通过简单、有效且密集的逐步奖励来自我提升推理能力，而无需额外的过程奖励模型。具体来说，StepGRPO引入了两种基于规则的推理奖励机制：逐步推理准确性奖励（StepRAR）和逐步推理有效性奖励（StepRVR）。

StepRAR通过软键步匹配技术奖励推理路径，该技术评估推理路径是否包含关键的中间推理步骤（即达到正确最终解决方案的必要步骤）。StepRVR基于推理完整性和逻辑评估方法奖励推理路径，该方法评估推理过程是否结构良好且逻辑一致。因此，StepRAR和StepRVR通过提供具有信息量的奖励来帮助缓解Sparse奖励问题，即使推理路径没有产生正确的最终答案——只要它包含关键的中间推理步骤或遵循结构化和逻辑化的推理过程。使用StepRAR和StepRVR，StepGRPO将一组采样推理路径的平均步级推理奖励作为 Baseline 来估计策略优化的优势。利用所提出的StepGRPO，作者开发了R1-VL，一系列具有类似R1的逐步推理能力的多语言长文本模型。

StepGRPO提出的方案具有两个关键优势。1）有效性。StepGRPO引入了带有群体相对优化的两步推理奖励机制，在整个推理轨迹中，除了最终答案之外，提供了丰富且细致的步推理奖励。这缓解了奖励Sparse的问题，并鼓励了更结构化、逻辑一致的推理轨迹。2）效率。StepGRPO以基于规则的方式实现步推理奖励，在提供步推理奖励的同时，消除了过程奖励模型的需求。这显著降低了计算开销，同时保持了细致的步推理监督。

本工作的主要贡献有三点。首先，作者提出了StepGRPO，一种新的在线强化学习框架，它通过简单、有效且密集的逐步奖励，使多语言大语言模型（MLLMs）能够自我提升推理能力。其次，作者设计了两种新颖的基于规则的推理奖励机制，即逐步推理准确度奖励和逐步推理有效性奖励，这些机制能够有效缓解MLLMs的Sparse奖励问题，而无需使用过程奖励模型。第三，利用提出的StepGRPO，作者开发了R1-VL，这是一系列具有优越推理能力的MLLMs。第四，在多个基准上的广泛实验表明，与最先进的MLLMs相比，R1-VL实现了更优异的性能。

相关工作

2.1 多模态大语言模型

多模态大语言模型（MLLMs）[1, 7, 13, 16, 19, 34, 40, 46, 47]在广泛的视觉-语言理解任务中取得了显著进展，展示了其在理解和分析不同应用领域的视觉内容方面的能力。早期对MLLMs的研究主要集中于基于文本 Prompt 的文本生成以及输入多种模态，如图像[18, 19]、视频[8, 31]。近期的研究进一步从多个方面提升了MLLMs的能力。例如，近期模型[23, 39]整合了除文本和图像之外的多模态输入和输出，如视频、音频和点云输入。此外，一些研究尝试将MLLMs应用于特定领域的任务，例如医学图像理解[15, 17, 50]和文档分析[20, 44]。在本工作中，作者专注于提升MLLMs在解决复杂推理任务中的推理能力，并介绍了R1-VL，这是一系列具有优越推理能力的MLLMs。

2.2 多语言语言模型推理

受NLP在推理学习和处理复杂语言任务方面取得的进展[26]的启发，近期研究试图提升多语言语言模型（MLLM）的推理能力。通常，当前的MLLM推理方法通过使用强大的模型（例如GPT-4）生成高质量的思维链（CoT）数据，并使用收集到的数据进行监督微调[9, 33, 41, 42, 49]来提升MLLM的推理能力。例如，LLaVA-COT[41]通过结构化的推理模板（即摘要、标题、推理和结论） Prompt GPT-4生成CoT数据，然后对生成数据进行微调。Mulberry[42]将集体蒙特卡洛树搜索（MCTS）引入MLLM，并提出了CoMCTS，该算法利用多个模型互补的知识来协同搜索和识别有效的推理路径。与这些工作不同，作者的目标是通过对在线强化学习进行自我探索来提升MLLM的推理能力，并设计了StepGRPO，它使MLLM能够通过逐步的奖励信号自我提升推理能力。

2.3 强化学习

强化学习（RL）[14]是机器学习中的一个基本方法，其中智能体通过采取行动、接收奖励和更新其策略来学习与环境交互，以最大化长期回报。典型的RL方法，如Q学习[38]，已在机器人学、游戏（例如AlphaGo）和自主控制等领域得到广泛应用。随着大语言模型（LLMs）[3, 25, 27]的兴起，强化学习与人类反馈（RLHF）[2]已成为利用人类偏好数据进行模型微调的关键技术。RLHF利用类似近端策略优化（PPO）[29]和直接偏好优化（DPO）[28]的算法来引导模型行为，以改善响应生成的对齐、一致性和有用性。

近期，强化学习（RL）被越来越多地应用于增强大语言模型（LLMs）的推理能力[4, 6, 12, 22, 32, 45]，尤其是在解决数学问题方面。其核心是采用适当的奖励函数或模型，评估并强化高质量的推理路径，同时惩罚低质量的路径，利用强化学习算法引导模型的优化，使其朝着更加结构化和连贯的推理轨迹发展。例如，ReST-MCTS*[45]训练了一个过程奖励模型（PRM），用于确定推理路径中每一步推理的正确性。最近的研究发现，使用简单的基于结果的规则奖励函数（即，导致正确答案的推理轨迹获得更高的分数）已经能够在强化学习过程中提供有效且可靠的奖励信号[12, 22, 32]。例如，DeepSeek-R1[12]展示了基于结果的策略优化（GRPO）[30]在强化学习过程中有效地增强了LLMs的推理能力。在本工作中，作者旨在通过强化学习提高多语言大语言模型（MLLMS）的推理能力，并提出了StepGRPO，该算法有效地解决了MLLMS中的Sparse奖励问题，从而实现了稳定的训练过程和更好的推理能力。

方法

本节首先介绍了任务表述，然后提出了逐步分组相对策略优化（StepGRPO）方法。更多细节将在后续小节中进行详细阐述。

3.1 任务表述

在本文中，作者考虑一个预训练的多模态语言模型（MLLM），并将其表示为策略模型

。给定一个包含图像和文本任务指令的多模态问题

，即

文

本

图

像

，策略模型

通过逐步推理轨迹生成响应 c。通常，这个过程可以表示为一系列的下一个 Token 预测动作，即

，其中每个动作

都是从策略模型

中采样的，

代表最大序列长度。在每个动作之后，新的状态

通过将当前状态

更新为新生成的动作

而确定，即

。

考虑到这种公式，作者任务的目标是优化策略模型

，使其能够根据先前状态选择更好的动作，从而提高推理质量。在强化学习（RL）的背景下，策略模型通常通过最大化累积奖励来优化，其中在状态

下采取动作

的奖励表示为

。遵循先前的研究 [42]，本文中将动作定义为生成一个推理步骤，该步骤包含一个或多个包含多个单词 Token 的句子。

3.2. 逐步分组相对策略优化

作者提出了一种名为逐步分组相对策略优化（StepGRPO）的新型在线强化学习微调框架，该框架旨在缓解多语言语言模型（MLLLMs）的Sparse奖励问题，并通过简单、有效且密集的逐步奖励机制促进推理能力的自我提升。如图2所示，StepGRPO包括两个阶段：（1）策略预热阶段和（2）逐步在线策略优化阶段。整体算法如算法1所示。

picture.image

3.2.1 政策预热

本阶段为策略模型配备了基本的推理能力，确保其在强化学习之前能够生成适当的逐步推理路径。在预热阶段，策略模型使用包含思维链（CoT）推理路径的多模态数据集

进行微调，其中每个数据由一个多模态问题

和一个逐步推理路径

组成，即

3.2.2. 分步在线策略优化

本阶段通过在线强化学习使MLLMs能够自我提升推理能力，通过逐步推理奖励缓解了Sparse奖励问题。如图2所示，对于每个问题

，策略模型

首先通过多次模拟生成一组

推理轨迹，即

，其中

。在获得一组

推理轨迹后，作者采用作者提出的逐步推理奖励来评估和奖励每个生成的推理轨迹。具体来说，作者引入两种基于规则的逐步奖励，即逐步推理准确率（StepRAR）奖励和逐步推理有效性（StepRVR）奖励。

步骤推理准确率奖励（StepRAR）通过额外奖励包含有助于最终解决方案的正确中间推理步骤的推理路径，从而减少从Sparse奖励中学习的效果。具体来说，对于每个问题

，作者从数据集

中对应的推理路径

预提取一组关键推理步骤

。作者将关键步骤定义为直接贡献于最终解决方案的基本变量和方程，并 Prompt GPT-4 从每个问题的推理路径中提取几个关键步骤。

为确保高效奖励分配，作者通过去除冗余内容并保留推理所需的核心少数词汇来优化提取的步骤。此外，作者将每个提取的关键步骤扩展到多个等效格式，以允许更灵活和准确的匹配，防止因格式差异而错过匹配。例如，一个数学表达式

被扩展为“

”或“

divided by 3 equals

”。通过提取的关键推理步骤

和这种软搜索机制，作者根据匹配的关键步骤的比例计算每个生成的推理路径的匹配分数，即

。然后，StepRAR

对于

的定义如下：

若

其中

是从 CoT 推理路径中提取的真实答案。

通过利用预先提取的关键推理步骤，StepRAR高效地通过简单的软匹配机制提供额外的监督，确保模型学习有意义的推理过程，而不是随机猜测答案。

逐步推理有效性奖励（StepRVR）旨在确保生成的路径遵循逻辑结构和连贯的进展，而不仅仅是推理的准确性。先前的研究[41, 42]表明，结构化推理，如问题分解和逐步推理，有助于更准确和可解释的推理过程，因为它们鼓励模型将复杂问题分解为多个中间步骤，而不是直接生成答案。

受这些发现启发，作者引入逐步推理有效性来强化遵循预期逻辑流程的有序推理路径。具体来说，作者使用两个关键标准来定义StepRVR：推理完整性

和推理逻辑

。推理完整性要求回答包含三个基本组成部分，即涉及图像描述和理由分析的背景分析以建立上下文、逐步推理过程和最终答案。除了推理完整性之外，推理逻辑确保推理路径遵循逻辑进展，其中背景分析必须在解决方案步骤之前，而最终答案应在推理步骤完成后才出现。

基于这两个标准，作者定义StepRVR为

只有当推理轨迹同时满足完整性和逻辑一致性时，才会得到奖励。通过强制执行这一规则，StepRVR帮助模型生成结构化、可解释且逻辑上合理的推理轨迹，从而提升生成响应的质量和可靠性。

逐步奖励优化。在获得两种类型的逐步奖励后，作者计算每个推理路径的整体奖励为

，并反复计算所有生成的推理路径的奖励，即

。为了估计每个推理轨迹的优势，作者将其奖励相对于群体进行归一化，具体如下：

在均值组奖励作为基准的情况下，

衡量

相对于组内其他推理轨迹的优劣程度。在此基础上，作者通过以下定义的损失函数来优化策略模型：

在策略模型中采用KL散度进行正则化，以防止与参考模型过度偏离。参考模型通常初始化为与策略模型相同的模型，但在RL训练过程中保持冻结。策略模型与参考模型之间的KL散度估计方法如[30]所述：

实验

本节分别介绍了实验部分，包括数据集和实现细节、主要实验结果、消融研究和讨论。更多细节将在后续子节中进行描述。

4.1 数据集

对于策略预热，作者采用Mulberry-260k [42]进行监督微调。对于逐步在线策略优化，作者从Mulberry-260k中随机抽取10K数据作为作者的训练数据。在评估方面，作者采用8个广泛使用的多模态基准来全面评估作者提出的StepGRPO，包括MathVista [21]、MMStar [5]、Math-Vision [36]、ChartQA [24]、DynaMath [51]、HallusionBench [11]、MathVerse [48]和MME [10]。这些多模态基准涵盖了从数学推理、图表理解、视觉幻觉到一般视觉理解等广泛的任务范围。

4.2 实施细节

作者提出的StepGRPO方法通常适用于不同的多语言语言模型。在实验中，作者采用了两种最先进的开源多语言语言模型，即Qwen2-VL-2B和Qwen2-VL7B[37]。在策略预热阶段，作者将训练批次大小设置为128。遵循先前的研究[42]，作者分别为Qwen2-VL-2B和Qwen2-VL7B设置了学习率

和

。

对于逐步在线策略优化阶段，作者对每个问题进行4次 rollout（

），并将采样温度设置为1.2，以鼓励多样化的推理路径。最大序列长度设置为

，确保模型能够生成完整的推理路径。策略模型和参考模型均在预热后从模型初始化，参考模型在强化学习训练期间冻结。策略模型的学习率为

，作者将批量大小设置为4。作者将匹配分数系数

设置为0.1，以平衡其影响。遵循[35]，方程5中的KL散度系数

默认设置为0.04。所有实验均在4个H100-80GB GPU上运行。

4.3 主要实验结果

作者对R1-VL在八个广泛使用的基准上进行全面评估，并将其与各种最先进的MLLM进行比较，如表1所示。

picture.image

首先，作者将R1-VL与其 Baseline 模型Qwen2-VL-2B和Qwen2-VL-7B进行比较。从表1中，作者观察到直接将GRPO应用于 Baseline 模型往往会导致性能下降，这主要是由于Sparse奖励问题。 Baseline 模型表现出有限的推理能力，导致很少的推理路径获得奖励，这对推理能力产生了负面影响。相比之下，R1-VL结合作者提出的StepGRPO方案，能够显著提升 Baseline 模型，相较于Qwen2-VL-2B提升了4.6%，相较于Qwen2-VL-7B提升了3.8%。这种提升主要归因于StepGRPO引入了逐步推理的准确性和有效性奖励，在每个推理步骤提供了丰富且信息量大的监督，有效缓解了对于多语言大语言模型（MLLMs）的Sparse奖励问题。

此外，作者将R1-VL与现有的最先进的推理多语言大模型进行了比较。如表1所示，R1-VL在大多数基准测试中取得了更好的性能，尤其是在数学推理任务上。例如，R1-VL-7B在推理密集型基准测试MathVista上分别超越了Mulberry-7B和LlamaV-01-11B，分别提高了0.6%和9.3%。值得注意的是，R1-VL-2B甚至优于更大的MLLMs。例如，R1-VL-2B在MathVista上分别大幅超越了LLaVA-Reasoner-8B和LLaVA-CoT-11B，分别提高了13.1%和9.3%。这种优越的性能表明，StepGRPO通过鼓励通过逐步在线强化学习进行自我提升，而不是仅仅模仿积极的推理路径，有效地增强了MLLMs的推理能力。

此外，作者将R1-VL与通用多语言语言模型（MLLMs）进行了基准测试，包括GPT4o和Claude-3.5 Sonnet等闭源模型，以及Cambrain-1-8B和DeepSeek-VL2-MOE-4.5B等开源模型。作者发现R1-VL在大多数开源MLLMs中表现更优，并且在闭源模型方面也取得了具有竞争力的结果。例如，R1-VL-7B在MathVista上的准确率达到63.7，与GPT-4o的63.8准确率相近。这些结果进一步验证了StepGRPO在增强MLLM推理能力方面的有效性。

4.4. 消融研究

作者对StepGRPO在MathVista基准测试上的Qwen2-VL-7B数据集进行了消融研究，以检验逐步推理奖励（包括逐步推理准确度奖励（StepRAR）和逐步推理有效性奖励（StepRVR））的影响，以及预热阶段的作用。如表2所示，包含预热阶段将 Baseline 模型提升至61.2%，使模型在强化学习之前能够学习基本推理知识。此外，将StepRAR或StepRVR中的任何一个纳入在线强化学习过程，其表现都大幅优于仅包含预热阶段的模型，这表明这两种类型的逐步奖励都有助于提升逐步推理能力。当同时应用StepRAR和StepRVR时，取得了最佳性能（即63.7%），这表明StepGRPO通过强化中间步骤的正确性和推理过程的整体逻辑结构，有效地提高了复杂推理任务。

picture.image

4.5 讨论

参数分析。作者对Qwen2-VL7B在基准MathVista上的生成代数

进行参数分析，研究其对推理性能的影响。如第3节所述，

控制了强化学习阶段每个问题生成的推理轨迹数量。表3显示，较大的

通常会导致更好的性能。这是因为，在组相对优化中， Baseline 奖励被估计为所有生成的推理路径的平均奖励。较大的

导致 Baseline 估计更加稳定和准确，而较小的

可能导致 Baseline 估计的方差较大，使得优化过程不够可靠。然而，增加

也会引入更高的计算成本。因此，作者将

设置为默认值，以平衡性能和计算效率。

picture.image

逐步奖励的有效性。作者提出的逐步奖励机制在缓解Sparse奖励问题中起着关键作用，通过在每个推理步骤提供精细的监督。为了进一步验证其有效性，作者进行了一项实验，比较了结果级奖励与作者的逐步奖励。具体来说，作者评估了三种设置：(1) 仅预热；(2) 预热

结果级奖励，其中模型使用结果级奖励进行优化；(3) 预热

逐步奖励，其中模型使用作者提出的逐步推理奖励进行优化。如表4所示，结果级奖励和作者的逐步奖励都提高了预热模型的性能，而作者的逐步奖励实现了更好的性能。这进一步证明了逐步奖励在增强MLLM推理能力方面更为有效，因为它们提供了更精细的监督，并很大程度上缓解了Sparse奖励问题。

picture.image

与监督微调（SFT）的比较。如前所述，StepGRPO鼓励MLLM通过逐步奖励信号自我提升推理能力，而不是仅仅模仿成功的推理路径。在此，作者进行实验以进一步比较StepGRPO与SFT。具体来说，作者从预热后的模型开始，在MathVista上使用Qwen2-VL-7B进行实验。如图3所示，在相同的训练步数下，StepGRPO始终优于SFT，证明了逐步强化学习的效果。这主要归因于StepGRPO通过自我探索和奖励引导的优化来细化推理轨迹的能力，而不是仅仅依赖于被动模仿推理路径。通过利用逐步推理奖励，StepGRPO提供了更丰富和更有信息量的监督，与SFT相比，导致更好的推理过程。

picture.image

定性比较。作者提供了Qwen2VL-7B、Mulberry-7B以及作者自己的R1-VL-7B的定性比较。如图4所示，Qwen2-VL-7B生成的响应相对较短，缺乏完整的推理过程。而Mulberry-7B虽然生成了详细的推理路径，但其中间步骤存在错误，导致最终答案不正确。相比之下，R1-VL-7B能够实现更准确的逐步推理过程。

picture.image

结论

本文提出了一种名为StepGRPO的新型在线强化学习框架，该框架能够通过简单、有效且密集的逐步奖励机制，使多语言大语言模型（MLLMs）自我提升推理能力。具体而言，StepGRPO引入了两种基于规则的推理奖励机制，即逐步推理准确性奖励和逐步推理有效性奖励。逐步推理准确性奖励基于软键步匹配技术对中间推理步骤进行奖励，而逐步推理有效性奖励则通过推理完整性和逻辑评估方法，奖励推理路径的推理结构和逻辑一致性。

通过这种方式，StepGRPO能够有效缓解MLLMs的Sparse奖励问题，无需过程奖励模型，并鼓励更加结构化和逻辑一致的推理过程。基于提出的StepGRPO，作者开发了R1-VL系列MLLMs，这些模型在推理能力上具有优越性。在八个基准测试上的大量实验表明，所提出的StepGRPO与最先进的MLLMs相比具有优越性。

参考

[1]. R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization