点击下方名片,关注「集智书童」公众号
本文主要解决了什么问题
-
- 探索基于规则的强化学习(RL)在多模态大语言模型(MLLM)后训练中用于 视觉感知策略学习 的潜力。
-
- 分析为什么在部分视觉感知任务中,引入显式的思考过程(如思维链)并不能带来性能提升。
-
- 提出了一种可扩展的强化学习框架 Perception-R1 ,以解决RL在多模态感知任务中应用的挑战,并建立一个强大的感知策略学习基准。
本文的核心创新
首次系统性地将强化学习应用于视觉感知策略学习 ,而非仅限于语言推理任务,填补了多模态模型中感知策略学习的空白。
-
- 提出了一种基于GRPO的强化学习框架 Perception-R1 ,结合了视觉感知任务特点的 Reward 设计和多主题 Reward 匹配机制。
-
- 发现并验证了两个关键因素对RL在视觉感知任务中有效性的决定作用:
- • 感知困惑度 :决定了RL相较于监督微调(SFT)的优势;
- • Reward 设计 :在提升模型感知上限方面起关键作用。
-
- 引入了 二分图匹配机制 用于多目标感知任务(如计数和检测)的 Reward 分配,提升了模型探索空间。
结果相较于以前的方法有哪些提升
-
- 在 RefCOCO+ 上实现了 +4.2% 的性能提升。
-
- 在 PixMo-Count 上实现了 +17.9% 的性能提升。
-
- 在 PageOCR 上实现了 F1-score +4.2% 的提升。
-
- 在 COCO2017 val 上首次使纯MLLM达到 31.9% mAP ,超越专家模型的性能。
-
- 在多个多模态理解任务上也表现出跨任务增强效果,表明感知策略学习有助于提升模型整体理解能力。
局限性
-
- 当前许多视觉感知任务设计过于简单, 限制了强化学习的探索空间 ,也限制了模型通过策略学习实现“感知顿悟”的能力。
-
缺乏更复杂、更具挑战性的元任务(meta-tasks) ,难以全面评估强化学习在感知策略学习中的潜力。
-
- 本文的感知策略主要集中在 视觉定位、计数、OCR和检测任务 ,尚未扩展到更广泛的感知任务(如动作识别、时序理解等)。
-
- 虽然提出了基于规则的 Reward 设计,但其 泛化性和迁移能力仍需进一步验证 。
导读
受DeepSeek-R1成功的启发,作者探索了基于规则的强化学习(RL)在MLLM后训练中用于感知策略学习的潜力。尽管前景广阔,但作者的初步实验表明,通过RL引入思考过程并不能在所有视觉感知任务中始终带来性能提升。这促使作者深入探究RL在视觉感知背景下的关键作用。在本工作中,作者回归基础,探索RL对不同感知任务的影响。作者观察到,感知困惑度是决定RL有效性的主要因素。作者还观察到, Reward 设计在进一步逼近模型感知上限方面起着至关重要的作用。为利用这些发现,作者提出了Perception-R1,这是一个在MLLM后训练中使用GRPO的可扩展RL框架。使用标准的Qwen2-VL-2B-Instruct,Perception-R1在RefCOCO+上实现了
的性能提升,在PixMo-Count上实现了
的性能提升,在PageOCR上实现了
的性能提升,并且首次在COCO2017 va1上实现了
的AP,为感知策略学习建立了一个强大的基准。
1 引言
作者看到的并非世界本来的样子,而是作者自身的样子——或者说是作者被条件所塑造的样子。Stephen R. Covey
大语言模型(LLM)的领域经历了范式转变,从非推理基础模型(例如GPT-4/4o [44, 19]、DeepSeek-V3 [33])转变为强推理模型(例如OpenAI o1/o3 [45]、DeepSeek-R1 [12]和Kimi-1.5 [57])。特别是DeepSeek-R1引入了一种简单而有效的基于规则的强化学习(RL)方法[55],能够在不依赖传统支架技术(例如蒙特卡洛树搜索(MCTS)[17, 67]或过程 Reward 模型(PRM)[31])的情况下实现涌现推理模式。这推动了LLM后训练技术的新革命,促使研究行人开发更强大的推理语言模型[42, 24]。
尽管取得了这些进展,当前的探索主要集中在纯粹的语言领域,而这些推理模型的单模态特性限制了它们以真正感知的方式与世界互动的能力。为了弥补这一差距,这项工作从强化学习(RL)的角度出发,在多模态大语言模型(LLMs)中探索感知策略学习的潜力[61, 3],迈出了开创性的一步。尽管将推理过程(如思维链[66])中的强化学习技术从语言领域迁移到视觉任务显示出一定的潜力,但作者的实证研究表明,这种方法并非普遍有效。这不可避免地促使作者重新审视强化学习在视觉感知任务中的作用,以及如何利用强化学习来获得更好且可扩展的感知策略。
当前对强化学习作为训练后技术的理解主要基于纯语言任务[24]和以语言为中心的多模态任务[10]。然而,视觉感知任务的特征与自然语言存在根本区别,需要在视觉感知的背景下重新理解强化学习。具体而言,视觉感知具有两个独特的属性,如下:
- • 视觉感知体现在客观物理世界中。它具有明确的物理真值,例如点、线或边界框,但与语言相比,它缺乏语义。
- • 视觉感知,例如视觉定位和计数,大多是“单步”直接预测。它缺乏用于强化学习探索的结构化推理搜索空间。
这两个特性决定了将强化学习应用于视觉感知的应用将具有与纯语言[24]和以语言为中心的多模态[39, 41]方法不同的特性。在本工作中,作者深入研究了视觉感知领域中多模态语言模型(MLLM)的强化学习后训练,并进一步补充和扩展了上述理解。通过广泛的实验分析,作者发现了若干苦涩但宝贵的发现。
显式思考过程(CoT)在强化学习(RL)中对当前感知策略并非必要(§ 5.2)。作者观察到,没有思考过程的模型表现优于有思考过程的模型。 Reward 设计在感知策略学习中起着关键作用(§ 5.3)。适当的 Reward 函数将带来更健康的学习曲线,并探索MLLM更强的感知模式。感知困惑度决定了RL相对于SFT的优势(§ 5.2)。作者观察到,在更复杂的视觉任务(如目标检测)中,RL相比SFT能带来更显著的改进。
受这些发现驱动,作者提出了一种简单、有效且可扩展的强化学习(RL)框架,即Perception
,用于高效感知策略学习。受主流语言推理模型[12, 57]的启发,Perception-R1在多模态语言模型(MLLM)后训练阶段应用基于规则的强化学习算法GRPO[55]。使用基础的Qwen2-VL-2B-Instruct[61],Perception-R1在多个视觉感知基准上取得了显著提升,例如在
[40]上提升4.2%,在PixMoCount[13]上提升17.9%,在PageOCR[34]上F1-score提升4.2%。更重要的是,Perception-R1首次使纯MLLM在目标检测基准COCO2017[32]上达到31.9%的mAP,展示了通用基础模型在主流视觉任务中超越专家模型的巨大潜力。作者希望Perception-R1、结果和分析能够启发未来基于强化学习的感知策略学习研究。
2 相关工作
多模态基础与推理模型。近年来,视觉语言模型[37, 3, 73, 70]通过大规模预训练[2, 61]和视觉指令微调[37, 35]在视觉理解[64, 68]和生成[14, 48]方面展现出卓越能力。这些模型通过视觉编码器[49]和 Adapter [11, 37]将视觉模态整合到统一语义空间,同时利用自回归大语言模型[59, 1]作为解码器进行输出生成。尽管多模态基础模型取得显著进展,其视觉推理能力仍处于早期发展阶段。近期方法[8, 39, 41]探索了训练后强化学习(RL)来增强视觉推理,但主要集中于语言中心任务如歧义指代消解[39]和几何问题求解[41],而忽略了感知驱动的推理关键要素。本研究开创性地将RL应用于感知策略学习,旨在弥合这一差距并推动多模态推理发展。
多模态模型中的视觉感知。视觉感知作为计算机视觉领域的一个概念[21, 52, 20, 69, 29],指的是解释和理解来自现实世界的感官信息,即视觉信息的过程。在多模态大语言模型(MLLM)的背景下,视觉感知在使模型能够整合、理解和推理图像或视频中的视觉信息方面发挥着关键作用。现有的MLLM通常通过设计更先进的视觉感知架构[63, 64]、更合适的视觉语言建模策略[70, 68]以及更复杂的后训练技术[74]来增强其视觉感知能力。这项工作旨在从强化学习的角度探索进一步增强视觉感知的潜力。
基于强化学习的LLMs和MLLMs后训练。强化学习(RL)已成为通过与人类偏好和特定任务目标对齐来优化LLMs的关键范式。像人类反馈强化学习(RLHF)[46]和直接偏好优化(DPO)[50]等突出方法已证明在增强LLMs[43, 47, 44]和MLLMs[74, 60]的安全性、连贯性和指令遵循能力方面取得了显著成功。最近,以GRPO[55]为代表的基于规则的RL技术,展示了大规模RL应用的可能性。LLMs正式进入了强推理模型的时代。随后,MLLMs[8, 39, 41]也迅速采用了这项技术。然而,迄今为止,在多模态领域还没有令人兴奋的、真正的“啊哈时刻”。本研究旨在调查RL对多模态模型的潜在贡献,重点关注视觉感知。
3 预备知识
感知策略定义。在视觉语言情境中,感知策略的目标是使模型首先(i)从环境中提取和理解视觉信息[37, 68],然后
基于这种理解进行逻辑推理[73, 70],以(iii)完成特定任务并进一步与环境交互[5, 22]。在本工作中,作者旨在通过感知策略学习,使模型能够处理一系列纯视觉任务(例如计数、检测)和视觉语言任务(例如指代 grounding、光学字符识别(OCR))。
分组相对策略优化(GRPO [55])是一种基于规则的强化学习算法,专为训练后的大语言模型(LLMs)设计。其核心思想是利用分组相对 Reward 来优化策略,从而无需单独的评估者模型[54]。具体而言,GRPO从旧策略中针对相同输入采样多个输出(如图1中的
),计算这些输出的平均 Reward 作为 Baseline ,并使用相对 Reward 来指导策略更新。GRPO的优化目标可以表述如下:
其中
和
是超参数,
是通过计算每个组内输出对应的 Reward 集合
得到的优势值。更多细节请参考 [12, 55]。
4 感知R1
简而言之,作者的Perception-R1将基于规则的强化学习算法GRPO [55]应用于MLLM的微训练阶段,并优化 Reward 建模以支持感知策略学习。图1展示了这一思路,接下来将介绍更多方法和实现细节。
4.1 基于规则的 Reward 建模
Reward 函数是强化学习(RL)中的主要训练信号,指导优化过程。现有的LLM方法[12, 57, 24]基本上采用一种高度弹性、基于规则的 Reward 系统,该系统仅包含两种 Reward 类型:Format Reward 和Answer Reward 。
Format Reward 。在现有的LLM和MLLM中,输出Format由两个基本组成部分构成:最终输出Format和中间推理过程Format。 Reward
最终输出根据特定任务要求定义,通常被封装在标签内,而中间推理过程的 Reward 则通常要求推理步骤被封装在标签内。形式上,
在Perception-R1中,作者遵循这一设置。一个微妙的不同之处在于,视觉感知任务通常需要输出物体坐标,例如边界框、线条或点。因此,输出Format必须严格约束为[x1,y1,x2,y2]结构。
Answer Reward 。Answer Reward 与模型生成响应的正确性相关,是 Reward 设计中的核心考量因素。通常,语言模型的输出是抽象且语义丰富的,需要通过代码化ADE[12]或数学Answer验证[55]等外部机制进行验证。相比之下,视觉感知任务受益于明确定义的物理真值,这简化了鲁棒性 Reward 函数的开发。
感知-R1与大语言模型方法的不同之处在于将 Reward 机制 Anchor 定在视觉辨别上。这一区别至关重要,因为它用明确的、可量化的指标取代了语言模型中常见的隐式和主观的反馈机制。形式上,辨别性 Reward
可以表示为:
其中
表示判别函数,例如用于边界框的IoU(IoU)和用于点的欧几里得距离。通过利用视觉判别能力,作者为模型提供清晰且客观的反馈信号,确保模型策略更新时采用精确测量的边际值。
4.2 多主题 Reward 匹配
在自然环境中,物理物体很少以孤立形式出现,而是频繁地以群组形式共存。这种固有的复杂性引发了一个作者定义为 Reward 匹配的挑战,即在进行 Reward 计算之前,需要将模型的输出与相应的真实情况进行对齐。具体而言,当 Prompt 模型预测图像中多个主体的属性,例如点和边界框时,必须为每个主体确定适当的真实情况参考,以确保准确分配 Reward 。
形式上,设
表示
个主体的变量,并设
表示相应的真实属性。作者将 Reward 匹配问题建模为二分图匹配任务,其中一组节点对应预测,另一组节点对应真实值。预测
与真实值
之间的边权重由式3中定义的 Reward 函数
确定,该函数度量了它们之间的相似性或兼容性。目标是找到最大化总 Reward 的最优分配:
表示所有有效预测与真实值之间的映射集合。为了高效地解决该优化问题,作者采用匈牙利算法[27],这是一种成熟的二分图匹配方法,通过最大化整体 Reward (或等价地,最小化成本)来保证最优配对。这确保了每个预测属性都能与其对应的真实值准确匹配,从而优化了 Reward 计算过程。
在确定最优 Reward 分配后,作者通过聚合每个主题的个体 Reward 来计算Answer Reward 。从数学上讲,整体 Reward 分数定义为:
Missing \begin{array} or extra \end{array}
其中
是通过匈牙利算法获得的最优分配。在 Perception-R1 中,作者主要使用 Reward 匹配来进行视觉计数和目标检测任务,因为这些任务涉及多个目标。
4.3 感知配置R1
模型设置。Perception-R1实现遵循Qwen2-VL [61]。作者主要使用Qwen2-VL Instruct-2B作为 Baseline 模型。作者还利用Qwen2.5-VL-3B-Instruct [3]进行目标检测任务的训练,因为它针对定位边界框进行了专门优化。Qwen2-VL的输入图像分辨率是动态的,与2D-RoPE [56]协同工作。
任务与数据设置。鉴于Perception-R1主要面向纯视觉和视觉语言任务,作者为感知策略学习选择了若干主流且具有代表性的下游任务,具体包括视觉定位任务,如refCOCO [71] / [40],OCR任务,如PageOCR [34],视觉计数任务,如Pixmo-Count [13],以及目标检测任务,如COCO2017 [32]。对于每个任务,分别提取(5k~10k)个样本子集作为各自后训练的基础数据。更多细节请参见附录A.1。
训练设置。作者专注于基于强化学习(RL)的MLLM后训练阶段。所有选定的基础模型均已完成预训练和SFT阶段。在RL阶段,初始学习率设置为
,默认情况下进行8次rollouts,批处理大小为1。以下是后训练过程中一些重要的超参数。 Prompt 的详细设置在附录A.1中。
Reward 设置。作者为各种视觉感知任务定制了不同的判别性 Reward 。在定位任务中, Reward 基于预测输出与真实值之间的IoU(IoU)。在计数任务中,作者采用了类似于
的范式,首先检测点,然后进行计数。在此, Reward 来源于在 Reward 匹配过程中计算的欧几里得距离。对于OCR,编辑距离作为主要的 Reward 指标。最后,在目标检测中,作者结合了多个 Reward :基于F1分数的目标数量 Reward ,使用IoU的位置 Reward ,以及带有缺失惩罚的二分类 Reward 。
采样设置。遵循Kimi-1.5 [57],作者采用一种课程采样策略,从较简单的数据开始,逐步过渡到更具挑战性的示例。具体而言,对于目标检测任务,作者首先在COCO数据集上进行离线训练以计算 Reward 值。基于选定的 Reward ,即数量 Reward ,作者相应地划分数据集。随着训练的进行,作者逐步用更难的数据(即与较低 Reward 相关的数据)替换数据,同时增加 rollout 以扩展模型的探索空间。
5 实验
实验部分评估了Perception-R1在视觉感知任务上的性能(§ 5.1),随后通过分析实验探索了强化学习(RL)在感知策略学习中的作用(§ 5.2)。最后,讨论了视觉感知与RL之间的相互作用,以及感知策略学习的关键见解(§ 5.3)。
5.1 感知任务中的性能图景
作者在主Stream感知任务上评估了Perception-R1:视觉定位、计数、OCR和目标检测。实验使用
中描述的数据集和图像理解基准。结果见表1-4。详情请见附录A.2。
视觉定位是一项根据语言描述来定位视觉目标的任务。具体而言,给定一个语言 Prompt ,模型需要输出 Prompt 中描述的主题(通常是单个实体)的空间坐标。如表1所示,作者在三个主流基准上评估了Perception-R1,包括
和
,并报告了
、
和
,以全面评估其视觉定位能力。作者惊讶地发现,一些最先进的MLLM在更具挑战性的
指标上表现不佳,得分甚至低于1%。相比之下,Perception-R1在该指标上实现了超过30%的稳定性能。这一观察结果表明,社区应在未来的评估中优先报告更具区分度的结果。实验结果表明,与专业模型和通用模型相比,Perception-R1展现出强大的竞争力。
光学字符识别(OCR)是视觉感知领域的一项关键任务,因其显著的实用价值而备受关注。当前的方法主要采用专家模型或微调的通用模型进行OCR。Perception-R1开创性地利用强化学习(RL)进一步提升多模态语言模型(MLLM)的OCR能力。如表2所示,作者提出的Perception-R1在极具挑战性的OCR基准——PageOCR [34]上取得了当前最佳(SoTA)性能,显著优于现有的专家模型(如GOT,F1分数为98.1 vs. 97.2)和鲁棒的通用模型(如LLaVA-NeXT,F1分数为98.1 vs. 64.7)。值得注意的是,Perception-R1未使用中文OCR数据进行训练,因此其在中文指标上的表现属于零样本学习。这一突破证实了强化学习在OCR任务中的巨大潜力,为在复杂视觉环境中提升文本理解和识别能力开辟了新的前沿。
视觉计数作为一种基础视觉任务,要求模型能够准确量化图像中特定类别的实例,需要强大的视觉逻辑来通过结构化识别模式识别并枚举目标。在Perception-R1中,作者采用检测后计数的范式,将计数问题重新定义为点检测过程。如表3a所示,Perception-R1实现了显著的计数性能,在Pixova1数据集上大幅超越了当前强 Baseline (与Qwen2-VL相比,提升了17.9%)。这一进步证实了强化学习能够有效刺激模型探索内在视觉逻辑机制(尽管计数结果具有确定性,但计数序列可能表现出不同的模式),从而增强其解决复杂视觉任务的能力。
通用目标检测被广泛视为计算机视觉领域的皇冠明珠,长期以来一直是视觉感知中最具挑战性的问题之一。作为将强化学习(RL)融入目标检测的开拓性尝试,Perception-R1实现了突破性的里程碑,成为首个纯多模态语言模型(MLLM)在COCO 2017验证集上超越30+ AP阈值,即表3b中的31.9 AP,其性能与甚至超越了专业专家模型的性能。这一成就突显了基于规则的强化学习在解决需要复杂视觉逻辑集成的复杂视觉任务方面的巨大潜力。
通用视觉理解超越了纯粹的感知任务,作者评估了PerceptionR1在多个多模态基准上的表现。如表4所示,作者观察到一种有趣的现象:使用强化学习训练用于视觉特定任务(例如计数任务)的模型,在通用理解基准上也表现出同时的性能提升。作者将这种跨任务增强归因于感知策略学习,它驱动模型发现更优越的图像解释模式。
5.2 感知R1的消融研究
在本节中,作者旨在开展全面的消融研究,系统性地探究感知R1内部关键组件的贡献。实验结果如表5所示。从实验结果中,作者可以得出三个主要的实证发现:
Reward 匹配增强了多主体视觉感知的可探索性。如表5中第1行与第2行的比较结果所示,将二分图匹配替换为顺序匹配会导致视觉计数和目标检测任务中的性能显著下降。这表明顺序匹配限制了强化学习探索空间。相反,二分图匹配机制在 Reward 分配上提供了更多可能性,使模型能够探索最优的视觉感知模式。
显式思考过程对于当代视觉感知并非必要。对第3行和第4行的比较分析显示,在训练和推理阶段均引入显式思考过程时,所有四个评估的感知任务均表现出一致的性能退化。图像分类任务中也出现了类似现象[30]。作者认为这一现象的产生是因为当前的视觉感知任务更倾向于视觉逻辑而非语义逻辑。这种转变意味着显式以语言为中心的推理过程是不必要的,因为模型更倾向于专注于学习隐式视觉模式。
感知困惑度决定了强化学习(RL)相对于监督微调(SFT)的优势。作者比较了不同后训练方法的组合,即SFT、RL和SFT+RL,在四个感知任务上的表现,如表5的第6、7、8行所示。在高感知困惑度的任务中,如计数和检测(多个目标和类别),RL表现出比SFT甚至SFT+RL更优越的性能提升。相反,在低困惑度的任务中,如定位和OCR,RL的表现不如SFT或SFT+RL。这表明高感知困惑度是影响RL有效性的一个重要因素。这 Prompt 作者,RL技术应应用于具有更高感知困惑度的任务,在这些任务中,感知策略的探索空间更大。
5.3 更深入的分析
在本节中,作者探讨了感知R1的几个关键属性,以进一步加深作者对基于强化学习的感知策略学习的理解。
感知策略学习的 Reward 设计分析。作者在第4.3节介绍了感知R1的 Reward 函数细节。在本部分,作者考察了这些 Reward 函数对感知策略学习的影响。具体而言,以目标检测为例,作者将设计的Answer Reward 逐步集成到Format Reward 中,如表6所示。结果表明,逐步引入精细化的 Reward 函数能够持续提升检测性能,最终超越专家模型的性能。这突显了 Reward 设计在感知策略学习中的关键作用。此外,它为未来研究指明了一个有前景的方向:开发更精细化和任务特定的 Reward 函数以增强感知策略学习。
对感知策略学习的 rollout 扩展分析。RL 的可扩展性是现有 LLM 迁移学习中的关键问题。在本节中,作者分析了 Perception-R1 的可扩展性,特别关注于增加 rollout 数量。如图2 所示,作者在视觉定位和视觉计数两个任务中进行了 rollout 扩展实验。结果表明,增加 rollout 数量能够提升 Reward 优化和最终性能。这证明了 Perception-R1 具有强大的扩展特性,并突显了 rollout 数量在扩展感知策略中的关键作用。通过生成足够的 rollout,模型扩展了其探索空间,增加了用于 Reward 评估的候选解的多样性。这种扩展加速了收敛到最优视觉感知模式的过程。
6 局限性与结论
"强化学习能为多模态语言模型带来什么"是一个自DeepSeek-R1提出以来持续探讨的问题。近期多项研究尝试从以语言为中心的视觉推理视角应用强化学习[39, 15, 41]。然而本文另辟蹊径,认为感知是多模态语言模型进行视觉推理的关键前提。只有充分解锁多模态语言模型的感知模式,模型才能具备处理复杂视觉任务的能力。但遗憾的是作者发现当前许多感知任务过于简单,这限制了强化学习的探索空间。进而也限制了多模态语言模型通过思维过程实现感知层面的"顿悟"。寻找更合适的感知任务(即元任务)可能是解决这一问题的关键。
参考
[1]. Perception-R1: Pioneering Perception Policy with. Reinforcement Learning