点击下方名片,关注「集智书童」公众号
本文主要解决了什么问题
如何将语言模型中通过可验证 Reward 强化学习(RLVR)获得的认知行为迁移到多模态语言模型(MLLMs)中 ,以提升其High-Level视觉推理能力。
如何在多模态环境下构建基于规则的 Reward 机制 ,以避免传统学习型 Reward 模型的“ Reward 攻击”问题。
如何系统性地分析和验证语言认知行为向视觉认知行为迁移的机制 ,并揭示其在训练过程中的演化路径。
本文的核心创新是什么
提出了一种两阶段训练范式 :首先进行大规模语言冷启动微调,随后进行跨越近1000步的多模态强化学习(RL),这是目前开源工作中最大规模的RL实践。
首次系统性地研究语言认知行为向视觉认知行为的迁移机制 ,定义了视觉反思、分而治之、视觉验证和目标驱动视觉追踪等关键视觉认知行为。
构建了Open-Vision-Reasoner(OVR)模型 ,基于Qwen2.5-VL-7B,在语言和多模态推理任务中均达到最先进水平,并开源模型与训练数据,推动后续研究。
结果相较于以前的方法有哪些提升
在多模态推理任务中取得显著性能突破 :
- • 在MathVision上达到 51.8% ,首次在7B模型中超越50%。
- • 在MathVerse上达到 54.6% ,刷新7B模型的SOTA。
- • 在DynaMath和MMMU-Pro上也分别实现最先进结果。
在语言推理任务中表现优异 :
- • 在AIME2024上达到 63.5% ,MATH500上达到 95.3% ,显著优于其他7B模型,接近甚至超越部分32B模型。
强化学习训练规模与稳定性提升 :
- • 实现超过900次迭代、跨越多个上下文长度阶段的训练,未出现崩溃或性能退化。
- • 通过动态调整上下文长度,实现 Reward 的持续增长。
局限性总结
冷启动阶段可能导致视觉感知能力下降 :
- • 语言冷启动会改变token分布,导致视觉幻觉增加,尽管后续多模态强化学习可缓解,但仍需引入更多多模态监督以减轻这一问题。
强化学习的可扩展性受限于任务类型 :
- • 对于判别性视觉任务(如OCR、计数),Reward 提升与响应长度无明显相关性,表明当前方法在处理某些基础视觉行为上存在局限。
认知行为迁移机制仍需进一步研究 :
- • 回溯等行为的迁移率较高,但验证等行为迁移困难,其机制尚不完全清楚,需更深入的分析和建模。
导读
大语言模型(LLMs)的卓越推理能力源于通过可验证 Reward 进行强化而涌现的认知行为。本研究探索如何将这一原理迁移至多模态语言模型(MLLMs),以解锁High-Level视觉推理能力。作者基于Qwen2.5-VL-7B构建了一个两阶段范式:大规模语言冷启动微调,随后进行跨越近1000步的多模态强化学习(RL)——规模超越所有先前开源工作。这项开创性研究揭示了三个基本见解:1)行为迁移在冷启动阶段出人意料地早期出现,得益于语言心智意象。2)冷启动广泛记忆视觉行为,而RL关键地辨别并扩展有效模式。3)迁移策略性地倾向于高效用行为,如视觉反射。作者最终模型Open-Vision-Reasoner(OVR)在一系列推理基准测试中达到最先进水平,包括MATH500上95.3%、MathVision上51.8%和MathVerse上54.6%。作者发布Open-Vision-Reasoner、数据和训练动态,以促进更强大、行为对齐的多模态推理器的发展。
- 引言
“眼睛只能看到心灵准备理解的东西。”——罗伯特·大卫森
将强化学习从人类反馈(RLHF)[6]转向可验证 Reward 强化学习(RLVR)[7, 8]赋予了大语言模型(LLMs)[9, 7]出人意料的强大推理能力,涵盖数学、代码和通用问题解决。其核心在于可验证 Reward ——正确性由客观且通常基于规则的准则决定——本质上比学习型 Reward 模型更不易受到“ Reward 攻击”[10, 11]的影响。这种鲁棒性在大规模强化学习中具有关键作用,能够实现近期研究[12, 13, 14]所称的认知行为的内化和激活——如回溯和子目标分解等经实证验证对High-Level推理至关重要的模式。
多模态领域本质上基于可验证的视觉事实[15, 16],非常适合这一范式。然而,早期的多模态强化学习(RL)工作却矛盾地采用了RLHF,依赖学习到的 Reward 模型来近似客观正确性[17, 18, 19]。受语言模型中RLVR成功的启发,近期研究开始探索多模态环境下的基于规则的 Reward 。Perception-R1[16]通过IoU和欧几里得距离等监督信息增强多模态语言模型(MLLM)的感知对齐,而R1-OneVision[20]和VLAA-Thinking[21]等作品通过包含迭代蒸馏和合成等复杂流程构建行为丰富的视觉推理轨迹。最近,ReVisual-R1[22]采用有效的纯语言冷启动作为视觉推理的基础。
尽管取得了令人鼓舞的进展,但这些方法仍未能解答一个基础性问题:如何将语言认知行为迁移至MLLMs以实现High-Level视觉推理?为解决此问题,作者基于"冷启动强化学习"范式[7],在Qwen2.5-VL-7B[23]上进行大规模训练,将其建立为强大的测试平台,以系统性地分析此类行为在多模态领域中的涌现与扩展机制。
为此,作者提出了一种稳健的两阶段方法,旨在首先植入语言认知模式,然后激活这些模式以进行视觉推理。作者的过程始于大规模冷启动,在超过200万个样本上微调Qwen2.5-VL-7B,以构建坚实的基础。随后,在OpenReasoner-Zero [24]框架下进行长期的强化学习阶段,利用超过30万个混合模态样本。据作者所知,这代表了在此模型上最大的开源强化学习实践。所得模型Open-Vision-Reasoner (OVR) 通过在语言和多模态基准测试中均取得优异性能,验证了Open-Vision-Reasoner。如图1所示,它在数学推理方面在AIME2024上达到
,在MATH500上达到
;在视觉推理方面在MathVision上达到
,在MathVerse上达到
。
为了进一步追踪训练过程中认知模式的迁移和演化,作者开发了一种深入的视觉认知行为分析。以下是三个核心见解值得强调: (1) 行为迁移在冷启动阶段非常早地出现,这由编码心理意象的语言模式驱动 [25, 26],如图11所示。 (2) 冷启动广泛记忆多样的视觉认知行为,而强化学习(RL)则关键地辨别并扩展有效的模式。 (3) 迁移遵循一种策略性路径,倾向于具有高实用性的行为,如视觉反射。这些发现加深了对由语言推理支撑的视觉智能基础的理解 [27]。
作者进一步研究了该范式对MLLMs基础能力——视觉感知的影响。虽然语言冷启动会导致感知退化,但作者的研究表明多模态强化学习可以有效地恢复这种损失。然而,作者也观察到其可扩展性的局限性。
当强化学习(RL)仅专注于感知任务时,由于 Reward 信号的增加与推理复杂度(例如, Token 长度)的相应增长不匹配,这将构成一个限制。这一局限性促使人们更加审慎地整合多样化的、原始的视觉认知行为。这些努力代表了朝着解锁更High-Level强化学习框架(如多轮或基于视觉操作和想象的 Agent 式RL)潜力的有前景的方向。
总之,本文通过以下三个关键贡献推动了该领域的发展:
- • 作者构建了一个两阶段训练流程,包括语言冷启动,随后进行大规模多模态强化学习,从而实现认知行为在多语言大模型中的有效迁移。
- • 作者的开放视觉推理器,作为Qwen2.5-VL-7B上最大的开源RL实践,在语言和多模态推理基准测试中均取得了优异的性能。
- • 作者对VR中的视觉认知行为进行了深入分析,并对其在训练阶段的迁移和演化提供了有价值的见解。
2 认知行为基础
近期研究强调,大语言模型中鲁棒推理能力的出现与某些认知行为的习得密切相关[13]。这些行为反映了类似人类问题解决的有序内部推理模式。关键示例包括:(1) 回溯——在识别到不一致性时修订先前选择的策略(例如,“这种方法行不通,因为……”),(2) 验证——检查中间步骤或部分结果,(3) 子目标设定——将复杂问题分解为可管理的组成部分(例如,“首先,作者需要……”),以及 (4) 逆向推理——从期望结果反向推理至所需输入(例如,“要得到75,作者需要一个能被……整除的数”)。这四种模式形成了一种在基于语言的推理中自然产生的文本式内心独白。
基于此,作者研究了认知行为从语言到视觉的迁移。作者定义了上述行为在视觉上的扩展——视觉反思、分而治之、视觉验证和目标驱动视觉追踪。它们的正式定义、示例及其对应的语言对应物在表1中提供,而图2展示了一个包含语言和视觉认知行为的多模态示例。在接下来的部分中,作者提出了一种简单而有效的MLLM训练流程,包括语言冷启动,然后是多模态强化学习(第3节),并系统地分析了这些视觉认知行为的迁移和扩展(第5.2节)。
- Open-Vision-Reasoner
在本节中,作者从训练流程(第3.1节)、强化学习算法(第3.2节)和数据构建(第3.3节)的角度,介绍了Open-Vision-Reasoner(OVR),这是一个基于Qwen2.5-VL-7B [28]构建的强多模态推理模型。
3.1. 训练流程
为了促进高效认知发展和跨模态泛化,作者采用了流行的“带有冷启动的强化学习”范式[7],该范式包含两个连续的训练阶段:
第一阶段:语言冷启动。LLM模块在从DeepSeek-R1 [7]中提炼出的纯语言推理数据集上进行监督微调,在纯语言环境下建立核心认知行为,如回溯和子目标分解。第二阶段:多模态强化学习。作者使用Open-Reasoner-Zero [24]在文本和多模态任务上应用强化学习,并采用可验证匹配 Reward 。这促进了推理泛化,并将先前学习的认知模式与视觉上下文对齐,实现有效的跨模态迁移。
3.2. 强化学习算法
在作者的训练流程中,强化学习(RL)阶段采用轻量级的近端策略优化(PPO)[29]与广义优势估计(GAE)[30],遵循Open-Reasoner-Zero [24]中使用的策略与 Reward 设计。下面作者详细阐述用于多模态任务的强化学习:
近端策略优化
对于每个输入,包括图像
和文本 Prompt
,策略网络
生成
个响应
。每个响应
是一个长度为
的轨迹
。状态
包括
(以及潜在的编码特征)和先前生成的 Token ;
是在步骤
生成的 Token 。在每个时间步
,轨迹
中计算 Reward
。作者使用广义优势估计(GAE)来平衡优势估计中的偏差和方差。在轨迹
中状态-动作对
的优势
为:
是值函数,
、
是折扣因子和GAE因子,且在终止状态下
。
通过最大化
使用在旧策略
下采样的经验
进行更新。
此处,Pr(0) = no(@a/se) . a和e是一个裁剪参数(例如,0.2)。Enol表示对来自
样本的经验平均。
通过在来自
的样本上最小化
,使用经验折扣回报
进行训练。
Reward 函数。作者采用极简的基于规则的 Reward 设计,仅评估模型输出的正确性,而忽略格式或风格偏好。具体而言,作者从模型输出中提取被 \boxed
包裹的预测答案,并将其与参考答案进行比较。如果完全匹配,则赋予 Reward 值-1,否则赋予0,从而为强化学习提供清晰、可扩展且无法被操纵的 Reward 信号。
3.3. 数据集构建
为支持认知迁移,作者精心策划了针对每个训练阶段的特定数据集,涵盖了纯语言和多模态领域。
数据收集。作者首先广泛收集 Prompt -答案对,以发展数学、科学和逻辑领域的语言和多模态推理能力。对于仅使用语言的场景,作者利用公开基准,包括AIME(截至2023年)、MATH [2]、Numina-Math [31]、Tulu3 MATH [32]以及OpenR1-Math-220k [33],以及其他开源数据集。作者还通过程序化生成综合一般逻辑问题,以进一步丰富推理多样性。多模态场景包含涵盖几何问题解决(Geometry3k [34]、GeoQA [35]、Geos [36])、视觉辨别(IconQA [37]、Pixmo [38]、ChartQA [39])、视觉谜题(PuzzleVQA [40]、AlgoPuzzleVQA [41])、STEM(TQA [42]、ScienceQA [43]、K12 from [44])和多模态数学(AtomThink [45]、内部编辑的数学)的数据集。
数据管理。为了提升数据质量,作者采用多步骤的数据管理流程。首先,作者使用预训练模型自动过滤掉训练损失过高的样本,这些样本通常表示噪声或过度复杂。其次,基于规则的模型辅助方法识别并移除不理想的模式[31]。第三,作者应用重新加权技术以平衡覆盖范围,降低过度代表的类别权重,同时强调稀有但具有重要价值的实例。最后,作者从DeepSeek-R1[7]中提取响应,构建了约200万个冷启动数据。为确保在
过程中的不可被攻击性和稳定性,作者进一步排除了与作者的 Reward 函数不兼容的问题(例如,证明式问题),并应用基于难度的启发式过滤,移除过于简单和不可行的样本,以确保学习过程的良好校准。最终留下了约30万条多模态强化学习数据。更多细节请参考附录。
- 实验
在本节中,作者首先详细阐述Open-Vision-Reasoner(OVR)的实现方案。接着,作者在4.2节展示了其在文本基准测试中的优异表现,并在4.3节展示了其在多模态场景中的卓越性能。
4.1. 实现细节
Open-Vision-Reasoner基于Qwen2.5-VL-7B [23],并采用两阶段训练策略。在冷启动的第一阶段,作者使用默认的Qwen2.5配置 [28],以640的批处理大小、64k的序列长度和2×10^-4的学习率,独立微调LLM模块5个epoch。在后续的强化学习阶段,遵循Open-Reasoner-Zero [24],作者采用PPO算法,并配置GAE参数γ=1和λ=1,以充分捕捉推理任务中至关重要的长期依赖关系,实现稳定训练。该强化学习阶段进行900次迭代,期间作者采用序列长度的课程学习策略:前300次迭代从24k开始,第700次迭代时增加到32k,之后扩展到48k,作者的最新模型持续进行这一优化过程。作者严格遵循策略模型的在线策略更新,并对评价模型进行多次优化步骤。请注意,作者的最终模型是多个代表性中间预训练权重的均匀平均值,确保在各种基准测试中表现均衡且鲁棒。更多细节请参见附录。
4.2. 增强语言推理和通用能力
Open-Vision-Reasoner首先在多种语言基准上进行评估,这些基准涵盖了数学推理和通用问题解决能力。具体而言,作者包括了AIME 2024、AIME 2025 [1]、MATH500 [2]、GPQA Diamond [68]、MMLU [69]和MMLU-Pro [70]。作者将Open-VisionReasoner (OVR)与强大的LLM Baseline 模型进行比较,包括Qwen2.5-7B [71]、DeepSeek-R1-Distill-Qwen7B [7]和Open-Reasoner-Zero-7B [24]。
OVR展现出卓越的语言推理能力。在具有挑战性的AIME 2024和2025基准测试中,它平均以超过
的幅度显著超越了其他7B开源模型,其性能与领先的32B模型相当。这种优势扩展到通用推理任务,在参数匹配的竞争者中,MMLU测试结果提升了
,MMLU-Pro测试结果提升了
。这些结果突显了作者精选的高质量冷启动训练数据的有效性。
4.3. 卓越的视觉推理能力
为评估所引入的认知行为迁移是否带来跨模态收益,作者进一步在一系列多模态推理基准测试上评估该模型。这些任务涉及基于图像的数学推理、通用多模态推理和图表理解。具体而言,作者包含 MathVista [3]、MathVision [4]、MathVerse [5]、DynaMath [72]、WeMath [73]、LogicVista [74]、MMMu-Pro [75] 和 CharXiv [76] 进行评估。作者将Open-Vision-Reasoner与强大的 MLLM Baseline 进行比较,包括基于 SFT 的方法,如 LLaVA-OneVision [77] 和 Qwen2.5-VL [23],以及最近的基于规则的强化学习方法,如 Open
VLThinker [61]、MM-Eureka [44] 和 ReVisual-R1 [22]。
如表3所示,Open-Vision-Reasoner为7B模型在视觉推理领域取得了新的突破。它是首个在MathVision上超越50%性能的预训练Qwen2.5-VL-7B模型,同时在DynaMath和MathVerse上实现了7B模型中的最先进结果。这一优异的整体性能进一步体现在对MMMU-Pro的显著提升(较现有最先进方法提高7.2%)。这些结果表明,通过语言训练获得的推理能力能够有效迁移至多模态任务,从而显著提升视觉推理能力。
- 讨论
5.1 训练动态分析
在本节中,作者全面概述了如图3所示的训练动态,并详细分析了文本和多模态推理指标在整个过程中的演变情况,如图4所示。
在初始冷启动阶段(图3(a)),模型的损失迅速下降至低于0.5。随后,在多个训练周期中,损失呈现出阶梯式、逐渐下降的趋势。与此同时,作者观察到所有基准测试中的性能相应大幅提升(图4),其首先急剧上升,然后过渡到缓慢、渐进式改进的阶段,最终接近其峰值。值得注意的是,第4.1节中详细描述的激进训练策略——采用大批量大小与高学习率相结合的方法——被证明至关重要。这种方法对于打破模型的固有限制至关重要,从而成功赋予其新的认知范式,并为强化学习塑造了更有利的场景。这是使Open-Vision-Reasoner(源自指令微调的基座)最终能够实现与从基座[28]或数学特定预训练权重[78]初始化的模型相当甚至超越的文本性能的先决条件。
此外,图3 (b) 显示了模型在RL阶段的 Reward 和平均token长度如何从初始的7k稳步提升至超过12k。得益于Open-Reasoner-Zero [24]继承的训练配置稳定性,OVR在超过20个包含多模态和纯语言数据集的多样化语料库上成功训练,未出现训练崩溃或性能退化。关键在于,每当token长度开始趋于平稳甚至下降时,作者策略性地切换到更长的上下文长度,这总是能催化下一波快速 Reward 增长。图4捕捉了所有八个推理基准(涵盖文本和多模态领域)在波动中逐步攀升至顶峰时,所共享的巧合但并不令人意外的收敛增长轨迹。
5.2. 多模态认知行为分析
近期研究已关注到在视觉推理任务中,大语言模型(LLMs)表现出认知行为的现象——这一现象常被称为"视觉顿悟时刻" [79, 21]。在本工作中,作者超越简单的观察,系统性地研究这些行为如何从其语言对应物中迁移过来。作者的分析聚焦于第2节中引入的四个关键视觉认知行为,这些行为源自认知模式的基础研究 [13]。为量化这一过程,作者采用GPT-4o [60]来分析作者的OVR模型推理轨迹中每种行为的涌现情况。
视觉行为在冷启动阶段表现出显著早现性。根据第5.1节,作者追踪了视觉反射动态,这是一种在先前研究[80, 81]中提到的关键行为,在整个OVR训练过程中呈现。如图5所示,这种特定于视觉的行为从冷启动阶段初期就以大量形式涌现,并在后续训练步骤中持续波动。值得注意的是,作者在语言问题中观察到DeepSeekR1的响应[7]频繁表现出心理意象[25, 26]的迹象,如图11(a)所示。模型似乎构建内部视觉化来辅助数学推理,通常通过"让我可视化..."或"让我看图像"等短语来表达。一旦这种语言支架被引入作者的MLLM,这些心理图像迅速与实际视觉输入建立关联,使其在OVR中实现快速有效的泛化。
冷启动广泛学习,大规模强化学习批判性识别。作者进一步研究了认知行为在大规模强化学习中的扩展方式。如图5(a)所示,在激进冷启动阶段,初始快速地植入模式后,其普遍性在多模态强化学习中首先受到抑制,然后被放大到前所未有的水平。这种反直觉的动态表明了明确的分工:冷启动阶段广泛学习,不加区分地记忆所有可用模式。相比之下,强化学习进行批判性识别,充当关键 Token [82]的战略过滤器,并扩展关键行为。这种强化学习——丢弃糟粕、选取精华——的过程对于实现优越泛化具有重要意义。
认知行为的视觉迁移具有策略性。为分析从语言认知到视觉认知的过渡,作者追踪了四种核心认知行为在语言和视觉模态中的出现率和迁移率(详见附录C.1)。如图5(b)所示,回溯和验证行为的出现率在训练阶段稳步增加,突显了它们日益增长的重要性。其中,回溯行为的迁移率持续增长——从2.5%增至17.3%——而验证行为在整个冷启动和强化学习(RL)阶段均表现出接近零的迁移率。这表明迁移是一个策略性过程,作者提出两种潜在解释:(1)由于DeepSeek-R1[7]固有的“心理想象”能力,回溯行为更容易迁移,而缺乏直接语言前体的验证行为对MLLM来说更难内化。(2)如同人类自然且本能地处理视觉信息[80]一样,回溯是复杂视觉推理更基础的部分,因此在策略性RL阶段对其增强的优先级更高。作者将在未来的工作中更深入地研究这些假设。
5.3. 超越行为:视觉感知分析与未来工作
超越行为动态,作者将讨论扩展到MLLMs的一项关键能力:在冷启动加大规模强化学习范式下的视觉感知。具体而言,作者通过针对OVR模型的专门研究,探究了两个关键领域——感知幻觉和规模特性。
冷启动损害感知能力,而强化学习则增强感知能力。作者对OVR的这两个阶段以及基础模型Qwen2.5-VL-7B在一系列针对视觉感知和识别的多模态基准测试(MMBench [83], BLINK [84], MMStar [85], HallusionBench [86], POPE [87], RealWorldQA [88], PhyX [89], MME [90], MMVet [91])上进行了评估。如表4所示,在MMBench和PhyX等任务上的性能稳步提升,突显了作者训练范式的效果。冷启动模型在多个任务上表现下降,尤其是产生更多幻觉 [92, 93],这可能是由于大规模语言数据中的token分布发生改变 [87]。然而,在MMBench和BLINK等基准测试上重新获得的性能表明,长期多模态强化学习可以通过识别对多模态任务至关重要的感知能力,有效缓解这些问题。展望未来,可以通过将语言数据整合到模型预训练中 [94, 95],或在冷启动阶段引入更多多模态监督来建立更强的视觉基础,从而减轻冷启动带来的性能退化。
当前强化学习在感知策略上的不可扩展性。在整个多模态强化学习过程中,作者观察到 Reward 与平均响应长度之间存在强相关性(如图3所示),这一发现与先前的实践一致[7, 24]。这进一步证实了响应长度作为有效 Reward Agent 的有效性,它反映了与推理深度和计算资源相关的可扩展性。然而,当专注于特定的判别性感知任务(如OCR和计数)时,作者观察到明显的差异。如图6所示,虽然 Reward 可以有效地增加,但平均响应长度基本保持不变。
这种在极具挑战性任务上的不可扩展训练动态暗示了一个更根本的问题:某些核心视觉认知行为的缺失。弥补这一根本能力差距对于实现稳健的多模态扩展至关重要。新兴研究提供了有前景的途径,例如具有 Agent 工具使用(例如 OpenAI-o3 [96])的多回合强化学习和通过心理图像整合内在想象([97, 98])。这些方法有望弥补当前局限性,解锁更具可扩展性的多模态推理。
- 相关工作
近期OpenAI的o1 [9]等突破性进展凸显了强化学习(RL)在解锁和扩展大语言模型(LLMs)推理能力方面的强大作用 [99, 100, 101]。DeepSeek-R1-Zero [7]表明推理能力完全可以通过大规模强化学习涌现,从而产生ego验证和反思等复杂行为。Open-Reasoner-Zero [24]等开源工作进一步证明,即便是极简主义的强化学习方法,如使用广义优势估计(GAE)[30]和简单规则式 Reward 的 vanilla PPO [29],也能驱动响应长度和开源模型基准性能的扩展 [28, 78]。
多模态语言模型(MLLMs)[102, 56, 23, 103, 104] 已从基础图像描述任务[105, 106]迅速发展到更具挑战性的推理任务[107, 108, 109]。早期研究主要依赖基于思维链(Chain-of-Thought, CoT)数据集[110]的监督微调,而部分研究探索了显式反思机制[80]和ego纠正机制[111],以模拟类人推理模式。近期,PerPO[18]和MDPO[17]等方法采用基于强化学习(RL)的后训练方法,如DPO[112],通过成对正负样本响应进行对齐学习。这些方法通常遵循人类反馈强化学习(RLHF)[6, 12]或AI反馈强化学习(RLAIF)[113]范式,利用学习到的 Reward 模型信号或偏好标签进行优化。
受RLVR [7] 在语言模型中成功的启发,MLLM研究已转向基于规则的强化学习,如GRPO [114],进入多模态领域。这导致了两大主要研究方向:(1) 设计特定任务的 Reward 目标 [16, 21, 33],以及 (2) 构建嵌入认知行为的多模态"思考"数据集,这些数据集包含在CoT序列中 [115, 116, 61, 44]。此外,最近强大的MLLM采用纯语言冷启动 [22, 94],使用语言推理序列作为后续多模态学习的基础。这些方法鼓励模型响应中表现出类似人类的行为 [13] 或所谓的"视觉顿悟时刻"。
尽管在多模态大语言模型领域取得了这些进展,但对底层推理机制进行细粒度理解的探索仍然不足。相比之下,近期一项针对大语言模型的研究[13]指出,有效的推理与模型习得某些认知行为存在因果关系,例如验证、回溯、子目标设定和反向链式推理。测试时的研究表明,调用这些模式能够提升性能[117]。基于熵的分析进一步揭示,与认知 Token 相关的区域对于多样化和高质量的推理至关重要[82]。像Long-Perceptual-Thoughts[118]这样的多模态工作尝试通过合成长格式多模态思维链数据来显式地植入这些模式。
参考
[1]. Open Vision Reasoner: Transferring Linguistic Cognitive Behavior for Visual Reasoning.