当VLM学会了“回头看” | Qwen-2.5-VL突破性发现,7B模型自主激活'视觉反思',感知任务性能提升6.3%

大模型向量数据库云通信

点击下方名片,关注「集智书童」公众号


picture.image

精简阅读版本

本文主要解决了什么问题

多模态大语言模型(MLLMs)在推理后期过度依赖文本信息,忽视视觉输入整合的问题 。现有方法通常依赖显式注入视觉信息来引导模型重新关注图像,但这种做法增加了推理复杂度,并未充分利用模型本身的视觉融合推理能力。

缺乏对MLLMs自发视觉注意力机制的研究 。现有方法普遍假设模型不具备自主重新聚焦视觉输入的能力,因此依赖外部干预。本文提出关键问题:是否可以在不显式注入视觉信息的前提下,引导模型自发地重新聚焦于视觉输入。

模型在生成视觉反思行为时触发率低的问题 。通过简单的Prompt引导虽然能观察到视觉注意力的增强,但触发率极低(平均6.248%),难以稳定实现视觉融合推理。

本文的核心创新是什么

提出Look-Back方法 :一种隐式训练范式,使MLLMs能够在推理过程中自主决定何时、何地以及如何重新关注视觉输入,而无需显式注入图像信息或修改模型结构。

发现MLLMs具备自发视觉注意力机制 :通过注意力图分析,证实即使不显式提供图像输入,模型在生成特定Token(如 <back> )时仍能自然地将注意力重新聚焦到图像的关键区域。

两阶段训练框架

  • 冷启动监督微调(SFT) :使用高阶模型(如GPT-4o)生成带有 <back> Token的反思性推理样本,构建初始训练数据集。
  • 强化学习(RL) :基于GRPO算法,设计格式Reward函数,激励模型自发生成视觉反思行为。

无需额外输入或结构修改 :Look-Back完全依赖模型内部机制,避免了显式重输入图像或引入额外Token的繁琐流程。

结果相较于以前的方法有哪些提升

在多个多模态基准测试中性能显著提升

  • • 在数学任务中,Semantic-back平均提升7%(从48.5%到55.5%),Solution-back提升7.9%(从48.5%到56.4%)。
  • • 在感知任务中,Semantic-back提升6.3%(从61.3%到67.6%),Solution-back提升6%(从61.3%到67.3%)。

与开源推理MLLMs相比具有竞争力

  • • 尽管参数量更小,Look-Back仍能缩小与闭源模型(如GPT-4o和o3)之间的差距,尤其在Solution-back设置下表现突出。

提升模型泛化能力

  • • 尽管训练数据主要为数学任务,Look-Back在感知任务中也表现出良好的泛化能力,说明其机制具有跨任务适应性。

可视化注意力机制验证

  • • 通过注意力图分析,验证了模型在生成 <back> Token时确实聚焦于图像中的关键区域,证明了视觉反思行为的真实性与有效性。

局限性总结

冷启动数据构建依赖高阶模型

  • • 当前方法依赖GPT-4o等闭源模型生成带有 <back> Token的样本,限制了方法的可扩展性和开源友好性。

触发率低的问题仍未完全解决

  • • 即使通过强化学习提升, <back> Token的触发率仍然有限,表明模型在自主生成视觉反思行为方面仍存在挑战。

训练数据的模态和任务偏差

  • • 实验中主要使用数学推理数据进行训练,导致在感知任务上的提升略逊于数学任务,说明训练数据的多样性对模型泛化能力有重要影响。

存在潜在的Reward攻击风险

  • • 模型可能通过生成空 <back> Token序列来“走捷径”获取格式Reward,说明强化学习训练中仍需更精细的控制机制。

方法对模型架构和预训练基础敏感

  • • 实验表明,Qwen-2.5-VL具备一定的视觉反思能力,而更早版本(如Qwen-2-VL)则表现不佳,说明方法对模型基础能力有较高依赖。
深入阅读版本

导读

多模态大语言模型(MLLMs)在多模态推理方面取得了显著进展。然而,它们在推理后期往往过度依赖文本信息,忽视了视觉输入的关键整合。当前方法通常通过显式注入视觉信息来指导推理过程来解决这个问题。在本工作中,通过分析MLLMs的注意力模式,作者做出了一个有趣的观察:在适当引导下,即使没有显式注入视觉信息,MLLMs也能在推理后期自发地将注意力重新集中在视觉输入上。这种注意力的自发转变表明MLLMs本质上具备执行视觉融合推理的能力。基于这一见解,作者提出了Look-Back,这是一种隐式方法,旨在引导MLLMs在推理过程中以ego驱动的方式“回顾”视觉信息。Look-Back使模型能够自主决定何时、何地以及如何重新关注视觉输入,无需显式的模型结构约束或额外的输入。作者通过在多个多模态基准上的广泛实证评估证明,Look-Back显著增强了模型的推理和感知能力。

1 引言

随着多模态推理(Amizadeh等人2020;Garcez等人2019;Gupta和Kembhavi2023;Thawakar等人2025;Guo等人2024;Bai等人2023;Hurst等人2024;Xu等人2024)和带验证性 Reward 的强化学习(RLVR)(Shao等人2024b;Guo等人2025;Meng等人2025;Peng等人2025)的发展,多模态大语言模型(MLLMs)(Liu等人2023;团队2025;Wang等人2024b;Liao等人2025;Lin等人2025;Wan等人2025b)在联合处理图像和文本输入以执行复杂任务方面取得了显著进展(Google2025;OpenAI2025;Jaech等人2024;Pang等人2024)。然而,最近的研究表明,大多数方法在推理的后期阶段仍然主要依赖文本,忽视了视觉模态(Zheng等人2025b;Fan等人2025;Su等人2025;Zhang等人2025d;Yang等人2025b;Hu等人2024;Liu等人2025e;Zou等人2024)。具体而言,在推理过程中,模型对视觉信息的关注度逐渐降低,在后期阶段几乎降至零(Sun等人2025;Tu等人2025;Chen等人2024b),以至于后期阶段的视觉信息对推理结果的影响微乎其微(Sun等人2025)。

然而,人类在多模态推理中自然地将视觉和认知处理相结合(Najemnik和Geisler 2005;Tversky、Morrison和Betrancourt 2002;Tversky 2005;Kosslyn 1996;Goel 1995;Larkin和Simon 1987;Zhang和Norman 1994),而OpenAI的o3(OpenAI 2025)则代表了该领域从单纯基于文本的推理向与视觉信息深度整合的逐步转变。尽管取得了这些进展,但大多数现有方法仍然明确地注入视觉信息(Zheng等人 2025b;Su等人 2025;Zhang等人 2025d;Wang等人 2025d;Chern等人 2025),例如重新输入图像或将图像 Token 重新注入模型(Sarch等人 2025;Wu等人 2025a;Xu等人 2025;Zhang等人 2025b;Gupta和Kembhavi 2023)。这些方法本质上引导模型重新关注视觉线索。基于此,作者提出了一个关键的研究问题:> MLLMs能否通过ego指导的方式隐含地学习何时以及如何重新聚焦于视觉输入,而不是显式地重新注入视觉信息?

基于上述问题,作者进行了一项初步实验以验证模型能够自主重新聚焦于图像。具体而言,作者将一个简单的 Prompt (如图2所示)引入到原始的CoT框架中。令人惊讶的是,在推理的后期阶段,模型自发地增强了其对图像的关注,重新聚焦于视觉输入,而无需任何额外的显式输入或模型结构约束。

picture.image

为了更好地利用模型对图像的自主注意力现象,作者提出了Look-Back方法,该方法旨在以自然和ego驱动的方式引导MLLMs在推理过程中"回顾"视觉信息,从而增强其对视觉输入的注意力。具体而言,作者开发了一个两阶段训练框架。在第一阶段,作者利用先进的MLLMs生成带有 Token 的反思数据,随后进行冷启动微调,为后续的强化学习训练奠定基础。在第二阶段,作者仅对GRPO算法引入基于 Token 的格式 Reward ,旨在通过强化学习进一步强化模型对视觉信息的关注能力。

如图1所示,Look-Back能够有效鼓励MLLMs自发生成与图像相关的反思性推理内容,而无需显式注入视觉信息,并在推理后期自主增强对图像的关注(即重新聚焦于图像)。通过分析注意力图,作者确认模型确实在 Token 中关注了正确的视觉位置。Look-Back使模型能够自主决定何时(触发 Token 的时间由模型决定)、何地(选择图像中特定的区域进行关注)以及如何(自主决定如何增强注意力)对视觉输入进行反思,所有这一切均无需显式输入或对模型的结构施加约束。

picture.image

本文旨在提出一种由模型自发生成的隐式视觉融合推理范式,而非仅仅评估哪种范式最为有效。作者使用Qwen-2.5-VL-7B模型(团队2025)在多个广泛使用的多模态推理基准上进行了全面的实验验证。结果表明,通过引导模型自发重新聚焦于图像Look-Back,可以持续提升推理和感知任务中的性能。作者的主要贡献总结如下:

  • • 通过分析注意力变化趋势,作者发现,在不明确注入视觉信息的情况下,现有的MLLM能够自主关注视觉输入。
  • • 作者提出了回溯隐式训练范式,该范式在冷启动微调后,通过简单地修改格式 Reward 函数即可触发模型的视觉反射行为。
  • • 在多个多模态基准测试上的广泛评估表明,Look-Back能够持续提升推理和感知任务的表现。

2 MLLMs是否知道何时以及如何反思视觉输入?

近期研究(Hu等人2024;Zhang等人2025d;Su等人2025;Fan等人2025;Liu等人2025e;Zheng等人2025b)表明,多模态大语言模型(MLLMs)在推理后期阶段往往过度依赖文本信息,忽视了视觉输入的关键整合。随着推理过程的推进,对视觉信息的关注度逐渐降低,这显著影响了视觉语言模型的可靠性和性能。当前方法通常通过显式注入视觉信息来指导推理过程,例如将图像重新输入模型,以此解决这一问题。

然而,这引发了一个基本问题:能否在不依赖外部干预的情况下,使MLLMs自发地重新激活对视觉输入的关注?为探究此问题,作者进行了一项初步实验,采用了一种简单的 Prompt 修改方法,鼓励模型生成

Token ,并随后基于视觉信息重新审视其响应。

令人惊讶的是,如图2所示,该模型展现出卓越的自发性视觉注意力恢复能力。在生成 Token 时,模型自然地将大量注意力重新导向视觉输入,中央图表中"Image Token"注意力比例的急剧上升便是明证。关键在于,这并非对图像的泛泛浏览;模型的推理精准地基于视觉证据。底部注意力图提供了有力证据:在生成序列时,模型会专门聚焦于相应目标——例如,在生成"yellow" Token 时关注黄色公交车,在生成"car" Token 时关注金色汽车。这种目标性重新聚焦是内在发生的,无需显式注入视觉信息或对模型架构进行结构修改。

picture.image

表1中的结果在多个基准测试上展示了定量改进,这初步验证了MLLMs具备ego导向视觉反思的潜在能力。为进一步验证反向机制带来的性能提升,作者对“Back prompt”成功触发视觉反思的问题子集进行了专门分析。如表2所示,比较该特定问题子集上的性能表明,参与视觉反思在所有基准测试中带来了更大的改进。然而,表1中的“触发率”揭示了关键局限性:即使经过精心调整的 Prompt ,仅修改 Prompt 不足以始终触发这种反思行为,导致平均触发率仅为

。因此,作者提出使用强化学习来进一步激励该机制。

picture.image

3 回溯方法

所提出的回溯方法旨在引导多模态大语言模型(MLLMs)在推理过程中自发地重新聚焦视觉输入,从而增强其视觉融合推理能力。具体而言,回溯方法包含两个主要阶段:监督微调(SFT)和强化学习(RL)。

冷启动初始化

为解决与 Token 自发触发相关的稳定性问题以及模型通过 Reward 劫持进行的 Reward 操纵(详见讨论部分),作者首先构建了一个用于冷启动初始化的监督微调数据集。具体而言,根据 Token 触发的时机,作者将回退 Prompt 分为两类:

语义级回溯(Semantic-back):在推理过程中被触发,允许模型重新审视对中间推理步骤至关重要的视觉细节,并随后继续其正在进行中的推理。: 解级回溯(Solution-back):在模型生成初步解决方案后被触发,促使模型通过重新考虑视觉输入进行全面反思。

作者设计了两种明确的输出格式,如下所示(详见附录B)。

数据构建。作者设计了一个特定的数据构建过程,如图3(A)所示,该过程由以下三个步骤组成:

picture.image

    1. 模型推理:首先,作者使用Qwen-2.5-VL-7B对数据集进行思维链(Chain-of-Thought, CoT)推理。对于每个问题,作者进行

次独立推理(在作者的实验中,

)。 2. 2. CoT选择:基于推理结果,作者计算准确率 Reward ,并选择 Reward 方差较高且难度较大的问题。

    1. High-Level模型插入:问题、图像、模型生成的思维链推理过程以及正确答案被输入到GPT-o4-mini中,该模型根据预定义规则自动插入回溯 Token 。对于答案正确的样本,会插入与图像验证相关的回溯 Token 。对于答案错误的样本,会插入基于图像信息修正答案的回溯 Token ,并相应调整最终答案。

通过上述步骤,每个样本都获得了一个带有明确 Token 的稳定冷启动响应。这产生了一个带有显式回溯 Token 的稳定冷启动数据集。

监督微调(SFT)。使用由 Token 生成的冷启动数据集,作者应用SFT来指导模型一致地触发回溯行为。每个样本表示为

,其中

表示输入图像,

代表问题,

是回溯 Token 序列,

是答案序列。训练目标是如下:

其中

表示数据集,

将回溯 Token 和答案序列连接起来。

回顾强化学习

为进一步提升模型自主重访视觉输入的能力,作者采用群体相对策略优化(GRPO)算法进行强化学习。相较于传统的策略优化方法,GRPO在样本群体内执行策略梯度优化,使模型能够高效生成更多样化且丰富的推理响应。优化目标如下:

其中

分别是裁剪超参数和KL散度惩罚系数。为了更稳定地引导模型触发视觉审查行为,作者仅修改了格式 Reward 函数。具体而言,格式 Reward 函数

定义如下:

完整的 Reward 函数是格式 Reward 和准确率 Reward 的组合,定义为:

其中

表示响应的准确度 Reward ,

是一个超参数,用于调整格式 Reward 与准确度 Reward 之间的平衡。本质上,作者设计的 Reward 函数为模型提供了内在动机,使其能够自主地重新审视视觉信息。这使模型能够在推理过程中主动反思视觉输入,类似于人类自然地重新审视视觉信息,而无需显式地重新注入图像。

4 回顾实验分析 实验设置

Baseline 与基准测试。为了评估Look-Back的有效性,作者在一组包含八个基准测试的实验中进行了测试,这些基准测试分为两类:数学任务和感知任务。数学基准测试包括

MathVerse(张等人 2024)、MathVision(王等人 2024a)、MathVista(陆等人 2023)、WeMath(乔等人 2024)和GeoMath(谭等人 2025),而感知基准包括HallusionBench(关等人 2024)、TallyQA(阿查里亚、卡夫勒和卡南 2019)和MME(傅等人 2024)。作者分别计算了每个类别的平均性能。此外,作者将LookBack与三种类型的 Baseline 进行了比较:(1)闭源多模态大语言模型(MLLMs),如GPT-4o(哈斯特等人 2024)和o3(OpenAI 2025);(2)开源通用MLLMs,如Qwen2.5-VL32B(团队 2025)和InternVL3-38B(朱等人 2025);(3)开源推理MLLMs,如MM-Eureka8B(孟等人 2025)、R1-VL-7B(张等人 2025a)、VL-Rethinker-7B(王等人 2025a)、OpenVLThinker7B(邓等人 2025)、ThinkLite-VL-7B(王等人 2025c)、VLAA-Thinker-7B(陈等人 2025a)、VisionR1-7B(黄等人 2025)、MM-Eureka-Qwen-7B(孟等人 2025)、R1-Onevision-7B(杨等人 2025b)和NoisyRollout-7B(刘等人 2025b)。

训练数据集。在强化学习(RL)阶段,作者从Geo170K(Gao等人,2023)、Math360K(Shi等人,2024)、Geometry3K(Lu等人,2021)和K12(Meng等人,2025)数据集中选取了15k个数学问题用于训练。在监督微调(SFT)阶段,作者应用了第3.1节中概述的数据构建过程,对RL阶段的15k个问题进行处理,分别生成了4k和10k个冷启动数据集,用于Semantic-back和Solution-back。

实现细节。训练在八块NVIDIA A800 GPU上进行,作者在Qwen2.5-VL7B-Instruct模型上执行了冷启动SFT和随后的RL训练。作者使用LLaMA-Factory(Zheng等人,2024)框架进行SFT。为了防止过拟合,作者只训练了一个epoch。对于RL,作者采用了EasyR1(Sheng等人,2024;Zheng等人,2025a)框架,其中默认 Reward 权重,记作

,设置为0.1。在

数据集上进行了两个epoch的训练,使用批处理大小为128(每个样本12次rollout)和采样温度为1.0。其他设置请参见附录A。

主要结果

数学推理。如表3所示,作者的LookBack方法基于Qwen2.5-VL-7B构建,在所有基准测试中均优于基础模型。具体而言,在五个数学基准测试中,Semantic-back平均提升了7%(从48.5%提升至55.5%),而Solution-back则提升了7.9%(从48.5%提升至56.4%)。此外,作者还将Look-Back与十种不同的开源推理MLLM进行了比较。尽管各模型的训练数据和时长存在差异,使得直接比较存在困难,但Look-Back仍展现出具有竞争力的性能。尽管参数数量显著较少,但Solution-back得益于“回溯”机制,缩小了与闭源模型的差距。

picture.image

感知推理。尽管作者的训练主要利用了数学推理数据,但值得注意的是,在感知基准测试中,Semantic-back实现了平均提升6.3%(从61.3%提升至67.6%),而Solution-back相较于 Baseline 模型提升了6%(从61.3%提升至67.3%)。此外,Look-Back在与其他开源推理MLLMs的竞争中表现出强大的竞争力。这些结果突显了“回溯”机制在增强多模态推理系统泛化能力方面的重要性。

消融研究

回溯效果。作者进一步研究了Look-Back框架中每个阶段的贡献。如表4所示,移除Look-Back训练中的RL阶段或SFT阶段会导致模型性能显著下降。此外,与不包含任何回溯机制的标准GRPO相比,语义级回溯机制和解决方案级回溯机制均通过应用回溯实现了性能提升。有关训练过程的进一步分析请参见附录D。

反射率消融实验。由于模型的回溯过程包含验证和基于反射的错误纠正,在SFT冷启动阶段提供单一回溯数据集是不合理的,因为这极易导致 Reward 攻击。因此,作者以语义级回溯机制为例,对SFT数据集的反射率进行了消融研究。表5所示的结果表明,不同类型任务的最佳反射率位于30%至50%之间。过低的反射率和过高的反射率都会导致模型性能下降。因此,在本研究中作者采用了50%的反射率。

picture.image

定性推理分析

在观察到跨多个基准测试的定量性能提升之外,作者进行了定性分析以验证Look-Back改变了MLLM注意力模式。具体而言,如图4所示,Look-Back在数学和感知任务中始终如一地提升了注意力。与标准GRPO相比,LookBack使模型在推理后期阶段能够重新聚焦于视觉输入以进行验证。

picture.image

进一步的定性分析(附录C)揭示了来自五个不同基准的具体案例,突显了Semantic-back和Solution-back如何有效利用Look-Back机制,通过明确地将推理与视觉证据相结合来纠正初始错误。这表明Look-Back能够有效引导MLLMs自主确定何时、何地以及如何重新审视视觉信息,从而超越了对文本推理的单一依赖。这一发现进一步支持了作者的核心观点:在适当的指导下,MLLMs能够在没有明确视觉 Prompt 的情况下进行视觉融合推理。

对抗 Reward 攻击:模型通过生成空的

Token 序列,学会了走捷径,从而在不进行真实推理的情况下获得格式 Reward 。这与先前的研究发现(Yue et al. 2025)一致,即强化学习可能无法在基础模型之上提升推理能力。作者假设这个问题之所以出现,是因为Qwen2-VL本身缺乏足够的视觉反思能力,而Qwen-2.5-VL可能由于预训练而具备这种能力。

5 进一步讨论

失败尝试

在作者尝试利用模型自发重新聚焦图像的能力时,作者遇到了一些失败和挫折。在本节中,作者分析了这些失败的经验,但强调这些失败并不意味着该方法本身存在根本性缺陷。

在弱模型中的 Reward 攻击。作者最初对Qwen-2-VL模型应用了回溯训练,但遇到了enSFT冷启动数据需求问题。最初,作者使用GPT-4o生成CoT数据,并随后插入 Token 。然而,作者观察到在模型冷启动后性能有所下降。受Wan等人(2025a)的启发,作者转而使用模型生成的数据,并优化插入方式,从而提升了性能。作者假设,在同构模型输出上进行微调可以减少分布偏差,更好地与冷启动目标——即保持输出格式的一致性——相契合。

冷启动影响

扩展冷启动数据。为评估冷启动数据规模对性能的影响,作者使用Solution-back方法对2.5k、5k、7.5k和10k个样本进行了实验,所有样本均为数学性质。如图5所示,随着冷启动数据的增加,数学任务的平均得分有所提高,表明在冷启动阶段进行扩展有助于持续性能提升。然而,感知任务的性能略有下降,尽管整体性能保持相对稳定。作者假设,使用纯数学数据进行冷启动可能会限制感知任务的进一步泛化。引入更多样化的SFT和RL数据可以进一步提升整体鲁棒性。

picture.image

语义回溯与解法回溯的性能差异。如表4所示,触发两种类型的方法均能提升多个基准测试的性能。语义回溯在感知任务上表现更优,而解法回溯则在数学任务上表现更佳。作者推测早期回溯有助于及时确认视觉线索,从而受益于感知任务。相比之下,将回溯推迟至CoT推理之后,能够实现更全面的验证,同时最小化对推理链的干扰,从而更适合数学任务。

6 相关工作

近年来,多模态复杂推理取得了显著进展,经历了四个主要阶段:早期显式模块探索、监督微调与测试时扩展、强化学习驱动的进步,以及多模态对齐和原生视觉推理能力的持续演进。

多模态推理的早期发展(Shao等人2024a;Zhang等人2023;Hu等人2024)。在多模态语言模型(MLLM)发展的早期阶段,多模态推理依赖于显式 Prompt 和多模块协作。例如,Visual-CoT(Shao等人2024a)采用推理链和视觉采样进行动态视觉推理。Visual-SketchPad(Hu等人2024)引入了包含视觉草图的三个阶段工作流程,以增强可解释性。与此同时,Multimodal-CoT(Zhang等人2023)提出了一种两阶段框架,将推理链生成与答案推理解耦。

监督微调与测试时缩放 (Xu等人 2024; Wang等人 2025e; Du等人 2025; Ma等人 2024; Yang等人 2025a; Kumar等人 2025; Yang等人 2024)。随着OpenAI O1等模型的出现 (Jaech等人 2024),基于大规模合成思维链数据的监督微调 (SFT) 成为主流。这一范式转变的核心特征是从基于模块的方法转向数据驱动方法。例如,Virgo (Du等人 2025) 通过利用不同长度的思维链数据动态调整推理深度。LLaVA-CoT (Xu等人 2024) 采用结构化推理模板,约束模型遵循多步推理过程。TACO (Ma等人 2024) 通过SFT数据应用动态规划策略进行工具调用学习。测试时缩放 (TTS) (Ma等人 2024; Kumar等人 2025; Muennighoff等人 2025; Zhang等人 2023) 在不更新模型参数的情况下进一步增强推理,为强化学习方法奠定基础。

强化学习突破(Lightman等人2023;Wang等人2025a;Meng等人2025;Zhang等人2025a;Park等人2025;Yu等人2025a;Li等人2025c;Liu等人2025d;Wang等人2025g;Yu等人2025b;Feng等人2025a;Liu等人2025c;Zhou等人2025;Wang等人2025f;Liu等人2025a;Xia等人2025;Yao等人2025;Ma等人2025)。DeepSeek-R1(Guo等人2025)的成功标志着复杂推理进入强化学习微调(RFT)的新时代。在多模态领域,DIP-R1(Park等人2025)探索了细粒度图像处理,而Perception-R1(Yu等人2025a)直接编码图像块,有效将测试时增强方法与RFT训练相结合。MM-Eureka(Meng等人2025)通过基于规则的 Reward 在视觉推理方面取得了显著进展。STAR-R1(Li等人2025c)、VL-Rethinker(Wang等人2025a)和InfiMMR(Liu等人2025d)进一步证明了强化学习在空间、医学(Chen等人2024a)和具身(Zhang等人2025c;Zhao等人2025a;Shen等人2025)推理方面的有效性。

视觉思维演化 (Wu and Xie 2024; Li et al. 2025a,b; Feng et al. 2025b; Zheng et al. 2025b; Su et al. 2025; Zhang et al. 2025d; Wang et al. 2025d; Chern et al. 2025; Wu et al. 2025b; Sarch et al. 2025; Wu et al. 2025a; Xu et al. 2025; Chen et al. 2025b; Zhang et al. 2025b; Gupta and Kembhavi 2023; Chung et al. 2025; Zhao et al. 2025b; Wang et al. 2025d; Fu et al. 2025; Shen et al. 2024)。近期研究趋势表明,多模态复杂推理不仅需要"语言思维",还需要"图像思维" (Zheng et al. 2025b; Sarch et al. 2025; Su et al. 2025; Zhang et al. 2025d; Wang et al. 2025d; Chern et al. 2025; Wu et al. 2025a; Zeng et al. 2025; Wang et al. 2025b)。在细粒度感知领域,Vstar (Wu and Xie 2024) 引入了 SEAL 框架,通过分层视觉搜索机制动态定位关键细节。DyFo (Li et al. 2025b) 模拟人类视觉搜索的动态聚焦机制,而 DeepEyes (Zheng et al. 2025b) 通过端到端强化学习实现视觉与文本推理的动态交互。在复杂空间推理方面,MVoT (Li et al. 2025a) 在推理过程中交替生成文本和图像,以视觉思维过程补充语言推理。Reflective Planning (Feng et al. 2025b) 利用扩散模型预测未来视觉状态,构建"预测-反思-校正"反馈循环。

与先前显式注入视觉信息的方法(Zheng等人2025b;Su等人2025;Zhang等人2025d;Wang等人2025d;Chern等人2025;Sarch等人2025;Wu等人2025a;Xu等人2025;Zhang等人2025b;Gupta和Kembhavi 2023)不同,Look-Back方法使模型能够自主学习何时以及如何重新聚焦于视觉输入,从而在不依赖显式视觉指导的情况下提升推理能力。

7 结论

在本工作中,作者观察到多模态大语言模型(MLLMs)在推理过程中能够自主地将注意力重新集中于视觉输入,而无需显式的视觉信息注入。基于这一见解,作者提出了Look-Back方法,通过结合监督微调和强化学习的两阶段训练过程,使MLLMs能够ego引导视觉反思。作者的实验表明,Look-Back显著增强了多模态推理能力,并在多个基准测试中取得了具有竞争力的结果。

参考

[1]. Look-Back: Implicit Visual Re-focusing in MLLM Reasoning

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论