点击下方名片,关注「集智书童」公众号
本文主要解决了什么问题
多模态推理能力不足 :传统多模态模型在跨模态推理、长时程逻辑推理和动态环境交互方面存在明显局限,难以满足现实世界中复杂任务的需求。
系统性发展路线不清晰 :多模态推理模型的发展路径缺乏系统性总结,阻碍了研究者对技术演进趋势的理解和未来方向的把握。
缺乏统一的多模态原生推理模型 :当前模型大多以语言为中心,难以处理全模态输入(如音频、触觉、传感器等),也难以实现真正的自主Agent行为。
本文的核心创新
提出多模态推理发展的三阶段演进路线图 :
- • 第一阶段:感知驱动的模块化推理;
- • 第二阶段:以语言为中心的短推理(System-1);
- • 第三阶段:以语言为中心的长推理(System-2),支持复杂任务分解与强化学习。
提出原生大型多模态推理模型(N-LMRMs)的概念 :
- • 强调从设计之初即统一多模态感知、理解和生成;
- • 支持全模态输入与自主Agent行为,实现真正意义上的跨模态交互与推理。
系统性综述与分类多模态推理方法与数据集 :
- • 涵盖多模态理解、生成、推理与规划任务;
- • 提供了全面的数据集、基准测试与评估方法的分类与总结。
结果相较于以前的方法有哪些提升
推理能力的深度与广度提升 :
- • 通过多模态思维链(MCoT)、强化学习增强推理(如R1系列模型)等方法,显著增强了模型在复杂任务中的推理深度与结构化能力。
跨模态一致性与泛化能力增强 :
- • 支持视觉、音频、文本等多模态的联合推理,提升了在真实复杂环境中的泛化表现。
任务自主性与规划能力提升 :
- • 在多模态Agent基准测试中,模型在GUI导航、具身交互、网页操作等任务中表现出更强的自适应与长时程规划能力。
统一架构与原生多模态建模能力增强 :
- • 如AnyGPT、Baichuan-Omni等模型实现了对多种模态的统一建模与生成,提升了模型在多模态任务中的表现。
局限性总结
语言中心架构的局限性 :
- • 当前主流模型仍以语言为核心,导致对非语言模态(如音频、触觉)的处理能力有限。
全模态推理尚未成熟 :
- • 尽管提出了N-LMRMs的愿景,但目前尚无成熟模型能完全实现全模态输入的统一理解与推理。
动态环境交互能力有限 :
- • 在实时、交互式任务(如机器人操作、具身Agent)中,模型仍存在策略适应性差、反馈延迟等问题。
幻觉与错误推理问题尚未根本解决 :
- • 即使是先进的模型(如OpenAI o3)在复杂推理中仍可能出现虚构推理路径或错误解释视觉输入。
评估体系尚未统一 :
- • 尽管已有大量基准测试,但缺乏统一、标准化的评估体系,导致模型性能比较存在偏差和不一致性。
展望与未来方向
构建真正原生的多模态推理模型(N-LMRMs) :
- • 从架构设计、训练策略、数据合成等方面全面支持全模态输入与输出。
推动强化学习在多模态推理中的应用 :
- • 通过强化学习增强模型的自主决策与长期规划能力。
发展统一的评估体系与标准化基准 :
- • 构建覆盖多模态理解、生成、推理与规划的综合性评估框架。
增强模型的现实世界适应能力 :
- • 在具身交互、机器人控制、自动驾驶等真实场景中进行更深入的部署与验证。
导读
推理是智能的核心,塑造了决策、得出结论以及跨领域泛化的能力。在人工智能领域,随着系统越来越多地运行在开放、不确定和多模态的环境中,推理对于实现鲁棒和自适应行为变得至关重要。大型多模态推理模型(LMRM)已成为一种有前景的范式,通过整合文本、图像、音频和视频等模态来支持复杂的推理能力,旨在实现全面感知、精确理解和深度推理。随着研究的推进,多模态推理已迅速从模块化、感知驱动的流水线发展到统一、以语言为中心的框架,提供了更连贯的跨模态理解。尽管指令微调和强化学习提升了模型的推理能力,但在全模态泛化、推理深度和自主行为方面仍存在重大挑战。为解决这些问题,作者提出了一份全面且结构化的多模态推理研究综述,围绕一个反映该领域不断变化的设计理念和新兴能力的四阶段发展路线图进行组织。首先,作者回顾了基于特定任务模块的早期工作,其中推理隐式嵌入在表示、对齐和融合等阶段的推理过程中。接下来,作者考察了将推理统一到多模态大语言模型(LLM)中的最新方法,如多模态思维链(MCoT)和多模态强化学习等进展,使得推理链更加丰富和结构化。最后,基于挑战性基准测试和OpenAI O3及
的实验案例的实证洞察,作者讨论了原生大型多模态推理模型(N-LMRMs)的概念方向,这些模型旨在支持在复杂现实环境中进行可扩展、自主和自适应的推理与规划。通过综合历史趋势和新兴研究,本综述旨在阐明当前的研究格局,并为下一代多模态推理系统的设计提供指导。
1 引言
在哲学和人工智能领域,推理被广泛认为是智能行为的核心基础。它不仅使Agent能够适应性地响应环境,还能进行逻辑推理、跨不同情境泛化知识,并应对复杂挑战。随着人工智能系统越来越多地与动态、不确定和多模态环境互动,在各种环境中进行正确推理的能力对于实现鲁棒性和适应性智能至关重要。在此背景下,大型多模态推理模型(LMRMs)已成为一个有前景的方向,它们整合了文本、图像、音频和视频等多种数据模态,并展现出复杂的推理能力,包括逻辑演绎、因果推理、类比映射和长时程思考。LMRMs的核心目标在于实现全面感知、精确理解和深度推理,以支持在不同环境中的决策过程。
多模态推理研究进展迅速。早期工作依赖于感知驱动、模块化的流程,而近期进展则利用大语言模型来统一多模态理解和推理。指令微调和强化学习进一步提升了模型的推理性能,使其更接近人类般的深思熟虑行为。尽管取得了快速进展,多模态推理仍然是大型多模态模型的核心 Bottleneck ,在这些模型中,它们表现出有限的泛化能力、推理深度和类似Agent的行为。
以往该领域的调查主要集中于多模态大语言模型或以语言为中心的推理方法分析,缺乏对近期强化增强型多模态推理的详细分析以及LMRM的技术前景展望。因此,多模态推理领域需要一个连贯的框架来理解多模态推理的演进过程及其发展方向。作者的工作通过提供对多模态推理模型整个发展路线图的全面综述和分析,填补了这一关键空白,涵盖了早期的模块化设计以及最先进的LMRM。此外,作者基于实验结果和技术审视,对LMRM的未来发展进行了展望。
具体而言,作者提出一个多模态推理的结构化路线图,分为三个阶段(图2):感知驱动模块化推理,其中推理隐含在特定任务的模块中;以语言为中心的短推理(系统1),其中多模态推理通过基于 Prompt 和结构化的短思维链(CoT)与大语言模型(LLMs)涌现;以及以语言为中心的长推理(系统2),其中通过扩展推理链和强化学习实现长思考、规划和 Agent 行为。
基于这一发展轨迹,作者提出了原生大型多模态推理模型(N-LMRMs)的概念,这是一种面向未来的范式,其中推理不再被附加到语言模型上,而是从全模态感知和交互以及目标驱动认知中自然涌现。通过将这一愿景建立在统一表示、训练数据合成、从世界经验中学习以及基准构建的最新进展之上,作者概述了超越当前架构限制以推进多模态智能的可能方向。
作者的贡献主要有三点:
- • 本文对大型多模态推理模型(LMRM)领域进行了全面综述,涵盖约700篇文献。作者的分析将当前模型中的关键推理局限性置于具体情境中进行分析和解决(第2节)。
- • 作者提出了一种从模块化推理到多模态思维链(MCoT),最终到长时程系统2推理的三阶段发展路线图。每个阶段都通过详细的分类学和代表性方法进行了进一步分析(第3节)。
- • 作者介绍并分析了原生大型多模态推理模型(N-LMRMs),全面概述了初步进展,包括架构、学习方法、数据集和基准测试,为未来多模态 Agent 推理奠定基础(第4节)。
作者对现有的多模态理解和推理数据集及基准(更新至2025年6月30日,见第5节)进行了重新组织,以明确其类别和评估维度。
2 多模态推理的演变范式与讨论
多模态推理的演进经历了若干重大范式转变,体现了感知输入与结构化认知过程更深层次的融合。本节概述了多模态推理系统发展的四个关键阶段,每个阶段都体现了独特的模型设计、能力及技术挑战。这一历史视角不仅定位了当前领域的发展状态,也阐明了本综述后续章节所探讨方向的动力来源。
第一阶段:感知驱动模块化推理 - 设计特定任务的推理系统
在初始阶段,多模态推理能力通过模块化的推理模块得到发展(Andreas等人,2016年;Yang等人,2016年;Xiong等人,2016年)。这些系统通常在监督学习框架内采用卷积神经网络(CNN)和长短期记忆(LSTM)网络等循环架构。由于面临多模态数据有限、神经架构不成熟以及学习方法尚未发展等挑战,早期研究采用了模块化设计,将推理过程分解为独立的组件:表示、对齐、融合和推理(§3.1.1)。随着该领域逐渐转向预训练-微调范式(Devlin等人,2019年;Radford等人,2018年、2021年),大规模多模态数据集和更深神经网络的涌现促进了预训练视觉语言模型(VLM)的兴起(Chen等人,2020年;Li等人,2020年;Yu等人,2022年、2021年),这些模型旨在统一表示、对齐和融合的过程(§3.1.2)。
然而,这种统一主要强调视觉表示和跨模态融合,往往以牺牲语言更深层次的语义建模为代价。因此,推理过程常常退化为基于分类的范式,限制了情境感知和泛化推理。多模态推理系统仍然依赖额外的模块或特定任务的增强。总体而言,这一阶段的推理在很大程度上是隐式的,主要由基础感知处理和神经计算驱动。新兴的多模态语言模型将通过引入强大的语言模型和大规模视觉数据来增强隐式推理。
第二阶段:以语言为中心的短推理 - 系统1推理
多模态大语言模型(MLLMs)(Liu等人,2023a;Bai等人,2023;Chen等人,2024j;Zhang等人,2023c)的出现标志着多模态推理的重大转变:从模块化系统转向以语言为中心的端到端框架。这些模型在视觉常识推理(VCR)(Zellers等人,2019;Yu等人,2024c)、视觉问答(VQA)(Goyal等人,2017;Singh等人,2019)和视觉定位(Peng等人,2023;Rasheed等人,2024;Liu等人,2024f;Lai等人,2024;Rasheed等人,2024;Ren等人,2024)等任务中取得了优异的性能。
然而,早期的多模态大语言模型架构主要依赖于表层模式匹配和静态知识检索,在动态假设生成、多步逻辑推理和上下文自适应方面存在不足。这一局限性推动了思维链(Chain-of-Thought, CoT)推理的发展(Kojima等人,2022年),该技术将隐式推理转化为显式的中间步骤,将思维过程内化于端到端的生成过程中。通过将第一阶段多模态融合的表征能力与大语言模型的语言表达能力相结合,CoT能够实现更具上下文相关性和可解释性的推理。
基于纯语言模型中思维链(CoT)的成功,研究行人通过开发多模态思维链(MCoT)将其扩展到多模态领域(Zhang et al., 2023g;Fei et al., 2024;Zhang et al., 2023b;Shao et al., 2024)。早期方法主要集中于基于 Prompt 的适配(§3.2.1),通过精心设计的指令使模型能够生成逐步的多模态推理轨迹。后续工作则着重于增强推理过程本身,或通过引入推理路径的结构化分解(§3.2.2),或通过利用外部工具和检索增强来扩展推理能力,使其超越模型的静态知识(§3.2.3)。
然而,在这个阶段,推理主要仍然是短暂和被动的——这是快速直觉型System-1推理的特征。模型对于熟悉或有限的任务是有效的,但在抽象、组合性和规划方面存在困难。这些挑战推动了更刻意、结构化推理范式的开发,为下一次重大转型奠定了基础。
第三阶段:以语言为中心的长推理 - 系统2思考和规划
尽管MCoT显著提升了MLLMs的推理能力,但它仍不足以应对现实世界多模态任务的复杂性(Zhang等人,2024f;Yu等人,2024c;Yue等人,2024)。大多数MCoT方法通过短促的、反应式的链式操作——类似于快速直观的系统1推理——进行工作。这些方法对于熟悉或边界明确的问题有效,但在抽象、组合性、长时程推理和自适应规划方面存在困难(DeepSeek-AI等人,2025)。为弥补这一差距,近期研究转向受系统2启发的推理(Yao等人,2023b;Kahneman,2011),强调更慢、更审慎、结构化的认知过程。在此观点下,推理不再被视为一个简单的功能,而是智能行为的核心组成部分。通过在三个关键维度——推理模态、推理范式和学习方法——上扩展MCoT,已成为通往一类新型模型的关键路径:大型多模态推理模型(LMRMs),这些模型能够进行更深层次、可迁移且具有认知基础的推理。
首先,从推理模式的角度来看,仅依赖文本表示限制了模型捕捉特定模式知识的能力。近期研究(Lin等人,2025a;Gao等人,2024a;Li等人,2025b;Zhou等人,2024b;Rose等人,2023)引入了跨模态推理链,利用视觉、听觉和语言信号作为联合推理基体,实现更丰富的语义基础和更忠实的信息整合(§3.3.1)。
其次,关于推理范式,研究行人构建了更长、更高质量的链,并引入了泛化的、方法论指导的推理策略(Jaech等人,2024;Yao等人,2024a)。这些方法使模型能够自主分解复杂任务,并在不同情境中应用可迁移的程序。值得注意的是,O1系列(例如GPT-4o(Hurst等人,2024)在认知要求高的多模态任务范围内展现了接近人类水平的性能(§3.3.2)。
最后,从学习方法的角度来看,强化学习增强的多模态推理正获得越来越多的关注。通过整合自主数据、迭代反馈和长时程优化目标,DeepSeek-R1(DeepSeek-AI等,2025年)等模型提升了其规划能力、鲁棒性和自适应泛化能力。这一研究方向催生了新一代强调可扩展性、方法论基础的多模态推理模型(§3.3.3)。
这些发展共同反映了一种从反应式到审议式推理范式的更广泛转变,使LMRM更接近于在开放和动态环境中实现自适应的系统级智能。
第四阶段:迈向原生大型多模态推理模型(展望)
尽管LMRM(语言中心模型)通过扩展思维链在处理复杂任务方面展现出潜力,但其语言中心的架构带来了关键约束(Kumar等人,2025;Pfister和Jud,2025)。首先,它们主要关注视觉和语言模态(例如文本、图像、视频),这限制了它们在现实场景中的适用性,因为在现实场景中,音频、触觉信号、传感器流和时序序列等多样数据类型是深度交织的。仅靠语言生成的推理往往难以支持多模态生成性思维、反思和控制。其次,当前模型在交互式、长时程推理和自适应规划方面存在不足。尽管它们能在静态环境中生成扩展的推理链,但它们与动态环境进行实时、迭代交互的能力仍不成熟。
为解决这些差距,作者展望原生大型多模态推理模型(NLMRMs)的发展,将其视为机器智能的潜在范式转变(§4)。与通过辅助模态处理器改造语言模型的传统多模态推理模型(LMRMs)不同,N-LMRMs将原生设计为在完全端到端架构中统一多模态理解、生成和自主推理。现实世界的数据类型被编码到一个统一的表示空间中,例如VideoPoet(Kondratyuk等人,2024)、BAGEL(Deng等人,2025a)和Janus-Pro(Chen等人,2025g),而大规模合成数据则促进了在任何模态交互环境中推理和规划的全面学习。这一演变依赖于两项变革性能力:1)多模态自主推理:N-LMRMs将体现自主智能,实现与复杂环境的主动、目标驱动交互,例如长时程规划——分层任务分解和记忆增强推理以在扩展交互中保持连贯性;动态适应——基于环境反馈实时调整策略;具身学习——闭环训练框架使模型通过模拟或物理交互学习以实现更好的泛化。2)全模态理解和生成推理:N-LMRMs将通过利用统一的表示空间超越特定模态的编码器和解码器,实现平滑的跨模态合成和分析。这种方法包括异构数据融合以联合嵌入不同类型的数据,上下文多模态生成以连贯地创建复合输出,以及模态无关的推理,它能够实现适应性的处理流程以任务无关地处理新的或任何跨模态数据。
综合来看,从模块化感知驱动系统到新兴的原生多模态推理者的演变,清晰地勾勒出通往更统一、自适应、全面的High-Level人工智能系统的明确轨迹。在接下来的章节中,作者将对每个阶段进行详细分析,包括其代表性模型以及塑造多模态推理未来的新兴研究方向。
3 多模态推理模型的路线图
3.1 阶段1感知驱动模块化推理
开发特定任务推理模块
在多模态推理的早期阶段,由于多模态数据有限、神经网络架构尚不成熟以及学习方法不够复杂等约束,导致了针对特定任务的模型开发。这些模型通常采用不同的模块来实现多模态表示、对齐、融合和推理。根据模型架构和学习方法,这些模型可以归纳为模块化推理网络和基于预训练视觉语言模型(VLMs)的模块化推理。
3.1.1 模块化推理网络
早期的方法依赖于通用的CNN和LSTM Backbone 网络从多模态数据中推导答案。然而,这些方法很快被基于感知线索模块化推理的架构所改进。神经模块网络(NMN)(Andreas et al., 2016)动态组装任务特定的模块来组合视觉和文本特征,取代了静态融合。分层协同注意力(HieCoAtt (Lu et al., 2016)引入了模块化跨模态注意力,以分层对齐问题语义与图像区域。多模态紧凑双线性池化(MCB)(Fukui et al., 2016)通过高效可学习的双线性模块优化特征交互。堆叠注意力网络(SANs)(Yang et al., 2016)通过迭代视觉特征的注意力跳跃模块化推理。动态记忆网络(DMN)(Xiong et al. 2016)集成了记忆模块,用于对序列输入进行多情节推理。ReasonNet (Ilievski & Feng, 2017)将推理分解为实体-关系模块,用于结构化推理。UpDn (Anderson et al., 2018)引入了自下而上和自上而下的注意力,以优先考虑目标级特征进行推理(例如,VQA-v2)。MAC (Hudson & Manning, 2018)采用记忆增强控制单元进行迭代组合推理。BAN (Kim et al., 2018)使用跨模态的双线性注意力网络捕获高阶交互。异构记忆增强多模态注意力,HeteroMemory (Fan et al., 2019)将模块化扩展到视频,通过同步外观和运动模块与时间融合。MuRel (Cadene et al., 2019)将推理建模为目标对之间的关系网络,用于细粒度推理。MCAN (Yu et al., 2019b)使用模块化协同注意力结合自注意力和引导注意力,进行深度跨模态推理。
这些进展展示了以感知为导向的设计——包括注意力机制、记忆组件和组合模块——如何促进与特定任务要求相一致的细粒度推理。然而,Transformer架构(Vaswani等人,2017)的出现,结合预训练和微调学习方案,推动了多模态表示、对齐和融合。具体而言,基于Transformer的预训练视觉语言模型增强了数据和模型内部的视觉与文本信息的整合,从而实现了以感知为导向的推理能力。
3.1.2 基于视觉语言模型的模块化推理
这些视觉语言模型使用大规模图像-文本对进行训练,推动了以感知驱动的推理任务,例如NLVR2(Suhr等人,2018年)、TVQA(Lei等人,2018年)、GQA(Hudson和Manning,2019年)、OK-VQA(Marino等人,2019年)、VCR(Zellers等人,2019年)和ScienceQA(Saikh等人,2022年)。具体而言,这些视觉语言模型引入了Transformer,并利用大规模图像-文本数据来统一多模态表示、感知、融合和推理的过程。以下是三种基于预训练视觉语言模型的模块化推理方法:
双编码器对比推理。这些模型利用双流架构和对比学习,通过跨模态交互动态对齐和推理视觉和文本特征。例如,ViLBERT(Lu等人,2019)使用具有跨模态注意力的双流Transformer进行动态特征对齐。LXMERT(Tan和Bansal,2019)在双编码器之间添加交互层,以对关系嵌入进行推理。CLIP(Radford等人,2021)利用对比预训练通过对齐嵌入实现零样本推理。ALBEF(Li等人,2021b)将对比学习与动量蒸馏相结合,以对蒸馏嵌入进行推理。METER(Dou等人,2022)通过模块化编码器-解码器框架增强双流推理,以实现鲁棒对齐(例如,VCR)。SimVLM(Wang等人,2021)使用基于前缀的预训练来对齐视觉和语言,以实现高效推理。VLMo(Bao等人,2022b)引入了模态专家混合框架,以实现灵活的跨模态推理。CoCa(Yu等人,2022)集成了对比和生成头,以实现多功能推理(例如,
)。BLIP(Li等人,2022)引入了图像-文本Transformer模块Q-former,并采用具有对比目标的视觉-语言预训练,通过引导对齐进行推理。
单Transformer主干交互推理。该范式将视觉和文本输入嵌入到单个Transformer中,通过统一的编码方法实现跨模态推理。VisualBERT (L) 等模型 (2019), UNITER (Chen等人, 2020), VL-BERT (Su等人, 2019) 将视觉-文本输入融合到单个Transformer中,通过联合上下文编码或增强跨模态预训练进行推理。PixelBERT (Huang等人, 2020) 采用CNN和Transformer架构处理像素,实现细粒度推理(例如,NLVR2)。UniVL (Luo等人, 2020) 使用单个Transformer统一视频-语言推理,处理时序跨模态任务(例如,TVQA)。Oscar (Li等人, 2020), VinVL (Zhang等人, 2021a) 在统一Transformer中 Anchor 定推理,通过目标标签或增强视觉特征提升语义推理(例如,VCR, GQA)。ERNIE-ViL (Yu等人, 2021) 将场景图知识集成到单个Transformer中,通过结构化视觉-语言交互增强组合推理。UniT (Hu & Singh, 2021) 使用共享自注意力主干简化多模态任务,实现统一推理。PaLI (Chen等人, 2022b) 使用多语言框架扩展单Transformer推理,实现跨语言推理(例如,OK-VQA)。Flamingo (Alayrac等人, 2022) 采用交叉注意力优先处理动态视觉-文本交互。BEiT-3 (Wang等人, 2022b) 采用 Mask 数据建模统一视觉-语言学习。OFA (Wang等人, 2022a), BLIP-2 (Li等人, 2023c) 引入统一的 multimodal 框架或 Query Transformer,提升跨模态推理效率(例如,VQA-v2)。Kosmos-1 (Huang等人, 2023b), Kosmos-2 (Peng等人, 2023) 支持交错输入处理或定位能力,实现灵活的多模态理解和精确目标定位。
基于多模态LLM的隐式推理。该方法将视觉输入投影到大语言模型的文本空间中,利用大语言模型(Li et al., 2023d)的上下文推理能力来提升多模态推理的性能。其架构包含预训练的视觉编码器和大语言模型,即Vision-Encoder-LLM。CLIP-Cap(Mokady et al., 2021)将CLIP视觉特征投影到LLM中,用于推理和字幕生成任务。LLaVA(Liu et al., 2023a)通过调整ViT-LLM集成实现对话式推理,或通过扩展支持复杂的VQA任务。MiniGPT-4(Zhu et al., 2023)、InstructBLIP(Dai et al., 2023)通过投影层或指令微调将ViT与冻结的LLM对齐,简化视觉-文本推理。Qwen-VL(Bai et al., 2023)集成了空间感知的ViT,增强了对空间复杂任务的具身推理能力。mPLUG-Owl(Ye et al., 2023)、LMEye(Li et al., 2024l)和Oter(Li et al., 2023a)将模块化视觉编码器与LLM结合,用于指令跟随和多模态推理的情境学习。
这三种模型在架构创新方面显著推动了多模态推理在任务中的应用,但它们对预定义特征对齐或上下文编码的依赖往往限制了它们处理复杂、多步骤推理场景的能力,这些场景需要迭代或组合推理。这些限制凸显了在大型模型(如LLM的开发)中需要多模态思维链(MCoT)推理(第3.2节)的必要性,这种推理能够动态分解任务、整合中间推理步骤,并自适应地对齐感知和推理,以在多样化的多模态挑战中实现更鲁棒和泛化的性能。
主要收获:感知驱动模块化推理
早期的多模态模型主要集中于信息的表征、对齐与融合。在这些模型中,推理通常是隐式的,通常需要独立的、特定任务的推理模块。最近,多模态大语言模型,尤其是采用视觉编码器-语言模型结构的模型,实现了统一的多模态推理架构,并展示了改进的多任务推理性能。
3.2 以语言为中心的短推理 - 系统1推理
随着大规模多模态预训练的兴起,多模态大语言模型(MLLMs)开始展现出涌现的推理能力。然而,此类推理通常较为浅层,主要依赖隐式关联而非显式逻辑过程。MCoT作为一种简单而有效的方法,应运而生以缓解这一局限性。通过引入中间推理步骤,MCoT提升了跨模态对齐、知识整合和上下文基础,且无需大量监督或显著的架构修改。在本阶段,作者将现有方法分为三种范式:基于 Prompt 的MCoT、预定义模式的结构化推理以及轻量级外部模块增强的工具化推理。
3.2.1 基于 Prompt 的MCoT
基于 Prompt 的多模态思维链(MCoT)方法将文本思维链范式扩展到多模态场景。这些方法支持跨模态的逐步推理,在仅需少量额外训练的情况下提供强大的可解释性。在视觉推理中,IPVR(Chen等人,2023c)提出了一种结构化的“看-思-确认” Prompt 框架,引导大语言模型完成视觉 grounding 和推理验证。VIC(Zheng等人,2024c)在视觉输入前 Prompt 文本推理链,以减少幻觉现象并提升准确率。
在视频理解方面,VoT(Fei等人,2024)利用时空场景图 Prompt 从Low-Level感知到High-Level解释的渐进式推理。VideoAgent(Wang等人,2024h)是一个由大语言模型协调的系统,通过极少的帧使用迭代地从长视频中 Prompt 关键信息。LET(Himakunthala等人,2023)在VIP数据集上采用逐帧 Prompt 策略,以指导视频填充和预测的时间推理。
在特定领域的应用中,PKRD-CoT(Luo等人,2024)引入了一种零样本 Prompt 框架,该框架构建了自动驾驶推理的结构,涵盖感知、知识、推理和决策。LPE(Xie等人,2025a)利用基于 Prompt 的推理处理语音内容和情感线索,以生成富有同理心的响应。EMER(Lian等人,2023)将 Prompt 应用于多模态情感识别,整合单模态线索,并生成可解释的预测。
面向任务的推理也受益于基于 Prompt 的多思维链技术。CoTDet(Tang等人,2023)采用多级 Prompt 来提取用于目标检测的可供性知识。AntGPT(Zhao等人,2023) Prompt 大语言模型从基于视频的动作序列中推理人类目标和时序动态。CPSeg(Li,2024)构建思维链 Prompt 以对齐文本和像素级语义,从而增强分割效果。
3.2.2 结构推理
与通过手工制作的示例或零样本 Prompt 方法诱导推理行为的基于 Prompt 的MCoT方法不同,结构化推理专注于通过监督训练学习推理模式。通过整合显式的程序结构,这些方法将松散指导的推理转换为标准化的分阶段流程。这种标准化提高了复杂多模态任务中的可扩展性、可靠性和效率。作者将结构化推理分为三种代表性类型:(i)推理构建,学习生成原子推理步骤作为可解释的支撑;(ii)定义推理程序,将结构化纹理推理方案适应多模态环境;(iii)模态特定结构化推理,进一步整合模态感知约束和设计,以更好地与视觉、听觉或具身输入的特征相匹配。
推理构建
有效的推理学习方法构成了多模态环境下的结构化推理基础。近期研究持续从不同角度积极探索推理生成方法。Multimodal-CoT(Zhang et al., 2023g)提出一个两阶段的Multimodal-CoT框架,将推理生成与答案预测解耦以减少幻觉。T-sciq(Wang et al., 2024e)利用教师大语言模型生成不同复杂度的推理,表明推理质量对推理准确性至关重要。在自动驾驶领域,G-CoT(Ma et al., 2024)设计了Dolphins模型,明确将推理与视觉和历史驾驶信号关联,以实现更基于事实的推理。MC-CoT(Tan et al., 2024a)采用自洽性策略从多个候选推理中选择最准确的推理,提升小型模型的性能。CLoT(Zhong et al., 2024a)通过Leap-of-Thought促进非线性、探索性的推理构建,以支持创造性推理。
定义推理过程 在提升文本推理过程可解释性的领域,众多研究提出了结构化的推理阶段。例如,Cantor(Gao等人,2024c)区分了感知和决策阶段。在感知阶段,从图像或文本描述中提取Low-Level属性,如物体、颜色和形状,随后进入决策阶段,该阶段整合这些特征进行问题解决。TextCoT(Luan等人,2024)采用三阶段流程。图像概览阶段生成全局描述,粗略定位阶段利用LMMs的 grounding能力精确定位答案区域,细粒度观察阶段结合全局和局部细节以获得准确答案。类似地,Grounding-Prompter(Chen等人,2023a)进行全局理解、噪声评估、分区理解和预测。它逐步融合全局和局部语义,抵抗噪声,并提升时间边界的感知能力。Audio-CoT(Ma等人,2025d)采用三种思维链推理范式。Manual-CoT依赖手工示例进行推理指导,Zero-Shot-CoT通过简单 Prompt 实现零样本推理,Desp-CoT通过生成音频描述辅助推理。VIC(Zheng等人,2024c)在整合视觉输入形成最终推理前,将任务分解为基于文本的子步骤。视觉草图板(Hu等人,2024b)在绘图过程中将推理组织为思考、行动和观察阶段。DetCoT(Wu等人,2024c)将VQA推理形式化为子任务和回顾的组合。BDoG(Zheng等人,2024b)采用专用的辩论和总结流程,并使用独特的Agent。CoTDet(Tang等人,2023)通过类似人类的列举、分析和总结过程实现目标检测。CoCoT(Zhang等人,2024a)系统性地比较输入的相似性和差异性。SegPref(Wang等人,2024j)通过全局理解、发声物体过滤和噪声消除,在视觉空间中精确定位发声物体。EMMAX(Sun等人,2024b)结合了grounded规划方法与预测运动技术。
多模态特定结构推理 近期研究引入了针对多模态输入独特挑战的特定模态推理结构,尤其在视觉语言任务中。一个重要的研究方向集中在基于区域的 grounding,其中空间定位被用于指导结构化推理。例如,CoS(Liu等人,2024g)和TextCoT(Luan等人,2024)采用两阶段流程,首先基于输入问题识别感兴趣区域,随后进行局部检查以实现多粒度推理而不损失分辨率。DCoT(Jia等人,2024)通过引入双引导机制扩展了这一范式,结合边界框 grounding 与语义相似示例的检索,共同增强细粒度和上下文感知推理。超越空间 grounding,CoT-PT(Ge等人,2023)通过 Prompt 调整整合视觉和文本嵌入,并通过从粗到细的抽象逐步细化视觉概念表示。
另一类方法专注于文本引导的语义增强。Shikra(Chen等人,2023b)和TextCoT(Luan等人,2024)利用图像描述作为High-Level语义线索来引导空间注意力和物体定位。这种策略减少了对外部检测模块的依赖,并促进了更可解释的指称推理。受经典CoT框架的启发,DDCoT(Zheng等人,2023)和AVQA-CoT(Li等人,2024e)将复杂的视觉或视听 Query 分解为顺序子问题,实现组合推理和跨模态的多跳推理能力。
最后,E-CoT(Zawalski等人,2024)通过交错任务重述、规划和Low-Level动作执行,将结构化推理扩展到具身场景中。这突出了视觉-语言-行动模型中跨越语义和感觉运动两个层面的推理链的必要性。
主要结论:结构化推理
结构化推理方法通过整合模块化子任务,如问题分解、视觉定位、文本生成、摘要、阶段划分和图像处理,定义了标准化的推理工作流程。这些方法通过将生成任务组织成明确的阶段,增强了可解释性和一致性。近期趋势还引入了模态感知设计,以更好地将推理与视觉、听觉或具身输入相匹配。
3.2.3 外部增强推理
外部增强推理通过引入High-Level算法、辅助工具或专家模块来弥补模型内在推理能力的局限性。这些组件在推理时集成或训练时耦合,从而实现更灵活、可扩展和任务专用的推理工作流程。通过将核心推理步骤与基础模型解耦,此类方法支持长时规划、精确接地以及动态或领域特定信息的访问。作者将外部增强方法分为四类:(i)搜索算法增强的MCoT,通过各种搜索算法导航推理空间;(ii)基于工具的增强,利用外部语言工具或系统指导推理执行;(iii)检索增强推理,将来自外部来源的相关多模态知识整合到推理路径中;(iv)多模态增强,通过集成专门的多模态模块支持感知驱动的推理。
搜索算法增强的MCoT搜索策略驱动的MCoT方法使模型能够在推理过程中动态地导航和优化推理轨迹。例如,MM-ToT(Gomez,2023)利用GPT-4和Stable Diffusion,采用深度优先搜索(DFS)和广度优先搜索(BFS)算法,根据0.0-1.0的度量标尺识别最优的多模态输出。HoT(Yao等人,2023a)将多模态输入创建成相互连接的思想,并将其打包成一个超边。与此不同,聚合式思维图(AGoT)(Yang等人,2024d)构建一个推理聚合图,在每一步整合多样化的推理元素,并随后融入视觉数据。蓝图辩论图(BDoG)(Zheng等人,2024b)采取了独特的路径,摒弃搜索算法,而是利用三个Agent——一个肯定辩手、一个否定辩手和一个主持人。这些Agent通过迭代辩论来处理多模态问题,主持人最终综合得出最终答案,从而隐式构建一个探索和聚合广泛思想的思维图。总体而言,与依赖线性、示例驱动推理的基于 Prompt 的方法相比,搜索策略导向的MCoT变体使模型能够探索多条推理路径,从而显著增强适应性和问题解决的深度。
纹理工具为增强多模态思维链(MCoT)框架的推理能力,一些研究引入了外部文本增强工具,通过语言指导、结构化或优化整体推理过程。L3GO(Yamada等人,2024)采用GPT-4结合思维链 Prompt 生成明确的文本推理步骤,指导在Blender环境中进行3D网格构建,并借助ControlNet实现视觉 Anchor 定。HYDRA(Ke等人,2024)和Det-CoT(Wu等人,2024c)利用大语言模型不仅作为规划器,还作为动态指令生成器、错误诊断器和推理控制器。这些模型与视觉基础模型(如BLIP2、LLaVA)及强化学习Agent交互,通过文本 Prompt 和反馈迭代提升视觉理解和决策能力。两个系统均集成了状态记忆库以保存对话历史或先前指令,通过文本调节实现增量式思维链推理。思维图像(Meng等人,2023)引入SyMLLM,从语言描述生成中间图像,将复杂问题转化为视觉推理任务——但依然基于语言控制。类似地,AnyMAL(Moon等人,2024)将不同模态统一到文本空间进行跨模态推理,而SE-CMRN(Zhang等人,2021b)通过图卷积网络利用句法线索提升视觉常识推理性能。
RAG 多种方法通过检索机制增强多模态推理,例如解决在线问题(Chen等人,2024k)。RAGAR(Khaliq等人,2024)提出了CoRAG和ToRAG,通过检索多模态证据支持政治事实核查。Chain-of-Action(Pan等人,2024)通过可配置的推理链从异构信息源中检索信息。KAM-CoT(Mondal等人2024)将知识图谱作为外部知识源,以增强多模态推理。AR-MCTs(Dong等人,2024a)将动态逐步检索与蒙特卡洛树搜索相结合,使MLLMs能够在每个推理步骤中访问相关知识,并自动生成高质量的推理标注。知识图谱集成通过多种方法进一步扩展了多模态推理能力:MR-MKG(Lee等人2024)通过RGAT从MMKGs中检索相关三元组,增强通用多模态推理;Reverse-HP(Zhu等人,2022)使用SDKG-11上的反向超平面投影实现疾病相关推理;MarT(Zhang等人,2022)采用结构映射理论,通过MarKG中实体间的关系导向迁移实现多模态类比推理。
使用视觉专家是增强多模态推理模型能力的有效方法。MCoT-Memory(Liang等人,2025a)通过整合记忆检索和场景图更新来提升长时程规划能力,保留高置信度经验以实现稳健决策。MGCoT(Yao等人,2023c)采用ViT-large编码器(用于多模态任务)提取视觉特征,使用Stanford CoreNLP系统进行共指消解,以及OpenIE系统提取思维单元节点,从而实现高效的GoT推理。CCoT(Mitra等人,2024)通过两个关键步骤增强LMMs的组合视觉理解和多模态推理能力:场景图生成和响应生成。它利用生成的场景图作为中间推理步骤。CVR-LLM(Li等人,2024n)包含两个关键组件:CaID通过迭代自完善生成情境感知图像描述,CVR-ICL创新性地整合文本和多模态因素以选择情境示例,提升LLMs在复杂视觉推理任务中的性能。CAT(Wang等人,2023a)整合了预训练图像描述生成器、SAM和指令调优的大语言模型。通过视觉控制和语言控制,实现以用户为中心的图像描述。VISPROG(Gupta & Kembhavi,2023)交替通过三个步骤迭代:初始生成、反馈和细化。它利用合适的语言模型和三个 Prompt ,基于少量 Prompt 引导模型生成反馈并细化输出,直至满足停止条件。
主要收获:外部增强推理
外部增强推理通过引入辅助模块(如搜索算法、工具 Agent 、检索系统和专业多模态处理器)来协助或卸载推理过程中的部分任务。这些方法通过将规划、 grounding 或感知任务与主干模型解耦,实现了更可控、可扩展和任务自适应的推理,通常能增强长时程推理和领域专业化。
3.3 阶段3 以语言为中心的长推理 - 系统2思考和规划
结构化推理为多模态语言模型引入预定义模式,引导其进行更系统的推理,但其仍受限于较浅的推理深度和有限的适应性。为处理更复杂的多模态任务,近期研究致力于开发类似系统2风格的推理(Kahneman,2011)。与快速反应策略不同,这种推理形式具有刻意性、组合性和显式规划指导。通过扩展推理链,将其与多模态输入相结合,并使用监督或强化信号进行训练,这些模型开始展现出长时程推理和自适应问题分解的能力。
3.3.1 跨模态推理
跨模态推理是指整合和推理多种模态(如文本、图像和视频)的能力。近年来,跨模态推理的进展强调在文本输入之外增强多模态信息。这些方法利用模型内在能力或外部工具和算法来实现这种增强。这些方法旨在通过动态地整合来自不同模态的互补信息来提高推理的准确性和鲁棒性。
除
中所述的多模态理解外,近期方法越来越多地探索工具集成以直接促进多模态推理。VisProg (Gupta & Kembhavi, 2023) 和 ProViQ (Choudhury et al., 2024) 利用程序生成和过程执行来实现跨模态推理,动态生成可执行代码或逻辑路径以解决视频问答、多步视觉推理和几何问题等复杂任务。与此同时,AssistGPT (Gao et al., 2023)、MM-ReAct (Yang et al., 2023) 和 Multi-Modal-Thought (Lin et al., 2025a) 等方法采用模块化集成框架(例如 PEIL、视觉专家 Prompt )根据推理进展协调工具使用。这些系统通过在任务执行过程中动态调用不同工具实现可解释和自适应推理。VisualReasoner (Cheng et al., 2024a) 进一步引入数据合成策略生成多步推理轨迹,随后用于训练适用于多种视觉语言主干的可即插即用视觉推理模块。总体而言,这些工作通过结合程序归纳、动态工具编排和数据驱动推理监督扩展了多模态推理的范畴。
外部算法 除了外部工具,算法方法也被探索用于通过显式认知过程建模来增强跨模态推理。FAST(Sun等人,2024a)和ICoT(Gao等人,2024a)利用类似于人类思维的认知过程。具体而言,FAST采用系统切换 Adapter 动态地在快速和慢速思维模式之间切换,而ICoT则利用注意力驱动选择(ADS)来交替视觉和文本推理步骤。与此同时,思维图像(Zhou等人,2024b)和CoTDiffusion(Ni等人,2024a)专注于生成视觉推理依据。思维图像逐步提取视觉信息,而CoTDiffusion创建视觉子目标计划,将算法增强扩展到机器人领域。
模型内在能力 与依赖外部增强的方法不同,一些方法利用模型的内在能力实现跨模态推理。这些方法依赖于大型多模态模型(LMMs)生成或推理多模态信息的能力,而无需依赖外部工具。TSciQ(王等人,2024e)、Visual-CoT(罗斯等人,2023)和VoCoT(李等人,2024m)展示了如何在精心设计的思维链(CoT)数据集(例如VoCoT-Instruct80K)上微调LMMs,从而实现图表、文档和几何问题的单步跨模态推理。MVoT(李等人,2025b)是一个早期尝试,其中一种自包含架构迭代地优化视觉-文本表示,用于具身推理任务。
主要收获:跨模态推理
跨模态推理方法通过整合不同模态中的视觉、听觉和程序化线索来增强多模态推理能力。代表性策略包括利用外部工具、算法控制交错执行模态特定步骤,以及多模态表示的模型内融合,从而在开放式任务中实现更扎实、可解释和鲁棒的推理。
3.3.2 多模态O1
随着OpenAI o1的兴起,大型推理模型引发了广泛关注,利用CoT微调的开源复制品如Marco-o1(Zhao等人,2024c)和llamaberry(Zhang等人,2024b)开始出现。与传统CoT方法相比,CoT微调通过引入ego反思和错误纠正机制,增强了模型在开放式问题上的推理能力。LLaVA-CoT(Xu等人,2024b)、LlamaV-o1(Thawakar等人,2025)、RedStar(Xu等人,2025a)和Mulberry(Yao等人,2024a)将推理范式扩展到多模态领域。与文本领域“思考→回答”的两阶段推理范式不同,这些工作将推理过程扩展为包含摘要(理由)、描述、思考和回答的四阶段方法。
基于思维链微调和推理时扩展等策略的推理能力提升方法同样重要。Best-of-N采样为给定 Prompt 生成多个响应,通过扩展搜索空间以识别更优解。而Beam Search则不是一次性生成完整响应,而是在每一步通过评分选择最有潜力的中间输出。LLaVA-CoT(Xu等人,2024b)和LlamaV-o1(Thawakar等人,2025)应用此方法以增强推理能力。蒙特卡洛树搜索(MCTS)允许并行探索多条解路径,相比Beam Search能实现更全面的探索和更高品质的解。Marco-o1(Zhao等人,2024c)、llamaberry(Zhang等人,2024b)和Mulberry(Yao等人,2024a)已成功将此方法整合到推理模型的生成过程中。
主要收获:多模态O1
多模态O1模型通过多阶段生成结构、长时程推理和结构化监督,深化了CoT工作流,从而扩展了System-1推理能力。这些模型在富含推理依据的数据上进行微调,并借助Beam Search或MCTS等规划算法的支持,实现了更加连贯、可解释且可扩展的多模态推理。
3.3.3 多模态R1
随着Deepseek-R1的成功,GRPO算法开始被广泛应用于多模态大模型。MM-EUREKA(Meng等人,2025)、Vt-R1(Zhou等人,2025b)、LMM-R1(Yingzhe等人,2025)、R1-V(Chen等人,2025c)等研究采用了与文本领域相似的策略。它们成功地将GRPO算法应用于数学几何问题,展示了反射现象。其他研究如VLM-R1(Shen等人,2025b)、Visual-RFT(Liu等人,20251)、ViCrit(Wang等人,2025s)和Seg-Zero(Yuqi等人,2025)利用GRPO算法增强多模态大语言模型在定位、检测、理解和分类等视觉能力方面的表现。SynthRL(Wu等人,2025g)和MoDoMoDo(Liang等人,2025c)通过数据增强提升了GRPO性能,突出了高质量推理数据在RL中的关键作用。尽管大多数现有GRPO方法集中于基于图像的任务,但已有部分研究开始将此算法扩展到视频和音频模态。Video-R1(Feng等人,2025b)和VideoChat-R1(Li等人,2025j)将GRPO算法引入视频理解领域,而R1-Omni(Zhao等人,2025d)和AV-Reasoner(Lu等人,2025b)则进一步将其扩展到音频模态。此外,R1-Reward(Zhang等人,2025n)、UnifiedReward-Think(Wang等人,2025u)和Mixed-R1(Xu等人,2025d)等研究强调了基于规则的 Reward 设计和 Reward 模型训练的关键作用,通过精心设计或强大的 Reward 模型生成的优质 Reward 信号,显著提升了训练稳定性和性能。尽管取得了这些成功,现有研究往往局限于特定任务,当前多模态大模型尚未能将数学等任务中学习到的长链推理能力泛化到模型的通用能力中,如Deepseek-R1所示。
主要收获:多模态R1
多模态R1方法利用强化学习——特别是DPO和GRPO,增强了模型探索和优化复杂推理路径的能力。这些方法通过将模型输出与偏好数据或多模态反馈进行对齐,提升了推理深度、连贯性和领域适应性,为更通用的长时程系统2推理奠定了基础。
4 走向原生多模态推理模型
LMRMs在处理具有长链思维复杂任务方面展现了潜力。然而,其以语言为中心的架构限制了其在现实场景中的有效性。具体而言,它们对视觉和语言模态的依赖限制了其处理和推理混合多样数据类型的能力,同时它们在与动态环境进行实时迭代交互时的性能仍有待提升。这些局限性凸显了需要一类能够实现更广泛多模态集成和更High-Level交互推理的新模型的需求。
在本节中,作者首先分析最先进语言多模态推理模型(LMRM)在用于评估全模态理解和Agent能力的基准测试中的表现,并强调其在实际应用中的局限性(第4.1节)。随后,作者介绍了原生大型多模态推理模型(NLMRM)的概念,它通过两种基础能力代表了机器智能的范式转变:多模态Agent推理和全模态理解与生成推理(第4.2节)。最后,作者将讨论构建N-LMRM所面临的开放性挑战,并概述克服这些障碍的富有前景的研究方向(第4.3节)。
4.1 实验结果
尽管LMRMs在生成全面思维过程和处理复杂问题方面取得了显著进展,例如MMMU(Yue等人,2024)和MathVista(Lu等人,2024),但这些问题的自主解决在以下方面远未达到实际应用水平:1)评估范围应涵盖多种模态,包括视觉、音频和文本。2)评估能力应涉及与外部环境的交互,需要长时程推理和自适应规划。作者在表12中总结了收集到的全模态和自主性基准,随后分析了LMRMs在这些基准上的表现。
全模态基准测试 近期研究引入了一系列全模态基准测试,旨在评估大型多模态模型(LMRM)在多种数据类型(例如图像、音频、文本和视频)上执行统一理解和推理的能力。例如,OmniMMI(Wang等人,2025v)旨在全面评估开放世界环境中流媒体视频上下文的交互能力。实验结果表明,即使是商业模型,如Gemini-1.5-Pro和GPT-4o,平均准确率也低于20%。当任务需要统一模态理解时(OmniBench(Li等人,2024j)、TaskAnything和JudgeAnything(Pu等人,2025)、MixEvalL-X(Ni等人,2024b)),开源和闭源模型的性能在单模态条件下显著低于多模态条件。具体而言,在音频视频问答(AVQA)任务中,如WorldSense(Hong等人,2025),Claude 3.5 Sonnet仅达到平均准确率35%,而表现最佳的开源模型的准确率仅为25%。在更具挑战性的多模态推理任务中,如BabelBench(Wang等人,2024i)和OmnixR(Chen等人,2024e),随着模态数量的增加,所有模型的性能急剧下降。这表明,与文本输入相比,模型在为图像、视频和音频输入生成推理路径方面存在困难。这些发现共同表明,当前的LMRM尚不能有效处理全模态输入。
Agent 基准测试 多种多样的任务突显了多模态 Agent 评估环境的复杂性和广度。这些任务包括 AgentBench 的多环境任务(Liu 等人,2023b,2024d)、WorFBench 的复杂工作流规划场景(Qiao 等人,2024)、OsWorld 和 AndroidWorld 的完整操作系统交互(Xie 等人,2024a;Rawles 等人,2024)、EmbodiedBench 的基于视觉的导航和操作挑战(Yang 等人,2025c)、VisualWebArena 的视觉基础网络任务(Koh 等人,2024)以及 GAIA 的开放式、工具增强型 Query (Hu 等人,2023)。这些基准测试共同涵盖了广泛的任务类型和模态(例如,文本和视觉),既包括现实环境也包括工具增强型环境。
关于LMRMs在 Agent 基准测试中的表现,这些模型通常引领当前性能,并取得了显著进展(Team,2024,2025a;Yao等人,2024b)。然而,即使是当前最先进的模型也始终未能达到人类水平的可靠性,且在复杂、开放式的任务上面临挑战。跨基准测试的评估反复暴露出常见的 Bottleneck :模型往往在现实世界中的基础应用(Gou等人,2025a;Zheng等人,2024a)上表现不佳,难以进行连贯的长期推理和规划(Qian等人,2025),与外部工具的无缝集成(Wang等人,2025j),以及在多样化的模态和领域中保持鲁棒性(Chu等人,2025)。例如,在BrowseComp基准测试(Wei等人,2025b)中,GPT-4o仅达到0.6%的准确率,使用浏览工具后提升至1.9%,凸显了其工具交互式规划能力的薄弱。OpenAI的推理模型o1达到了9.9%,但仍有显著提升空间。值得注意的是,OpenAI Deep Research针对网络搜索进行了定向调优,通过自主迭代工具调用和推理完成了51.5%的任务。实验结果表明,当前大型推理模型在长期推理和自适应规划方面仍存在不足,这可能需要特定的调优和架构增强,才能进化为真正本土化的 Agent 系统。
初步研究 o3 和
最近,OpenAI 发布了 o3 和
,为 ChatGPT 工具提供了完全的自主访问能力,并使模型能够“用图像思考”OpenAI (2025b)。视觉内容的集成直接增强了多模态推理能力。例如,在图6 中,o3 在 8 分钟 13 秒的思考过程中展示了清晰的任务分解。它通过反复试验有效地确定了裁剪每个子图像的最佳方法,最终得出了正确解决方案。
超越视觉推理,作者评估了o3在文件处理、谜题解决、位置识别和多媒体内容创作方面的能力。如图7和图8所示,o3在复杂多模态问题解决中表现出色,通过捕捉和利用图像中的细微线索。然而,也识别出几个挑战:1)语言知识会干扰视觉输入。如图8中的手指计数案例所示,尽管图像清晰显示有六根手指,o3却错误地将图像识别为标准的抬手表情符号,显示四根手指加一根拇指。2)OpenAI o3在输入文件处理和多媒体内容生成方面存在困难。由于工具限制和编码环境中缺乏互联网访问,文件处理和多媒体创作常常导致不准确。在图8中的简历信息收集案例中,从简历PDF中解析的电话号码可能不正确,o3通过重复相似内容来虚构候选人的项目经验。此外,在图7中的多媒体创作案例中,生成的帧未能遵循“红熊猫”指令,且o3无法支持文本-图像交错生成。3)OpenAI o3可能在推理过程中虚构推理过程。它偶尔会“撒谎”,为潜在正确的答案构建不正确的理由(例如图7中的谜题解决案例)。这个问题需要紧急解决,因为它可能导致模型在训练后阶段试图欺骗用户。实际上,这表明模型尚未掌握解决该问题的相关思维逻辑。
4.2 N-LMRMs的能力
基于上述实验结果,作者提出了原生大型多模态推理模型(N-LMRMs)的概念。N-LMRMs天生设计用于整合跨任何模态的多模态理解、生成和自主推理,这将超越o4-mini的感知和推理范围。这一进步将建立在两个在很大程度上并行探索的变革性能力之上:多模态自主推理,它通过层次任务分解、实时策略适应和具身学习实现主动的、目标驱动的交互;以及全模态理解和生成推理,它通过统一表示支持无缝跨模态合成和分析——促进异构数据融合和上下文多模态交互。表13总结了与自主和全模态模型相关的关键现有工作。这些模型仅探索了N-LMRMs的部分能力,并未结合上述两种能力来构建更强大的大型多模态推理模型。
多模态 Agent 推理多模态 Agent 推理的核心能力是动态适应,它能够根据环境反馈实时调整策略。业界最新的一些产品已初步展示了这一能力。模型上下文协议(MCP)(Anthropic,2025)和 Agent 对 Agent 协议(A2A)(Surapaneni等人,2025)通过促进不同工具的无缝集成,并实现跨各种外部环境的动态交互,这些协议强调了多模态 Agent 推理的重要性,使 Agent 能够根据环境反馈实时调整策略,从而提高其在动态和复杂现实应用中的有效性。例如,Operater结合了GPT-4o的视觉能力与通过强化学习实现的High-Level推理能力,使其能够通过图形用户界面(GUI)实时与操作系统和浏览器交互,在任务执行过程中不断改进其浏览和数据操作能力。类似地,Claude Computer Use允许模型操作和导航桌面环境,通过试错学习最佳交互策略。
此外,Search-o1(Li等人,2025h)在推理过程中利用外部知识检索来填补其理解中的空白。R1-Searcher(Song等人,2025b)和DeepResearcher(Zheng等人,2025e)通过强化学习增强其自主使用搜索引擎收集信息的能力。通过将这种自主知识检索融入推理过程,这些系统能够以更精细的理解进行行动,并根据变化的任务调整其响应。Gemini 2.0具备处理和生成多模态内容的能力。通过与Google的各种工具深度集成,并结合其先进的推理能力,它能够有效地分解任务,并在处理多步问题时逐步获取所需信息。尽管当前模型已展示出这种功能的基本版本,但它们在跨不同模态进行持续、交互式推理方面的能力仍有不足。
另一个方面是LMRM的具身学习以处理外部环境。具身学习体现在能够与数字和物理环境交互的系统。例如,Magma(Yang等人,2025a)通过与现实世界数据交互进行学习,提升其时空推理能力,从而在虚拟和物理环境中有效导航和操Crop体。类似地,OpenVLA(Kim等人,2024)结合了视觉编码器和语言模型,使系统能够从现实世界的机器人演示中学习。这种具身方法使模型能够获取视觉和任务特定的推理技能,增强其执行需要多模态理解和适应的复杂现实世界动作的能力。总之,近期的RL规模方法将极大地激发大规模模型的自主行为,推动其向世界模型发展。
全模态理解与生成式推理
多模态Agent的行为与其底层大型多模态模型所具备的深度推理能力密切相关,特别是在感知范围、理解精度和推理深度方面。因此,为实际应用开发全面的模态模型并提升其深度推理能力是基础性工作。
早期工作,AnyGPT(Zhan等人,2024)采用离散表示对多种模态进行统一处理,实现了跨模态的统一理解和生成。近期,Baichuan-Omni1.5(Li等人,2025k)展示了在不同模态间协作实时理解的卓越能力。Qwen2.5-Omni(Xu等人,2025b)使用一种新的位置嵌入,命名为Time-aligned Multimodal RoPE,以同步视频输入的时间戳与音频。更多最新的开源工作,如M2-omni(Guo等人,2025)和MiniCPM-o(Yu等人,2024b),正在缩小与GPT-4o等闭源模型在性能上的差距。近期Ming-Omni(AI等人,2025)在任何模态输入上实现了新的性能最优。
受现实世界特定需求的驱动,小型化多模态模型正受到越来越多的关注。Megrez-3B-Omni(Li等人,2025a)是一种在设备上运行的、具备多模态理解能力的LLM模型,在场景理解和OCR等任务中表现出色。Mini-Omni2(Xie & Wu,2024)是一种视觉音频助手,能够对视觉和音频 Query 提供实时、端到端的语音响应。R1-Omni(Zhao等人,2025d)专注于从视觉和听觉信息中进行情感识别。
尽管取得了这些进展,当前的多模态人工智能研究主要集中于提升对统一多模态表示的理解和生成能力。有效整合和探究跨模态交互的推理能力开发仍严重不足。弥合这一差距对于实现原生多模态推理模型至关重要——这类系统本质上设计用于以类似人类的精妙程度处理、分析和综合相互关联的模态。
4.3 技术前景
原生大型多模态推理模型(N-LMRMs)的技术前景旨在将理解、生成和推理能力在多种数据类型中实现原生统一,涵盖语言、视觉、音频、触觉、传感器读数、时间序列和结构化数据等,使作者更接近能够以统一和连贯的方式感知、聆听、交流和行动的系统。然而,构建此类N-LMRMs面临着重大挑战。这些模型必须在架构设计上能够处理单一系统内的异构模态,通过长距离多模态推理链遗传性地使用和组合多样化工具,并支持从现实世界交互中的持续学习。本节概述了构建N-LMRMs的关键挑战,并提出了若干应对这些挑战的潜在途径。
统一表征与跨模态融合。一个基本挑战是创建一个单一模型架构,能够以连贯的方式处理和生成不同模态。传统方法通常为每种模态使用单独的编码器(Lyu等人,2023年;Li等人,2024年1月)。相比之下,原生全模态模型寻求一种更统一的设计,以实现模态之间的无缝交互。一种可能的解决方案是将所有输入和输出统一为公共格式,并以统一的方式处理任何模态。
这种方案需要精心设计以防止负向干扰,即一种模态可能主导或损害其他模态的表征(Leng等人,2024;Chen等人,2024g)。因此,一种新兴的解决方案是专家混合(MoE)架构,其中针对特定模态的专家仅被相关输入激活,而核心语言模型作为语言智能的 Backbone (Chen等人,2024i;Li等人,2025n;团队,2025a;Shukor等人,2025)。
交错多模态长思维链。基于统一表示,N-LMRMs可以将传统的长内部思维链扩展为跨多个模态的交错推理过程。这为测试时计算扩展提供了一种新维度,能够无缝融合不同模态(Wang等人,2025b)。OpenAI最近发布的o3和o4-mini代表了这一方向的开创性进展,即在它们的思维链中通过图像进行推理(OpenAI,2025b),通过自动使用能够缩放、裁剪、翻转或增强图像的工具。重要的是,这些功能是原生的,无需依赖单独的专用模型(Wu和Xie,2023;Hu等人,2024b;Feng等人,2025a;Qian等人,2025;Wang等人,2025j)。受强化学习在软件工程(OpenAI,2025)、IMO级数学(DeepSeek-AI等人,2025)、创意写作(Zhao等人,2024c)和GUI操作(Qin等人,2025)等领域的泛化能力所鼓舞,将强化学习扩展到更多模态、更长的工具增强推理链以及更广泛的推理任务,可能是下一代N-LMRMs的配方,这些模型能够模拟跨模态推理并提升机器智能。
从世界经验中学习和进化。在动态演进的智能系统中,基于LMRM的"世界模型"的核心价值不仅在于其在复杂环境(如自动驾驶)中的实时建模和推理能力(Wang et al., 2024m),更在于其通过与环境持续交互实现终身学习的进化机制(Thrun & Mitchell, 1995)。当MCP和A2A构建起高密度工具和Agent集群网络时,系统可以通过与环境、工具及其他Agent的多维度交互,将每次交互转化为结构化经验。这涵盖了从实时数据流中的模式识别到工具操作链中的因果推理,从通信网络中的协作反馈到异常场景中的自主适应等各个方面。
这种持续学习范式使LMRM能够克服静态知识库的局限性。通过迭代积累世界经验,它动态更新其认知架构和决策策略。特别是在开放环境中,自主学习机制驱动模型主动探索工具组合的潜力。在解决新问题的过程中,它同时存储可迁移知识,最终形成一种既具备专业推理能力又保持跨场景泛化弹性的智能系统。作者认为,在线强化学习与离线验证方法的交互学习方法能够迭代和持续地激发LMRM的能力,该方法已被应用于GUIAgent模型(Qin等人,2025;Zheng等人,2025a;Wang等人,2024o),以持续提升性能。
数据合成。当前语言模型推理模型(LMRM)的能力很大程度上依赖于数据驱动。为了在预训练阶段增强这些模型,开发一个高质量的数据合成流程以定制其功能至关重要。大多数现有的数据合成工作(Chang等人,2024;Huang等人,2025d;Xu等人,2024c)集中在提升单模态或跨模态的理解和推理能力,特别是在视觉、语言和语音等领域。然而,对于更复杂方面的探索有限,例如对三个或更多模态进行对齐、创建多模态交互思维链和视觉生成、在动态环境中实现多步规划、以及协调多工具调用和并行工具使用。这些领域为推进多模态推理模型提供了重要的发展机遇。
综上所述,作者引入了N-LMRM的概念,作为从有能力推理者向自主Agent过渡的初始步骤。此外,根据OpenAI提出的通往通用人工智能的五个阶段路径(OpenAI,2023),作者为后续阶段奠定了基础,包括ego进化的创新者(Yamada等人,2025)和多Agent组织(Zhang等人,20251)。基于作者的研究 Proposal ,未来的工作可以探索更具自主性和全模态的能力,推动日益自主的机器智能的发展。
主要结论:原生大型多模态推理模型 (LMRMs)
在本节中,作者考察了最新的多模态大型模型(例如O3和O4-mini)在具有挑战性的任务和基准上的性能。随后,作者阐述了原生多模态大型模型在能力范围和水平方面的未来发展趋势,包括全模态感知和理解、多模态交互生成推理以及Agent行为。为实现这一愿景,作者讨论了与统一感知、学习方法以及数据合成相关的方法。作者希望原生大型多模态模型(LMRM)能够实现全面感知、精确理解和深度推理,从而在机器智能领域实现范式转变。
5 数据集与基准
在探索多模态推理模型的发展和优化过程中,涌现出大量任务和基准,用于对模型进行实证能力评估和分析,以评估模型在视频理解、视觉推理等多个方面的性能。在本节中,作者根据容量将有助于促进多模态推理模型发展的现有数据集进行总结和分类,分为四大类:(1)理解;(2)生成;(3)推理;(4)规划。然后,作者总结了这些基准或数据集常用的指标和评估方面。基准设计具有特定的能力评估,作者将四大类分类如下(图10所示),以及十一个子类(表14所示)。
5.1 多模态理解
多模态理解是指模型处理和解释来自多种模态(如视觉和听觉数据)信息的能力,以执行需要理解、推理和生成任务的技能。这些任务对于开发能够以更接近人类的方式与真实世界互动和响应的模型至关重要。根据任务定义,现有的多模态理解任务可以大致分为两个主要领域:1)视觉中心理解,涵盖模型理解和推理视觉内容的能力;2)音频中心理解,专注于涉及音频的任务,如语音、音乐和环境声音。
5.1.1 以视觉为中心的理解
以视觉为中心的理解评估模型在多种专业任务中对视觉数据(如图像和视频)的理解和推理能力。这些任务可以大致分为以下领域:通用视觉理解、文档和图表解释、多语言视觉推理、视频理解、数学和科学推理以及综合基准测试。每个领域都针对视觉理解的不同方面,从自然图像中的物体识别和空间推理到对结构化视觉数据(如文档和图表)的解释。下面,作者将详细探讨这些类别,并突出它们的关键特征和挑战。
通用视觉理解
通用视觉问答(VQA)数据集在复杂性和范围上都有了显著的发展。早期的数据集,如VQA(Kafle & Kanan,2016)和GQA(Ainslie等人,2023),主要关注自然图像中的物体识别、属性识别和简单的空间推理。这些数据集通常包含图像-问题-答案三元组,问题格式简单(例如,“汽车是什么颜色的?”)。研究重点主要放在自然图像和基本感知上。最近的数据集,如ALIGN(Jia等人,2021),旨在解决更复杂的视觉语言任务,包括图像-文本对齐和多模态表示。视觉基因组(Krishna等人,2016)通过包含关系和目标级信息扩展了视觉理解,从而推动了推理的边界。LAION-400M数据集(Schuhmann等人,2021)是最大的图像-文本对集合之一,支持视觉语言模型的大规模训练。LAION-5B数据集(Schuhmann等人,2022)为大规模图像-文本表示提供了一个强大的数据集,而FILIP(Yao等人,2021)和YFCCio0M(Thomee等人,2016)则整合了视觉和语言,提升了模型在不同基准上的性能。
为进一步强调组合推理和空间推理能力,MMsI-Bench引入了一个专注于评估物体配置和空间关系多模态理解的推理基准(Yang等人,2025e)。WikiMixQA促使模型整合和综合来自文本和视觉来源的多模态信息,以回答需要跨源推理的复杂 Query (Foroutan等人,2025)。在数学领域,VideoMathQA展示了由专家策划的、基于视频的数学问题,涵盖三种推理类别——直接问题解决、概念迁移和结构化解释——模拟现实世界教育环境(Rasheed等人,2025)。
文档、图表和OCR视觉理解 文档、图表和基于OCR的VQA数据集构成一个专门领域,专注于理解包含文本元素的结构化视觉信息。文档VQA,以DocVQA(Mathew等人,2021)为例,旨在实现文档理解,要求模型定位并解释文档中的文本以回答问题。图表5QA,如DVQA(Kafle等人,2018),专注于解释视觉数据表示,包括 Pillar 图、折线图和饼图,测试模型理解这些结构的能力。OCR-VQA数据集,如TextVQA(Singh等人,2019)和OCR-VQA(Mishra等人,2019),强调在自然图像中嵌入的文本的阅读和推理。这些数据集具有以下几个显著特征:1)OCR与视觉理解的紧密结合,2)结合文本和视觉元素的多步推理,3)关于文档结构、图表约定或文本布局的特定领域知识。与通用VQA数据集不同,这些集合高度重视视觉和文本内容之间的相互作用,要求模型在更结构化的环境中进行模态桥接。此外,像AI2D(Hippala等人,2021)这样的数据集专注于图表和结构化视觉表示,增强了对图形内容的推理。WebUIBench引入了一个结构化基准,用于在数字界面环境中进行规划和推理。它在四个维度上评估MLLMs——WebUI感知、HTML编程、WebUI-HTML理解和UI到代码生成——使其成为网络界面基础和控制的一个综合测试平台(Lin等人,2025c)。
多语言视觉理解多语言视觉理解数据集旨在满足多模态系统对语言多样性的日益增长的需求。CMMLU(Li等人,2024f)、C-Eval(Huang等人,2023c)、Exams-v(Das等人,2024)、M3exam(Zhang等人,2023e)、VideoVista-CulturalLingo(Chen等人,2025h)和MTVQA(Tang等人,2024)等数据集超越了以英语为中心的视觉问答系统。这些数据集的特点包括:1)多语言问题和标注的整合,涵盖多种语言家族;2)在不同文化背景下测试视觉理解和语言能力;3)要求模型理解可能具有特定文化解释或引用的视觉概念。与单语言视觉问答数据集不同,这些多语言数据集评估并提升了多语言大语言模型(MLLMs)的跨语言迁移能力。
新的基准测试还扩展了视觉理解的范围至多语言和现实世界环境。CasualVQA通过基于日常场景的问题强调因果推理和情境推理,旨在测试模型对现实世界现象的深层理解能力(Foss等人,2025)。与此同时,VLM
school评估模型将视觉推理与基于课程的主题知识相结合的能力,支持多语言教育应用(Peinl和Tischler,2025)。
视频理解视频理解数据集,例如ActivityNet-QA(Yu等人,2019a)和PerceptionTest(Patraucean等人,2023),越来越多地用于动态视觉任务中模型的训练与评估。与静态图像数据集相比,这些数据集要求模型处理基于时间理解,涉及跨多帧的动态视觉特征。它们包含动作、事件和时序关系的标注,并涵盖从短片段到数分钟长的视频的多样性。现有的视频评估数据集已扩展以应对科学领域(例如Video-MMMU(Hu等人,2025b)、长视频领域(例如Video-MME(Fu等人,2024a)以及综合视频理解与推理(例如VideoVista(Li等人,2024k)等挑战。VideoVista提供了一个多功能基准,包含14类视频,时长从几秒到超过10分钟,涵盖19项理解任务和8项推理任务。它利用由GPT-4o驱动的自动标注框架,增强了其可扩展性和多样性。YouTube8M(Abu-ElHaija等人,2016)已成为大规模视频分类和多模态理解的基础数据集。此外,VidGen-1M(Tan等人,2024b)和WebVid(Bain等人,2022)作为训练数据集,通过整合多模态文本和视觉信号来提升视频理解能力。
综合基准测试集成评估基准,如MMBench(Liu等人,2024f)、Seed-Bench(Li等人,2023b)、MME-RealWorld(Zhang等人,2024f)和OmniBench(Li等人,2024j)。该基准支持在推理、规划和生成任务中进行统一评估,并支持平台无关、可扩展的MLLM能力测试。这些基准旨在提供对现有多模态模型的更全面评估。这些基准测试模型在现实场景中整合视觉和语言理解的能力,包括:1)多维评估框架,评估视觉理解的各个方面,从感知到推理和知识整合;2)精心设计的问题,旨在探索特定能力并识别弱点;3)标准化的评估流程,以实现模型间的公平比较。与早期的特定任务数据集不同,这些基准提供了模型整体能力的综合衡量。
以视觉为中心的理解强调模型处理和推理视觉数据的能力,从图像中的基本物体识别到视频和文档中的复杂多模态推理。通过解决各种专业任务,如通用视觉理解、文档解释、多语言推理和视频理解,这些基准测试为模型提供了全面的视觉能力视图。这些评估对于确保模型能够将视觉感知与推理相结合至关重要,这对于实际应用至关重要。
5.1.2 以音频为中心的理解
音频中心理解是指评估模型在处理、解释和响应各种形式音频输入方面的能力,例如语音、环境声音和音乐。随着这些模态日益成为机器学习任务的重要组成部分,评估模型理解和交互音频数据的能力已成为一个关键焦点。该评估涵盖语音、音频和音乐理解的各个方面,并设计了多种基准和数据集,用于评估准确性、翻译、情绪识别和音频相关任务中的整体理解能力。这些评估有助于衡量模型在理解实际应用中遇到的各种音频数据方面的有效性。
语音理解 语音评估数据集在评估模型在音频领域的性能方面发挥着关键作用。这些数据集主要衡量模型能否在现实场景中准确清晰地理解人类语音。现有的数据集从以下几个角度评估语音理解能力:1)语音识别的准确性:Librispeech(Panayotov等人,2015年)是一个由不同说话者朗读的有声书数据集,是英语语音识别的广泛使用的评估指标。Common Voice(Ardila等人,2020年)收集全局志愿者的语音录音,为模型训练提供多样化的语音数据集。Aishell(Bu等人,2017年)系列是中国语音识别的标准。Fleurs(Conneau等人,2022年)评估多语言语音识别和语音转文本翻译模型的性能。2)语音多语言翻译任务:CoVoST2(Wang等人,2020年)是一个多语言语音转文本翻译数据集,评估模型实时语音识别翻译能力。3)情绪识别:MELD(Poria等人,2019年)数据集评估模型识别语音中情绪的能力,使用来自多部电视剧的多位说话者的情绪语音。这些数据集全面评估模型理解语音的能力,考虑内容准确性、多样化的语音任务和额外的声学信息等因素。
环境声音理解是音频理解的重要方面,涉及从非人类声音中提取和识别信息。与人类语言相比,环境声音提供了更复杂和多样的信息。主流评估数据集主要在两个关键领域评估音频理解能力:1) 音频描述:Clotho(Drossos等人,2020)包含来自免费声音平台的音频,主要用于音频描述任务。类似地,AudioCaps(Kim等人,2019)源自AudioSet数据集,也专注于音频描述,并具有更广泛的应用范围。2) 音频问答(AQA):ClothoAQA(Lipping等人,2022)是一个众包数据集,专为AQA任务设计,而AQUALLM(Behera等人,2023)是由基于LLM的自动音频QA生成框架构建的。这些基准包含各种音频类型与问题和答案的配对,帮助模型学习理解音频内容并生成准确的音频相关问题回答。
音乐理解 音乐具有其结构特征和复杂变化,已成为音频理解领域的重要研究方向。在音乐评估中,主要考虑两个方向:主流数据集如MusicNet(Thickstun等人,2017年)和NSynth(Engel等人,2017年)评估模型在音频中识别音乐理论元素(如乐器、音符、音高和节奏)的能力。此外,MusicCaps(Agostinelli等人,2023年)和MusicBench(Melechovsky等人,2024年)用于为整个音乐曲目生成描述,测试模型理解音乐作品详细内容和整体结构的能力。
综合基准随着大型音频语言模型(LALMs)的持续发展,越来越多的模型具备了理解语音和多样化声音的能力。因此,研究行人正提出新的评估基准,以全面评估模型的音频理解能力。VoiceBench(Chen等人,2024h)专注于模型在不同情境下理解语音的能力,包括对基本能力、口语表达以及噪声环境中的表现进行评估。AudioBench(Wang等人,2024a)整合了多样化的语音任务(例如,自动语音识别、语音问答)、声音任务(例如,音频描述、音频问答)以及与人类声音相关的任务(例如,口音、年龄和性别)。Air-Bench(Yang等人,2024e)和MMAU(Sakshi等人,2024)在此基础上扩展了评估内容,加入了音乐任务。SD-eval(Ao等人,2024)将语音任务与环境声音任务相结合,使模型能够理解复杂、混合的音频场景。这些基准不仅包含了早期的评估方法,还提供了一个更全面的框架,用于评估语音理解在广泛实际应用中的能力。
以音频为中心的理解提供了一个全面的框架,用于评估模型在处理和理解音频数据方面的能力。它涵盖了从语音识别到环境声音和音乐解释的各种任务。这些评估对于确保模型在实际应用中的通用性和有效性至关重要,并提升了它们处理复杂音频数据的能力。
5.2 多模态生成
多模态生成是多模态推理模型的关键能力,涵盖了在文本、图像、音频或视频等不同数据类型中创建新内容的能力。这种生成能力不仅对创意应用至关重要,而且对于模型需要以多模态格式传达其理解或推理结果的任务也至关重要。
这些任务可以根据信息在模态间的 Stream 方式以及生成输出的性质进行广泛分类:(1) 跨模态生成,评估模型根据另一模态的输入生成内容的能力;(2) 联合多模态生成,评估模型同时跨多个模态生成内容的能力。
5.2.1 跨模态生成
跨模态生成涉及模型根据另一模态的输入生成内容。这包括文本到图像、文本到视频和文本到语音生成等任务,其中模型必须有效地将一种类型的输入(例如文本)映射到不同的形式(例如图像、视频或语音)。这些任务挑战模型进行模态间信息的转换和对齐,通常需要处理复杂或条件性的 Prompt 。在本节中,作者探讨了如何开发数据集和基准来评估模型在各类跨模态任务中的性能,重点关注对齐、连贯性和语义生成。
文本到图像生成领域(T2I)取得了显著进展,这得益于针对文本到图像生成、编辑和条件生成等任务而设计的多样化数据集和基准测试。在文本到图像生成方面,MSCOCO(30K)(Lin等人,2014年)、CC12M(Changpinyo等人,2021年)和Flickr30k(Plummer等人,2017年)等数据集提供了大规模、通用的图像-文本对,强调日常场景和物体。相比之下,RedCaps(Desai等人,2021年)和COMMONPO0L(Gadre等人,2023年)等数据集引入了更复杂的文本描述和更高分辨率的图像。GenEval(Ghosh等人,2023年)和ELLA(Hu等人,2024a)等基准测试专注于评估文本到图像的匹配度,评估生成的图像与文本描述的匹配程度。同时,GenAI-Bench(Li等人,2024a)和T2I-CompBench
(Huang等人,2023a)强调处理复杂 Prompt 和物体交互,突出了有效组合生成和改进语义对齐的必要性。
在文本到图像编辑领域,MagicBrush(Zhang等人,2023d)、InstructPix2Pix(Brooks等人,2023)和HQ-Edit(Hui等人,2024)等数据集专注于基于指令的编辑,其中HQ-Edit将任务扩展到高清图像。UltraEdit(Zhao等人,2024a)和SEED-Data-Edit(Ge等人,2024)引入了多轮编辑任务,提升了大语言模型(LLMs)在多轮对话中的训练效果。这些数据集评估了图像编辑的多样化需求,MagicBrush侧重于创意评估,而Emu Edit(Sheynin等人,2023)则专注于高质量编辑中的精确性和连贯性。
在条件文本到图像生成任务中,ADE20K(Zhou等人,2016年)和CocoStuff(Caesar等人,2016年)等数据集提供了详细的分割图和场景解析标注,使模型能够生成具有特定场景结构的图像。UniControl(Qin等人,2023年)引入了更全面的数据,要求模型能够同时处理多个条件输入。UniCombine(Wang等人,2025h)等基准测试则侧重于评估指令执行完整性、视觉连贯性以及与约束的一致性。
文本到视频生成中,高质量的数据集和全面的基准测试对于推动研究至关重要。VidGen-1M(Tan等人,2024b)、OpenVid-1M(Nan等人,2024)和VidProM(Wang & Yang,2024)等数据集涵盖了广泛视频内容和相应的描述性文本。AIGCBench(Fan等人,2019)、EvalCrafter(Liu等人,2024e)和VBench(Huang等人,2024a)等基准测试工具通过相关性、连贯性和视觉质量等多种指标评估模型。VideoScore(He等人,2024)、WorldSimBench(Qin等人,2024)和WorldScore(Duan等人,2025b)等专用基准测试扩展了评估范围,涵盖视频质量和现实世界准确性,其中VideoScore评估用户满意度。
文本转语音文本转语音(TTS)生成受益于高质量数据集和基准,这些数据集和基准支持大型音频语言模型(LALM)的开发。早期模型使用合成数据集来评估语音对话能力,采用的数据集包括LlaMA-Questions(Nachmani等人,2024年)、Web Questions(Berant等人,2013年)和Trivia QA(Joshi等人,2017年)。评估基于比较文本和音频输出之间的词错误率和准确率。最近的基准如ADU-Bench(Gao等人,2024b)在常规、专业、多语言和模糊场景中评估语音对话能力,而URO-Bench(Yan等人,2025b)则包括对语音风格的评估,如语调和情感。
机器人学 在机器人学中,数据集和基准测试为评估模型性能提供了高保真、多模态的环境。ThreeDWorld(Gan等人,2021年)和GAIA-1(Hu等人,2023年)等数据集为自动驾驶等机器人任务提供了交互式模拟平台。在基准测试方面,Genesis(Engelcke等人,2019年)提供了一个标准化的评估框架,用于评估模型在一系列机器人任务中的性能,确保其在现实世界中的应用价值。
总而言之,跨模态生成是多模态AI的一个关键领域,专注于文本到图像、文本到视频和文本到语音生成等任务。这些任务要求模型在不同模态之间转换和对齐信息。随着技术的进步,重点在于提升模型处理复杂 Prompt 、多步推理和语义对齐的能力,使模型能够在不同模态之间执行日益复杂的转换和交互。
5.2.2 联合多模态生成
联合多模态生成指的是跨多种模态同时创建内容,例如生成文本和图像,或将文本、音频和视频结合成连贯的输出。这增加了额外的复杂性,因为模型必须确保生成模态之间的连贯性和一致性。文本到交错图像文本生成和文本到多模态输出等任务就是这种复杂性的体现,要求模型生成与叙事的更广泛背景相补充且相契合的内容。为了支持这些任务,已经开发出专门的数据集和基准,为训练模型生成与上下文相关的多模态输出提供了丰富的环境。
文本与图像交错生成的发展显著推动了多模态大语言模型(MLLMs)的进步,MM-Interleaved(Tian等人,2024)和ANOLE(Chern等人,2024)等数据集通过高质量的标注图像-文本对支持模型训练,这些数据集强调了模型生成与上下文相关且视觉一致内容的需求。InterleavedEval(Liu等人,2024c)和OpenLEAF(An等人,2024)等基准测试专注于评估模型生成连贯且对齐的图像-文本对的能力,而OpenING(Zhou等人,2024a)则提供了一套更多样化的任务来评估图像-文本交错生成。
文本到多模态输出 近年来,文本到多模态输出的研究重点在于通过结合跨模态和联合多模态数据来增强多模态生成。NextGPT(Wu等人,2024a)和DreamFactory(Xie等人,2024b)等模型利用无需训练的方法将文本转换为多模态故事,并集成了视频评估基准如Vbench。其他模型,如EVA(Chi等人,2024),则结合了具身世界模型,根据文本输入模拟和预测视频序列中的事件。
综上所述,联合多模态生成涉及在多个模态中同步创建内容,要求模型在它们之间保持一致性和对齐性。随着研究的进步,未来的发展可能会集中在提高跨模态一致性、适应性和无缝生成上,为动态、多维度的内容创建和交互式用户体验开辟新的可能性。
5.3 多模态推理
多模态推理超越了简单的理解或生成,它要求模型整合来自多种模态的信息。这使得模型能够进行推理、解决问题,并回答需要更深入理解不同类型数据之间关系复杂问题的答案。
作者可以将多模态推理模型大致分为两类:(1)通用视觉推理,它评估模型理解视觉内容并应用一般知识、逻辑和常识解决问题的能力;(2)特定领域推理,它评估基于视觉输入的特定推理能力,通常更偏向技术性,例如数学问题解决。
5.3.1 一般视觉推理
通用视觉推理是多模态推理模型中最关键的能力之一。它要求模型不仅要感知视觉信息,还要利用广泛的知识、逻辑推理和常识,在各种场景中对信息进行理解、分析和推理。
为了严谨地评估这种能力,已经开发了一系列广泛的基准测试,每个基准测试都针对视觉推理的不同方面。超越简单的问答任务(例如VQA),视觉常识推理基准测试如VCR(Zellers等人,2019年),以及用于物理推理的专业数据集如PhysBench(Chow等人,2025b),和用于理解视频物理常识的VideoPhy(Bansal等人,2024年),都要求模型运用日常知识来解释视觉情境。
对更广泛AI能力的期望体现在多模态通用智能基准中。这些基准包括综合评估,如MMBench(Liu等人,2024f)(涵盖多语言方面)、MMMU(Yue等人,2024)(跨越不同学科)、AGIEval(Zhong等人,2024b)(专注于以人为中心的评估)、VideoVista(Li等人,2024k)和MMStar(Chen等人,2024f)(以视频为中心)。这些基准将视觉推理作为与其他模态和任务的关键组成部分相结合。此外,对图表和结构化视觉的视觉推理至关重要,基准如AI2D(Kembhavi等人,2016)和InfographicVQA(Mathew等人,2022)挑战模型解释空间布局、理解关系以及从图表、信息图和图表中提取信息。
这些基准测试中的一个关键要素是用于训练和评估模型的数据集。一些数据集,如SWAG(Zellers等人,2018年),旨在训练模型以预测视觉场景中动作的延续。LLava-CoT数据集(Xu等人,2024b)通过集成大语言模型,使模型能够对视觉常识任务进行推理。CLEVR(Johnson等人,2016年)挑战模型在合成日常物体图像上进行复杂推理。其他数据集,如Mulberry-260K(Yao等人,2024a)和ShareGPT4oReasoning(Zhang等人,2024e),分别进一步训练模型进行视觉常识推理和多模态对话。
Video-R1-data(冯等人,2025b)用于训练模型以推理视频序列中的动态视觉内容。最后,Visual-CoT(邵等人,2024)支持在多种任务中训练需要视觉理解和推理的模型。这一动态且不断发展的基准和数据集对于推动多模态推理模型的发展至关重要。
5.3.2 特定领域推理
领域特定推理基准在评估多模态模型在特定领域的专业推理能力方面发挥着关键作用。在数学推理方面,MathVista(Lu等人,2024)和MATH-Vision(Wang等人,2024c)等数据集评估模型在视觉环境下解决数学问题的能力,这需要同时具备视觉理解和数学推理能力。类似地,ChartQA(Masry等人,2022)、ScienceQA(Lu等人,2022)和CharXiv(Wang等人,2024n)等基准则专注于特定领域的推理。
在机器人领域,多个基准测试评估了具身人工智能的不同方面,尤其强调推理能力。Habitat(Savva等人,2019年)、A12-THOR(Kolve等人,2017年)和iGibson(Li等人,2021a)等模拟环境要求Agent在复杂3D场景中进行导航、交互和空间理解的推理。Isaac Lab(Mittal等人,2023年)和ProcTHOR(Deitke等人,2022年)等基准测试则专注于在多样化环境中进行操作任务的推理。WebArena(Zhou等人,2024c)等测试则评估了关于网页内容的推理能力,而语言引导的推理能力则通过CALVIN(Mees等人,2022年)等基准测试进行评估。
在物理推理方面,PhysBench(Chow等人,2025b)、VideoPhy(Bansal等人,2024)和CRAVE(Sun等人,2025)等数据集评估了模型在视觉和视频情境下对物理定律和常识的理解。最后,GAIA-1(Hu等人,2023)和RoboGen(Wang等人,2024)等基准测试通过评估模型模拟和推理真实世界动态与交互的能力,支持了世界模型的发展。
一些数据集专注于特定高价值领域中的推理任务。WeThink-Dataset贡献了一个富含标注且具有明确推理路径的数据集,支持以视觉为中心的推理任务的指令微调和强化学习(Yang等人,2025b)。在IT领域,MMMG引入了一个用于多模态知识图谱生成的新数据集,推动了技术环境中的知识结构化推理(Yao等人,2025c)。SciVer提供了3000个由真实研究论文推导出的四种不同推理类型的专家标注多模态科学声明验证示例(Wang等人,2025c)。
这些特定领域的基准对于推动多模态推理在专业领域的边界至关重要,能够促进开发更强大和智能的多模态推理模型,以支持特定应用。
综上所述,多模态推理是人工智能领域的一个关键方向,它要求模型整合并跨多个模态(如文本、图像和视频)进行推理,以解决复杂任务。该领域分为通用视觉推理(将逻辑和常识应用于视觉内容)和领域特定推理(评估数学、机器人技术、物理定律等领域的专门推理能力)。这些任务不断推动多模态推理模型的发展,使其逐步接近人类水平的推理能力。随着该领域的进步,多模态推理的未来将聚焦于创建更集成化的系统,这些系统能够泛化于多样化的任务和现实场景,从而实现更具适应性、智能性和多功能性的AI解决方案。
5.4 多模态规划
多模态规划基准对于评估Agent整合和处理多样化输入——例如视觉、文本和交互数据——的能力至关重要,尤其是在执行复杂的多步骤任务时。这些基准涵盖了广泛挑战,包括网页导航、图形用户界面(GUI)、具身环境和开放式模拟。通过测试规划、推理和适应性,它们提供了对Agent能力的全面视角。作者将这些基准分为两个关键领域,以突出其独特贡献和创新。
5.4.1 图形用户界面导航
GUI导航基准测试评估Agent在数字界面中规划和执行任务的能力,要求具备强大的视觉语言基础和多步推理能力。WebArena(Zhou等人,2024c)和Mind2Web(Deng等人,2023)提供了用于导航和信息提取的现实网络环境,其中Mind2Web进一步引入跨网站任务以测试泛化能力。VisualWebBench(Liu等人,2024b)通过聚焦于跨页面集成和元素定位的1.5K任务,推进了视觉密集型规划。Windows Agent Arena(Bonatti等人,2024)在桌面环境中评估跨应用规划,而Ferret-UI(You等人,2024)专注于基于视觉语言理解的界面执行多步指令。WebShop(Yao等人,2022)等基准测试在模拟电子商务环境中测试视觉语言基础能力。类似地,OSWorld(Xie等人,2024a)和OmniACT(Kapoor等人,2024)提供了真实的桌面操作系统环境,支持文件操作和数据处理等跨应用工作流。VisualAgentBench(Liu等人,2024d)通过系统性地评估大型多模态模型在GUI、具身和视觉设计任务中的表现,扩展了这一范式,并建立了视觉丰富数字环境中规划和行动的统一基准。此外,LlamaTouch(Zhang等人,2024d)等基准测试通过495个任务扩展了移动UI自动化规模,测试了应用导航等多步操作。
5.4.2 具身和模拟环境
具身与模拟环境强调在动态交互场景中的规划,其中Agent必须适应物理或虚拟世界。MineDojo(Fan等人,2022年)在Minecraft中提供了一个开放式的基准,能够在丰富的交互环境中训练和评估通用Agent,支持在不同任务中进行多模态规划,包括物体交互、导航和资源管理。MuEP(Li等人,2024g)专注于具身规划,使用视觉语言输入进行模拟环境中的路径规划等任务。GVCCI(Kim等人,2023年)引入了一个终身学习框架,通过生成合成数据来增强语言引导的机器人操作的视觉基础,在无人监督的情况下实现了显著的性能提升。BEHAVIOR-1K(Li等人,2024c)提供了一个包含1000个家庭活动的数据集,使机器人能够通过整合视觉、语义和动作数据来规划复杂任务。Habitat 3.0(Puig等人,2024年)在模拟家庭中推进人机协作,支持导航和交互的多模态规划。SAPIEN(Xiang等人,2020年)提供了一个高保真环境,用于基于部件的物体操作,提高了机器人规划的精度。HomeRobot(Yenamandra等人,2023年)及其OpenVocabManip基准(Yenamandra等人,2024年)开创了开集移动操作,结合语言、感知和动作来实现可泛化的任务。HoloAssist(Wang等人,2023b)捕捉了第一人称视角的人机交互,促进了真实世界协作任务的规划。DrivingDojo(Rietsch等人,2022年)使用视频和多Agent数据在实时驾驶场景中测试动态决策。最后,V-MAGE(Zheng等人,2025d)提出了一种基于游戏的评估框架,用于在定位、轨迹跟踪和视觉记忆等任务上评估多模态大语言模型(MLLMs),为量化规划能力提供了一种新方法。
多模态规划基准测试在评估跨不同任务的Agent方面取得了显著进展,从网络导航到具身环境。然而,仍存在一些挑战,如长时程规划、处理噪声输入以及现实世界的适应性。未来的基准测试应关注开放世界环境、实时人类反馈和协作规划,特别是在多Agent或人机交互场景中。解决这些差距将有助于推动开发出能够更灵活、更具泛化能力的Agent,以应对不可预测的现实世界任务。
5.5 评估方法
当前主流的评估方法包括精确/模糊匹配、选项匹配、大语言模型/多模态语言模型评分和 Agent 评估。
精确/模糊匹配精确/模糊匹配主要用于一般开放式视觉问答任务,包括VQAv2(Antol等人,2015年)和OKVQA(Marino等人,2019年)。这些评估数据集通常提供多个人工标注的候选答案,预测答案经过规则处理后,会与候选答案进行精确或模糊匹配。然后根据特定规则计算最终评估分数。例如,在VQAv2(Antol等人,2015年)评估中,与单个候选答案匹配仅得1/3分,而获得1分满分需要与所有三个候选答案匹配;另一方面,DocVQA(Mathew等人,2021年)使用Levenshtein距离来衡量预测结果的准确性。
选项匹配 由于答案的多样性,精确匹配和模糊匹配方法往往无法涵盖所有候选选项。为确保评估的公平性和准确性,引入了选项匹配方法。在该方法中,系统 Prompt 包含多个候选选项,并要求模型选择最合适的一个。此外,为了减少模型在选择过程中对特定选项产生偏好的可能性,MMBench(Liu et al., 2024f)等研究采用了CircularEval方法来最小化评估中的随机变化。
LLM/MLLM评分 虽然选项选择确保了公平性,但与开放式问题的本质和现实场景存在较大偏差。因此,基于LLM的评估方法已被引入到开放式问题的评估中(Fu等人,2024b;Zhang等人,2023f)。这种方法涉及将特定的 Prompt 、问题、标准答案和模型预测输入到LLM或MLLM(如GPT-4o)中,以生成评分(Chen等人,2024a;Xu等人,2024d;Saad-Falcon等人,2024)。 Prompt 通常包括评分指南、参考示例和其他信息,旨在引导模型提供公平且均衡的评分。
在评估过程中,单个模型的性能本质上存在局限性,这可能导致在处理多样化的多模态信息时出现不足。为此,基于Agent的方法可以利用工具来弥补模型本身的固有局限性。例如,CIGEval(Wang等人,2025n)通过集成多功能工具箱扩展了MLLMs的视觉理解能力,从而实现更细粒度的评估。此外,多Agent讨论通过促进共识并生成更鲁棒的解决方案,在下游任务中显示出有效性(Xu等人,2023b;Chen等人,2024d;Xu等人,2025i),这一优势同样适用于评估场景。利用多个Agent之间的合作或对抗交互来评估输出的方法,已显示出更可靠和可解释的评估(Chan等人,2024;Li等人,2024h;Zhao等人,2024b;Liang等人,2024)。
6 结论
本文综述了多模态推理模型的演进过程,重点介绍了该领域的关键进展和范式转变的里程碑。当前模型主要采用以语言为中心的推理范式,在视觉问答、视觉数学和视频理解等任务中取得了令人瞩目的成果。值得注意的是,以视觉为中心的长推理(例如理解3D上下文、处理复杂的视觉信息 Query 问题)和交互式多模态推理(例如动态跨模态对话或迭代反馈循环)仍然是亟待深入探索的前沿领域。
参考
[1]. Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models