备注好友:方向-学校/公司-姓名/昵称
【AIGC 先锋科技】交流群
通过 Agent 调优增强的大语言模型(LLMs)在思维链(CoT)和工具利用方面展现出卓越的能力,显著超越了独立模型的性能。然而,多模态领域仍然缺乏一个大规模、高质量 Agent 调优数据集来充分释放多模态大语言模型的潜力。
为填补这一空白,作者引入MMAT-1M,这是首个百万规模的多模态 Agent 调优数据集,旨在支持思维链、反思和动态工具使用。作者的数据集通过一个新颖的四阶段数据引擎构建:
1)作者首先筛选公开可用的包含问答对的多模态数据集;
2)然后,利用GPT-4o生成原始问答对的推理过程,并通过多轮范式动态集成API调用和检索增强生成(RAG)信息;
3)此外,作者通过反思来优化推理过程,确保逻辑一致性和准确性,创建包含推理和反思(RR)的多轮对话数据集;
4)最后,为提高效率,作者可选地将多轮对话压缩为单轮推理和反思(ORR)格式。
通过在MMAT-1M上微调开源多模态模型,作者观察到显著的性能提升。例如,InternVL2.5-8B-RR模型在八个公共基准测试中平均提升了2.7%,在RAG基准测试Dyn-VQA上提升了8.8%,这证明了该数据集在增强多模态推理和基于工具的能力方面的有效性。
该数据集公开可用,访问地址为https://github.com/VIS-MPU-Agent/MMAT-1M。
- 引言
近年来,以GPT-4o [51]、Gemini [58]、QwenVL系列 [1, 2, 65]、InternVL系列 [11-13] 和LLaVA系列 [33, 34] 为代表的Multimodal Large Language Models (MLLMs) 取得了显著进展。为进一步增强这些模型的推理和问题解决能力,将Chain-of-Thought (CoT) 推理与外部工具相结合已被证明是一种有效的方法,通常被称为"Agent"。Agent通过两种主要方法运作:指令驱动 [17, 53, 66, 70, 71] 和调优驱动 [5, 10, 62, 73, 75]。前者涉及设计 Prompt ,使LLMs能够规划、推理并使用工具,这需要强大的 Prompt 理解能力;后者采用专用数据集对模型进行微调,使即使是较小的模型也能实现与专有大型模型相当的Agent能力。因此,Agent调优已成为一个突出且充满前景的研究方向。
在现有研究方面,多模态Agent调优领域已出现若干代表性工作。例如,LLaVA-Plus [35] 通过面向用户和面向技能的对话将LLaVA-158K数据集转换为工具使用指令格式,包含117K个样本;T3-Agent [18] 构建了MM-Traj数据集,其中包含20K个具有工具使用轨迹的多模态任务。然而,现有数据集普遍存在三个关键缺陷:
(1) 它们表现出相对同质的分布,限制了在多样化基准上的改进;
(2) 它们缺乏反映视觉工具引起的错误机制,导致模型对干扰的鲁棒性较弱;
(3) 它们在灵活推理和工具使用机制方面存在不足,降低了其在实际应用中的可行性。因此,构建一个能够有效解决这些挑战——多样性、鲁棒性和灵活性——的大规模调优数据集,已成为推动该领域发展的关键突破。
为克服这些 Bottleneck ,作者提出了多模态Agent调优百万级(MMAT-1M),据作者所知,这是首个包含多样化基础视觉任务的大规模多模态Agent调优数据集。基于公开可用的多模态数据集,作者设计了一个四阶段数据合成框架。首先,作者汇编了包含问答对的可公开访问的多模态数据集。为确保不同多模态数据集中输入和输出格式的统一性,作者对输入和输出的 Prompt 进行了适配。然后,作者使用思维链(CoT)推理和动态API调用生成迭代轨迹,集成了图像描述、光学字符识别(OCR)、开集目标检测(OVD)、人脸检测和RAG等功能。接下来,作者评估这些轨迹的逻辑一致性,并通过反思过程对需要修改的轨迹进行优化。为增强实际灵活性,作者可选地将迭代轨迹整合为单轮格式,并将工具使用结果添加到输入前。实验结果表明,使用MMAT-1M数据集微调的模型表现出显著的性能优势。如图1所示,在训练作者两种格式的数据集后,所有三种主流开源模型的表现均优于 Baseline 模型。以InternVL2.5-8B-RR模型为例,与 Baseline 模型相比,它在八个公开可用的多模态基准测试中平均提升了2.7%。此外,在需要多跳推理和网络搜索能力的Dyn-VQA基准测试中,它表现出了8.8%的提升。
本研究的主要贡献可总结如下:
(1)作者提出了首个百万级多模态Agent调优数据集MMAT-1M,填补了多模态Agent调优领域的关键空白。
(2)作者建立了一种反思机制,有效缓解推理过程中的逻辑错误,显著增强了模型的鲁棒性。
(3)作者提供了单轮和迭代格式的数据集,为在实际应用中平衡精确性和效率提供了灵活性。
- 相关工作
基于LLM的Agent基于LLM的Agent主要是利用LLM的指令跟随能力来开发High-Level推理和工具使用功能的大型模型。该领域的显著框架包括HuggingGPT [53]、GPT4Tools [70]、VisualChatGPT [66]等。例如,ReAct [71]引入了一个通用范式,将思维链推理与动作执行相结合,以应对广泛的推理和决策挑战。同样,AssistGPT [17]提出了一个“学习者”模块,该模块分析预测过程并促进反思,与ReAct的方法论保持一致。然而,这些方法严重依赖于LLM的指令理解能力,这限制了它们在处理较长或更复杂推理任务时的有效性。此外,调用大型模型所涉及的高计算成本进一步提高了实际应用的门槛。
多模态Agent调优。Agent调优是语言模型微调的一个专门子领域,专注于提升大语言模型在规划、推理和工具使用等方面的能力。该领域最早的代表性工作包括AgentTuning [75] 和Fireact [5],它们为后续的Agent调优发展奠定了基础。随后,许多研究致力于推进Agent调优 [10, 56, 62, 73]。然而,这些方法主要集中于优化大语言模型,而在多模态领域应用时,大语言模型只能通过多模态工具获取信息。为解决这一局限性,一些研究探索了多模态Agent调优,以提升多模态挑战中的推理和工具使用能力。例如,LLaVA-Plus [35] 首次尝试通过视觉指令调优来训练多模态助手,使其能够有效学习工具使用。类似地,MLLM-Tool [63] 是一个集成多模态编码器与开源大语言模型的Agent系统,能够根据视觉或音频输入感知和处理指令。此外,T3-Agent [18] 生成多样化的多模态任务,包含详细的轨迹,并利用这些数据对视觉语言模型(VLMs)进行微调,以增强工具利用能力。
多模态Agent与思维链数据集。为了在多模态Agent调优方面取得优异性能,已开发出多个数据集以采用不同方法优化Agent。例如,LLaVA-Plus将LLaVA-158K数据集转换为工具使用指令格式。类似地,MLLM-Tool精选包含29项任务(源自HuggingFace)的指令-答案对。同时,T3-Agent引入MM-Traj数据集,该数据集包含20K条轨迹,通过一种新颖的数据收集流程生成。此外,某些Agent(如OmniSearch [31])设计了Dyn-VQA基准,用于评估在检索增强生成(RAG)和多跳推理任务中的能力。除了这些多模态Agent数据集外,一些多模态思维链(CoT)数据集采用了相似的构建方法,但缺乏关于工具使用的明确信息,例如LLaVACoT [68]、Visual-CoT [52]和
[8]。
- MMAT-1M数据集
在本节中,作者全面介绍了MMAT-1M,详细阐述了其关键组件和方法。讨论分为三个部分:(1)数据集概述,概述其范围、构成和意义(第3.1节);(2)数据引擎,描述生成和优化高质量轨迹的迭代框架(第3.2节);以及(3)多模态 Agent 调优方法,解释增强推理和工具使用能力的方法(第3.3节)。
3.1. MMAT-1M概述
为构建一个多样化且全面的MMAT-1M数据集,作者从五个不同来源整合数据。这些来源涵盖了多模态任务中的多个关键领域,包括视觉理解、逻辑推理、数学计算和知识检索。这种整合确保了数据集的多样性和完整性。各数据集的详细信息如下:
视觉CoT [52] 包含多种任务,如文档解析、细粒度理解、通用视觉问答(VQA)、图表分析以及关系推理。其主要目标在于增强模型在聚焦局部视觉区域和执行逐步推理过程中的能力。LLaVACoT [69] 侧重于复杂推理和系统性思维。它处理包括通用VQA、科学推理、数学推理和文档理解在内的多种任务,旨在提升模型的层次推理能力并提高其可解释性。Cauldron [29] 融合了多种多模态数据类型,包括交错文本-图像文档、文本-图像对、OCR处理文档以及表或图表。其数据来源和任务设计的多样性在提升模型的泛化能力方面起着关键作用,特别是在视觉和语言信息的整合方面。表WP [41] 专注于整合文本和表数据的数学推理任务,旨在提升模型的表解析、数值计算和复杂推理能力。Infoseek [9] 专注于视觉信息检索问答,旨在评估和提升多模态模型在知识密集型视觉问答任务中的性能。这些任务要求超越常识的细粒度推理,并通常依赖外部知识库以获得准确回答。
MMAT-1M数据集的统计信息如表1所示。该数据集总共包含1,090,263个问答对和902,965个对话,分布在不同的子集中以确保数据来源的多样性。表中的第二行显示了原始数据中的对话轮次数量,表明单轮对话占样本主体的多数,而多轮对话相对较少。在推理复杂度方面,多数数据样本涉及两步和三步推理过程,这些构成了推理的基础层次。相比之下,需要更复杂的多步推理的任务仅占较小比例,这突显了数据集同时包含了基础和High-Level认知挑战。此外,在众多操作符调用中,图像描述和OCR的调用频率相对较高,表明在推理过程中对图像和文本的基本信息有需求。RAG和OVD也占到了显著的调用比例。此外,反思部分涵盖了通用反思和数学推理反思,总共包含约5.7k个数据点。总之,MMAT-1M以其大规模数据量、多样化的任务覆盖范围和分层的推理深度而著称,共同为推进多模态Agent调优研究建立了坚实且灵活的数据基础。
作者将MMAT-1M与多个类似的Agent调优和思维链(CoT)数据集进行比较,包括LLaVA-Plus-v1 [35]、视觉思维链(Visual CoT)[52]、LLaVA思维链(LLaVA-CoT)[69]和MM-Traj [18],如表2所示。很明显,作者数据集的规模远超于可比数据集。此外,作者的数据集具备API和RAG工具调用功能,支持思维链推理和反思,并涵盖了单轮和多轮推理范式。
3.2. 数据引擎
基础。作为示例,作者从原始数据集中随机选择一张图像及其对应的问题-答案对。为确保不同数据集之间响应风格的统一性,作者优化了问题的措辞。对于答案较短的样本,作者在问题末尾添加响应风格约束,同时保持原始答案不变。此外,作者准备了用于调用的外部工具,包括图像描述、目标-视觉描述、光学字符识别、人脸检测和检索增强生成。图像描述操作员生成图像的文本描述,提取关键视觉信息并表达其语义。基于CCoT [47],作者使用GPT-4o构建场景图并生成图像描述,增强语义理解和组合推理能力。目标-视觉描述利用场景图中的目标信息,在开集范围内识别和检测目标,使新类别的识别超越预定义标签集。该功能使用Grounding DINO [36]实现。光学字符识别利用PaddleOCR [15]识别图像中的文本内容。人脸检测由deepface [50]提供支持,准确定位图像中的人脸区域。最后,对于需要在线搜索能力的问题,作者利用GPT-4o生成搜索 Query ,然后使用这些 Query 调用Google API以检索最相关的top-k信息。
原理。作者采用迭代图来生成推理依据,其中标注过程由GPT4o驱动,确保推理的稳定性和效率。在推理过程中,模型自适应地调用多模态算子RAG来保持推理链的完整性和可解释性。推理过程始于问题分析,模型根据任务需求选择合适的算子。如果需要整体语义理解,则调用图像描述算子提取场景图并生成图像描述。对于需要目标级信息的任务,使用OVD算子识别开集范围内的目标。类似地,OCR算子和人脸检测算子分别用于文本识别和人脸分析。当算子输出不足以支持推理时,模型会构建RAG Query 以检索和整合外部知识。每个推理步骤都以结构化的STRING格式详细记录,包含推理思路、算子调用、检索请求和后续操作。这种自适应的多轮推理机制确保了推理链的逻辑一致性,最终生成准确、可解释且文档完善的推理依据。
反思。在作者的观察中,通过上述过程生成的推理过程存在两个显著问题。第一个是推理过程中的不完整性,尤其在数学问题推导中表现明显。这种情况发生在某些步骤被省略时,导致难以得出最终答案。第二个问题是推理作弊行为,即推理的思考过程并未逻辑上导向最终答案,但在标签生成时GPT-4o强行将推理与答案对齐,制造了正确性的假象。为解决这些问题,作者引入了反思步骤,旨在增强模型在训练过程中的错误纠正能力,并确保推理过程保持逻辑性。具体而言,针对第一个问题,GPT-4o被要求识别推理过程中是否存在“步骤跳过”行为。如果检测到此类行为,将补充缺失步骤以完成推导。针对第二个问题,作者利用GPT-4o重新评估推理的思考过程是否与最终答案一致。如果发现不匹配,将实施反思过程,使推理 Aware 到作弊行为并进行相应纠正。
整合。通过上述方法生成的数据集采用多轮推理与反思(Rationale and Reflection, RR)格式,这对于需要实时响应的现实世界应用可能并不实用。受LUMOS [73]模型的启发,作者旨在创建一个数据集,使模型能够在单轮中思考和生成最终答案。然而,由于单轮格式的限制,作者在输出阶段无法动态地整合外部算子的结果。为解决这一问题,作者将所有算子(除RAG外)的结果整合到输入阶段,并通过括号明确界定。在输出阶段,作者将多轮对话中的多个轨迹整合为单轮推理与反思(One-turn Rationale and Reflection, ORR)格式。作者的研究发现,ORR不仅保留了进行推理和整合外部工具结果的能力,而且显著提高了推理速度,使其更适合于时间敏感型应用。
为评估潜在GPT-4o幻觉,作者对所有MMAT-1M样本在连贯性、相关性、准确性、完整性和图像-文本对齐方面进行了评估,超过89%的样本表现出高质量的推理能力。评估标准详见补充材料。
3.3. 多模态Agent调优
给定一个训练样本:
,其中
表示第 i 个问题,
指示推理过程,A 代表最终答案。作者选择多个开源多模态模型,并针对这些模型采用监督微调(SFT)训练方案。
SFT. 作者选择低秩适配(LoRA)[20],与全参数微调相比,该方法不仅保留了 Baseline 模型的大部分知识,而且能够高效节省内存和计算空间。其损失函数设计如下:
原
始
其中
是原始损失函数,
表示第
个权重矩阵的更新,
是正则化参数,
表示Frobenius范数。
- 实验
作者通过在多个基准测试上进行广泛的实验来评估llm-MMAT-1M_2507的有效性。第4.1节详细介绍了实现设置。在第4.2节中,作者将llm-MMAT-1M_2507与 Baseline 进行比较,该方法在MMAT-1M数据集上使用One-turn Rationale and Reflection(ORR)和Rationale and Reflection(RR)策略微调MLLMs。评估涵盖了八个基准测试,包括通用任务和推理任务,以及一个用于外部知识检索的基准测试。第4.3节展示了消融研究并分析了推理效率。最后,第4.4节提供了定性结果,以进一步深入了解llm-MMAT-1M_2507。
4.1. 实现细节
在本节中,作者将MMAT-1M与多种MLLMs相结合,以展示llm-MMAT-1M_2507广泛的适用性。作者研究了两种推理策略,即ORR和
RR指导多模态模型进行结构化和可解释的推理。ORR将所有推理步骤整合为单个 Query ,在保持高准确性的同时实现高效推理。相比之下,RR遵循多步推理过程,在需要时动态选择算子和检索外部知识。对于需要注入外部知识的推理场景,作者采用Google Search来获取相关信息。每个 Query 最多返回三个结果(top-
),为模型提供必要的上下文知识,同时保持效率。
作者将这些策略应用于开源多模态模型,包括Llama-3.2-11B-Vision-Instruct [46]、MiniCPM-V-2.6 [72]以及InternVL2.5系列[11],该系列包括InternVL2.5-2B、InternVL2.5-4B和InternVL2.5-8B。每个模型均在MMAT-1M数据集上分别使用ORR和RR进行单轮微调,数据集包含1,090,263个问答对,学习率为4e-5。详细的训练参数在补充材料中提供。
4.2. 基准测试主要结果
设置。作者使用八个广泛采用且具有挑战性的基准对方法进行全面评估:MMStar [7]、MMMU [74]、MathVista [42]、MathVision [64]、AI2D [25]、OCRBench [37]、RealWorldQA [67] 和 HallusionBench [19]。具体而言,MMStar 和 MMMU 主要评估多模态推理和问答能力,而 MathVista 和 MathVision 侧重于数学和视觉推理技能。AI2D 考察科学图表的理解,OCRBench 评估从文档中提取文本信息。RealWorldQA 针对现实场景中的空间推理,而 HallusionBench 衡量对语言幻觉和视觉错觉的易感性。对于 MathVista 和 MathVision,作者采用 testmini 数据集。为确保公平性和可复现性,所有评估均使用 VLMEvalKit [16] 进行,这是一个专为大型视觉语言模型设计的开源工具包。除此之外,作者进一步使用 OmniSearch [31] 中提出的 DynVQA 数据集评估模型的 RAG 能力。Dyn-VQA 包含动态、多模态、多跳推理任务,全面评估模型规划检索策略和整合相关信息的有效性。
主要结果。表3展示了在多个基准测试上的实验结果,这些基准测试用于评估在MMAT-1M上使用ORR和RR训练的多种多模态大型模型的性能。研究发现,这两种方法都能有效提升不同参数规模下的模型性能。
使用作者的ORR在MMAT-1M上进行训练,将InternVL2.5-8B的平均得分从60.7提高到62.4,而作者的RR策略进一步将其提升至63.4。值得注意的是,RR始终优于 Baseline ,并在GPT-4o上取得了具有竞争力的结果。具体而言,使用RR的InternVL2.5-8B在MMStar(65.3 vs. 65.1)和MathVista(64.8 vs. 60.0)上超越了GPT-4o,展示了更优越的多模态推理和数学视觉理解能力。它还在OCRBench(839 vs. 806)上优于GPT-4o,反映出更强的文本信息提取能力。此外,它在AI2D(84.2 vs. 84.9)和HallusionBench(55.8 vs. 56.2)上的表现与GPT-4o相当,表明其对科学图表的理解能力稳健,且对多模态幻觉具有较强抵抗力。
与InternVL2.5-8B、MiniCPM-V-2.6和Llama-3.2-11B-Vision-Instruct等 Baseline 模型相比,作者的ORR和RR(尤其是RR)在多个测试集上表现出总体相似的优化效果。作者的RR在MiniCPM-V2.6上的平均性能提升从58.0到59.9,相对增幅为3.3%;在Llama-3.2-11B-Vision-Instruct上的性能提升从52.2到55.3,相对改进为5.9%。这表明llm-MMAT-1M_2507具有广泛的适用性,适用于不同的模型系列。类似地,作者的ORR和RR在InternVL2.5系列(包括2B、4B和8B参数变体)中始终表现出强劲的性能,证明了llm-MMAT-1M_2507的高可扩展性和广泛适用性。
在OCRBench中,InternVL2.5-2B的ORR策略表现优于 Baseline (从804提升至819),而RR则下降至799,这一趋势同样在InternVL2.5-4B和8B中观察到。这种现象的原因在于,尽管RR展现出特定的纠错能力,但OCR的误识别对最终结果产生了负面影响。相比之下,ORR通过图像描述来缓解OCR错误,在OCRBench中表现出更优的性能。
综合结果表明,在MMAT-1M上使用作者的ORR和RR进行训练,在需要综合推理、数学计算和跨模态信息融合的任务中取得了显著提升,尤其是RR。这确立了MMAT1M作为提升视觉语言模型推理能力的有价值基准的地位。
RAG基准测试结果。Dyn-VQA [31]的最新版本评估结果如表4所示。Query指的是模型用于信息检索的输入内容,而Golden Query则表示针对最终检索步骤进行优化的 Prompt ,以最大化答案准确度。为与Dyn-VQA保持一致,作者采用相同的评估指标F1-Recall,该指标衡量模型生成响应与真实答案之间的重叠程度。结果表明,作者的ORR和RR始终提升多跳推理和检索性能。具体而言,RR相较于其原始性能在Query中提升了29.3%(从29.4提升至38.0),在Golden Query中提升了30.3%(从34.6提升至45.1),而MiniCPM-V-2.6分别提升了9.8%和13.3%。InternVL2.5系列模型同样受益,相对提升幅度介于31.9%至60.1%之间,这突显了llm-MMAT-1M_2507在复杂、知识密集型任务中的有效性。
InternVL2.5模型性能与推理时间对比
4.3. 深入分析
消融实验。表5展示了SFT、API集成、结构化反思和RAG对多模态推理性能的影响消融实验结果。基准模型不使用外部资源,平均得分为57.9。在RR设置下,包含API和RAG的Baseline-RR得分最高,达到61.3。移除API将性能降至57.3,而移除RAG则降至59.8。不使用SFT时,性能进一步下降至55.0。此外,保留推理但省略反思的Baseline-R得分为60.2,表明反思增强了推理能力。在ORR设置下,性能降至59.6,主要原因是ORR格式不包含RAG信息,导致Dyn-VQA基准测试性能下降。然而在其他基准测试上,其性能与RR格式相当。这些结果表明SFT对于指令遵循至关重要,而结构化反思和外部知识集成进一步提升了多模态推理能力。
ORR与RR的性能效率权衡。图3比较了ORR和RR方法在不同InternVL2.5模型规模下的推理效率和性能提升。尽管ORR和RR均能持续提升多模态推理性能,但相较于 Baseline ,它们的推理时间显著增加。ORR由于其单轮结构化推理方法,引入了适度的推理开销,而RR涉及多轮自适应推理步骤,导致计算成本略高。然而,与ORR相比,RR实现了更大的性能提升,展现了计算效率与推理精度之间的有益权衡。
4.4. 定性结果
尽管如前所述,实验已经证明了调用外部工具对模型带来的好处,但固定工具集的能力本质上存在局限性。
例如,MMAT-1M缺乏名人识别算子,导致在需要名人识别的场景中,微调后的模型无法得到正确结果。为解决这一问题,作者进行实验验证微调后的模型能否调用未明确训练过的算子。如图4所示,作者使用InternVL2.5-8B模型测试一个视觉问答。初始时, Baseline 模型给出错误答案。如预期所示,在MMAT-1M上微调的模型因无法识别行人,且网络搜索结果不成功,同样返回错误答案。为解决这一局限性,作者指示微调后的模型调用名人识别算子,成功识别正确答案。该实验表明,在作者在数据集上微调的模型展现出一定程度的零样本能力,能够调用未见过的工具。然而,其性能仍低于通过明确微调所达到的水平。
- 结论
MMAT-1M的引入标志着多模态Agent调优领域的重大进步,为提升MLLMs中的CoT推理和工具使用提供了多样化且灵活的数据集。
通过解决现有多模态Agent调优数据集的关键局限性,如同质性、缺乏反思性以及工具使用的灵活性不足,它提供了一种全面解决方案,符合实际应用的需求。尽管该数据集在当前多模态基准测试中表现出色,但仍需进一步研究以评估其对更广泛的MLLMs和更复杂的现实场景的适应性。
参考
[1]. MMAT-1M: A Large Reasoning Dataset for Multimodal Agent Tuning