更多内容,点击下方关注【
AGI之门
】公众号
获取更多实时AGI相关解读
扫描下方二维码,添加小助手微信
导读
大语言模型在复杂文本任务中展现了卓越的推理能力。然而,多模态推理,即需要整合视觉和文本信息,仍然是一个重大挑战。现有的视觉-语言模型往往难以有效地分析和推理视觉内容,导致在复杂推理任务上的表现不佳。此外,缺乏全面的基准测试阻碍了对多模态推理能力的准确评估。
在本文中,作者介绍了R1-Onevision,这是一个旨在弥合视觉感知与深度推理之间差距的多模态推理模型。为了实现这一目标,作者提出了一种跨模态推理流程,该流程将图像转换为形式化的纹理表示,从而实现基于语言的精确推理。利用这一流程,作者构建了R1-Onevision数据集,该数据集提供了跨多个领域的详细、逐步的多模态推理标注。作者进一步通过监督微调和强化学习开发R1-Onevision模型,以培养High-Level推理和强大的泛化能力。为了全面评估不同 Level 上的多模态推理性能,作者引入了R1-Onevision-Bench,这是一个与人类教育阶段对齐的基准,涵盖了从初中到大学及以上的考试。
实验结果表明,R1-Onevision在多个具有挑战性的多模态推理基准测试中实现了最先进的性能,超越了GPT-4o和Qwen2.5-VL等模型。
- 引言
近期,如Deekseek-R1 [9]、思维链 Prompt [29]和累积推理[40]等语言推理模型在解决包括编码[4, 8]、数学[6, 11]和科学[28]等复杂问题方面取得了显著进展。然而,多模态推理仍然是一个很大程度上未被充分探索的挑战。与文本推理不同,多模态推理要求模型迭代地从图像中提取、结构化和验证信息。现有的视觉-语言模型往往无法组织可用信息并执行深入的推理过程,导致视觉推理任务失败。
当前关于视觉-语言模型的研究越来越强调逐步推理。一些方法,如LLava-CoT[33]和Llama-V-o1[25],采用预定义的思考结构来约束模型的推理过程,限制了其鲁棒性和创造性潜力。尽管这种结构化模板可以提高一致性,但它们往往导致浅层推理,理解有限。其他方法,如MAmmoTH-VL[10],依赖于对精心制作的 GT 答案的直接模仿,导致模型直接生成响应,而没有尝试错误的方式。因此,这些模型可能无法泛化到其训练分布之外。
图1展示了这些限制的一个例子。DeepseekR1由于GPT-4o[20]的不完整图像描述而遭受感知错误,而Qwen2.5-VL[3]尽管具有强大的多模态能力,但缺乏深度推理能力,最终未能解决问题。这些挑战凸显了当前多模态推理方法的核心局限性,要么强加僵化的框架以限制泛化,要么未能提供类似人类的思考行为以准确处理视觉信息。
此外,缺乏用于评估多模态推理能力的综合基准。开放compass [7] 所使用的现有基准主要关注数学问题,例如 MathVision [26]、MathVista [18] 和 WeMath [23]。虽然一些更具挑战性的数据集,如 HumanEval-V [38]、Humanity's Last Exam [21] 和 ZeroBench [24],旨在评估复杂图表理解或更广泛的知识能力。然而,这些基准仍然较为专业化,仅涵盖推理的有限方面。
在本工作中,作者通过引入跨模态推理流水线来构建多模态推理数据集、一种后训练策略来增强推理能力以及一个全面的多模态推理基准来解决这些挑战。首先,作者提出了一种跨模态推理流水线,该流水线将图像转换为视觉形式表示,并允许语言模型精确地处理和推理图像。作者构建了R1-Onevision数据集,以提供详细的多模态推理过程,涵盖多个领域,包括自然场景、图表、数学表达式和科学。其次,作者采用两阶段后训练策略来训练具有High-Level推理能力的R1-Onevision模型。监督微调(SFT)阶段利用作者的R1-Onevision数据集培养连贯的思维模式和输出结构。强化学习(RL)阶段增强了模型在多样化任务中的推理性能和泛化能力。第三,为了评估多模态推理模型,作者引入了R1-Onevision-Bench,这是一个专门设计的全面基准,旨在评估人类教育体系中科学领域“年级水平”的推理性能:数学、物理、化学、生物学和逻辑推理。最后,在包括MathVision [26]、MathVerse [39]、MathVista [18]、WeMath [23]和作者的R1-Onevision-Bench在内的多个基准上的大量实验,证明了作者的R1-Onevision模型在多模态推理性能方面的优越性。
作者的主要贡献总结如下:
- • 作者提出了一种跨模态推理流程,用于构建R1-Onevision数据集,该数据集包含广泛范围的图像、问题和它们的推理过程。
- • 作者引入了R1-Onevision,这是一种专为复杂问题解决设计的视觉语言推理模型。
- • 作者构建了R1-Onevision-Bench,以课程感知方式评估不同教育水平和学科领域的多模态推理性能。
- • 大量实验表明,R1-Onevision模型相较于 Baseline Qwen2.5-VL模型以及如GPT-4o等闭源模型具有优越性。
- 相关工作
多模态大语言模型。MLLMs在多种多模态任务中展现出显著潜力。[3, 5, 19, 27]通过整合视觉和文本数据,实现了卓越的视觉理解能力。最近,多模态大语言模型[10, 32]在解释视觉任务时展现了先进的推理能力。此外,一些研究[25, 32]引入基于计划的CoT Prompt ,以引导模型生成中间信息,用于预测最终答案。LLaVACoT[32]引入了一种新型的VLM,旨在进行视觉推理,在需要结构化思考和推理的任务上表现出色。基于LLaVA-CoT,LlamaV-o1[25]引入了一种多步骤课程学习方法,任务逐步组织,以促进增量技能获取和问题解决。CoMCTS[34]将集体学习的概念引入“树搜索”,以实现有效且高效的推理路径搜索和学习。在本文中,作者提出了R1-Onevision,该模型在训练后阶段使用监督微调和强化学习来生成针对不同任务的推理能力。
大语言模型推理。在大语言模型(LLMs)中发展稳健的推理能力一直是研究的焦点[2, 12, 16, 22]。一些LLMs通过学习创建推理过程中的每一步中间步骤来理解和解决问题。例如,思维链(CoT) Prompt ,将复杂问题分解为中间推理步骤,已显示出在引导LLMs到结构化解决方案方面的潜力[30, 35]。由于某些视觉任务,如解决数独谜题,迫切需要多模态大语言模型(MLLMs)提供逐步推理能力,因此开发适当的方法来增强多模态基础模型的表现至关重要。
视觉推理基准。随着模型在视觉推理能力上的提升,越来越多的研究提出了各种基准来评估这些模型的推理能力[13, 15, 37]。MATH-Vision(MATH-V)[26]数据集收集了来自真实数学竞赛的3,040个具有视觉背景的高质量数学问题。DynaMATH [41]提供了一个专门设计用于评估视觉语言模型(VLMs)数学推理鲁棒性的动态视觉数学基准。在本文中,作者介绍了一个综合性的基准,旨在评估教育系统中科学领域“年级水平”的推理性能。
- 方法
多模态推理需要全面理解视觉和文本模态,然而现有的模型往往无法理解结构化视觉内容,且在高层次推理上存在困难。为了弥合这一差距,作者提出了一种跨模态推理 Pipeline ,通过视觉形式表示将语言模型的推理能力转移到视觉模态。此外,作者采用了一种后训练策略来稳定推理过程,并提高在不同多模态任务上的泛化能力。
3.1. 跨模态推理流程
作者的跨模态推理流程旨在通过整合视觉形式化表示来弥合语言推理模型与视觉模型之间的差距。形式化语言是一个具有严格句法和语义约束的结构化系统,它消除了歧义,确保了逻辑一致性。通过视觉内容的正式描述,语言推理模型能够观察并就图像元素进行推理。作者使用DeepSeek R1 [9]在LLaVA-One Vision [17]上生成推理过程,并将这些数据收集到R1-Onevision数据集中。图2展示了跨模态推理的过程。生成的数据示例见补充材料。
数据整理与筛选。对于视觉推理,作者汇集了涵盖自然图像、基于OCR的文字提取、图表、数学表达式和科学推理问题的多模态数据集,仅选择那些支持结构化推理的数据。最终数据集融合了来自LLaVA-One Vision数据集[17]的组件,并增加了针对复杂推理任务的特定领域数据集。
图像形式描述。作者流水线的关键特性在于其基于形式语言的标注。为此,作者利用了GPT-4o、Grounding DINO和EasyOCR的组合,将视觉图像内容转换为文本形式描述。以下概述了标注过程,并在补充材料中提供了 Prompt 设计详情。
- • 图表与图表:作者 Prompt GPT-4o生成结构化表示,例如SPICE用于电路原理图,PlantUML或Mermaid.js用于流程图,HTML用于UI布局,CSV/JSON用于表,以及Matplotlib用于标注图表。
- • 自然场景:作者通过利用Grounding DINO提取关键元素的边界框标注和GPT4o生成描述性字幕,增强了图像的细粒度空间描述。
- • 文本图像:处理包含印刷或手写文本的图像时,作者使用EasyOCR提取文本及其位置,并利用GPT-4o重建原始文档。
- • 含视觉和文本内容的图像:作者整合了GPT-4o生成的标题、Grounding DINO边界框和EasyOCR提取的文本,以确保文本和视觉元素都被准确捕捉。
- • 数学图像:对于包含数学内容的图像,作者使用GPT-4o来提出推理策略,以指导推理过程。
推理过程生成。给定一张图像,作者通过向语言推理模型提供其密集的标题和问题来构建跨模态思维链(CoT)数据。虽然原始的思维链(CoT)方法基于文本标题提供了一个结构化的推理路径,但它本质上缺乏关键的视觉成分——直接“看到”并解释图像的能力。为了解决这一局限性,作者提出了一种角色扮演策略,该策略模拟人类的视觉理解。这种方法涉及迭代地回顾图像,细化对其的理解,并提高推理过程的保真度。这个过程提高了多模态一致性,并确保了语境丰富的推理过程。
质量保证。为确保生成推理过程的可靠性,作者使用GPT-4o去除不准确、无关或不一致的CoT步骤。这一步骤保证了多模态推理的高质量数据集。
R1-Onevision 数据集。最后,如图3所示,R1-Onevision 数据集是一个精心设计的工具,旨在推动多模态推理的边界。R1-Onevision 涵盖了广泛的领域,包括科学、数学、图表数据以及一般现实世界场景,总计超过 155,000 个精心挑选的样本。R1-Onevision 作为开发 R1-Onevision 数据集视觉推理模型的一个丰富资源。
3.2 训练后策略
为了提升多模态推理能力,作者提出了一种包含监督微调(SFT)和基于规则的强化学习(RL)的两阶段训练策略。SFT稳定了模型的推理过程并标准化了其输出格式,而RL进一步提升了模型在多样化多模态任务中的泛化能力。
3.2.1. 监督微调
利用R1-Onevision数据集,作者通过微调(SFT)提升了视觉语言模型的推理能力。SFT稳定了模型输出格式,并在大规模模型中培养了更复杂的推理过程。这种方法不仅标准化了输出,还为后续的强化学习(RL)奠定了坚实基础,使其实现了显著的性能提升。
3.2.2. 在SFT模型上的强化学习
基于SFT训练的模型,作者采用基于规则的强化学习(RL)来优化结构化推理并确保输出有效性。具体来说,作者定义了两个受R1启发的奖励规则,并使用组相对策略优化(GRPO)更新模型。RL阶段进一步鼓励模型生成可靠的输出,并增强了模型的可泛化性。
基于规则的奖励。作者定义了两个奖励规则,从两个角度评估生成的答案:
- • 准确度奖励:准确度奖励规则通过正则表达式提取最终答案,并验证其与真实值的一致性。对于如数学问题这样的确定性任务,最终答案必须以指定格式(例如,在方框内)提供,以便进行可靠的基于规则的验证。在如目标检测这类情况下,奖励由与真实值的交并比(IoU)得分决定。
- • 格式奖励:为确保推理过程的存续,格式奖励规则要求响应必须遵循严格的格式,其中模型的推理内容需被包含在和之间。正则表达式确保这些推理 Token 的存在和正确顺序。
组相对策略优化。作者采用GRPO以受控的方式实现一致策略更新和鲁棒奖励信号的良好整合。对于生成的答案中的每个 Token ,GRPO首先计算在新策略
和参考策略下的对数概率。然后,GRPO计算这些概率的比率,并将其裁剪到
的范围内,以防止更新过大。归一化奖励(作为优势)用于PPO风格的损失:
在此,
表示优势函数,它捕捉了特定动作相对于 Baseline 策略值的好坏程度。
为了进一步保持与参考分布的接近性,添加了一个由
加权的
散度惩罚,从而得到整体损失:
与其他方法相比,GRPO剪枝机制防止了极端策略偏移,而KL正则化确保了更新后的策略与 Baseline 保持一致。这种组合确保了R1-Onevision在不妨碍训练稳定性的情况下,有效地整合基于规则的奖励。
- 多模态推理基准
为了评估R1-Onevision模型的推理能力,作者引入了一个专门的多模态推理基准——R1-Onevision-Bench。该基准旨在全面评估模型在广泛推理任务上的表现,涵盖多个领域,如数学、物理、化学、生物学和逻辑推理。
受人类教育进步的启发,R1- Onevision-Bench的结构旨在反映复杂性的分级水平。它包括中学、高中和大学水平的现实世界推理测试,以及一项社交测试。这种设计不仅反映了认知发展的各个阶段,还确保了评估涵盖了学术和实践推理技能。
通过整合多样化的问题和难度 Level ,R1-Onevision-Bench为多模态推理的基准测试提供了一个严谨的框架。这使得作者能够更好地评估多模态语言模型展现推理能力的能力等级,并确定哪些知识和经验方面需要补充以进一步提高其性能。
此外,作者的基准进一步将每个类别细分为特定的子类别。图5展示了任务在不同类别、子类别和年级水平上的详细分布,以及来自多个领域的数据示例。
- 实验
本节首先在第5.1节介绍R1-Onevision的实验设置。接着,在第5.2节中,作者展示了主要结果,证明了R1-Onevision的有效性。第5.3节对各种模型在基准测试上的表现进行了详细评估,包括开源和闭源模型,全面评估了它们在不同等级和类别上的性能。此外,第5.3节对这些模型表现出的弱点进行了深入分析,确定了阻碍其有效性的具体挑战和局限性。最后,第5.4节对训练过程中各种组件的重要性进行了系统分析。
5.1 实验设置
作者评估了R1-Onevision在多个多模态推理基准测试上的表现,包括MathVista [18]、MathVision [26]、MathVerse [39]和WeMath [23]。(1)MathVista:一个旨在结合来自不同数学和视觉任务挑战的数学基准。作者使用了测试Mini split,大约1000个样本。(2)MathVision:精心整理的包含3,040个高质量数学问题及其视觉背景的集合,这些背景来自真实的数学竞赛。作者使用了包含304个样本的测试Mini split。(3)MathVerse:一个全面的多模态数学基准,旨在对多语言语言模型进行公平且深入的评估。作者使用了全部数据集,并报告了“仅视觉”的结果,该结果通过将整个问题绘制在图中揭示了巨大的挑战。(4)WeMath:一个旨在探索超越端到端性能的解决问题的原则的基准。作者采用了WeMath的TestMini split,大约1740个样本,作者报告平均准确率作为主要指标。所有 Baseline 模型的性能指标均来自VLMEvalKit的测试结果 [7]。
作者采用Qwen2.5-VL系列作为 Baseline 模型,并在 Baseline 3B和7B上开展实验,以检验R1-Onevision的有效性。SFT实验使用批大小为128,学习率为1e-5,训练1个epoch。随后,作者在Clever数据集[14]上执行强化学习。作者尝试了每个epoch训练10k个子集。关于数据集构建、训练过程和基准的更多细节可以在补充材料中找到。
5.3. 基准分析
作者评估了两组模型在R1-Onevision基准测试中的性能,这些模型分为四个难度 Level (从“初中”到“社会测试”)和五个不同的学科领域(数学、物理学、化学、生物学、演绎)。第一组包括SOTA闭源VLM,如GPT-4o、Gemini-2.0-Flash和Claude-3.5。第二组包括SOTA开源VLM,包括MiniCPM-o2.6、InternVL2.5-8B、InternVL2.5-8B-MPO、Qwen2-VL7B、Qwen2.5-VL-7B、Qwen2.5-VL-72B、DeepSeek-VL2和R1-Onevision。作者部署VLMEvalkit包以在多种模型中进行推理。此外,作者通过测试Qwen2.5-VL系列,特别是比较7B和72B模型,来评估模型参数对基准性能的影响。这项分析提供了关于如何通过扩展模型参数影响基准性能的见解,为未来的模型开发和优化提供了宝贵的指导。至于在R1-OneVision基准中的评分,遵循Math Vision和MathVerse,作者使用GPT-4o-mini提取答案并评分。提取和评分过程的 Prompt 见补充材料。
平均准确率总体结果。表3展示了多种封闭源和开源模型的平均性能。封闭源模型,如GPT4o、Gemini-2.0-Flash和Claude-3.5在排行榜上表现出色,其平均分数超过其他模型的50%。值得注意的是,Gemini-2.0-Flash在从初中到大学水平的各种难度问题上都表现出强大的性能。它在多个类别中也表现出色,数学、物理、化学和生物的得分都超过50%。此外,Gemini-2.0-Flash的平均准确率比封闭源模型GPT-4o高出约10%,这证明了其在推理能力方面的有效性。然而,封闭源和开源模型在应对针对中学生的题目时表现出更强的能力,而它们在大学水平和专业认证考试中的表现则有所下降。在各个学术学科中,所有模型在演绎问题上都存在困难,没有模型的准确率超过40%。最后,尽管开源模型通常表现不如封闭源模型,但Qwen2.5-VL-72B等模型最近的进步显著缩小了差距,Qwen2.5-VL-72B的平均准确率达到52%。Qwen2.5-VL-72B与封闭源Claude3.5相当,排名仅低于Gemini-2.0-Flash。至于4-10B模型,基于Qwen2.5-VL开发的R1-Onevision表现出色,排名仅略低于顶级封闭源模型。
5.4 消融研究
5.4.1 训练策略分析
为了评估训练数据的有效性,作者比较了模型在两种不同的训练策略下的性能:(1)在作者的数据集上应用监督微调(SFT),(2)进一步使用强化学习(RL)优化SFT训练的模型。
如表4所示,SFT在作者的数据集上的应用显著提升了模型在MathVision和Math Verse(仅视觉)基准测试上的性能。值得注意的是,模型在MathVision基准测试上取得了可比的结果,这表明它能够通过作者的数据集构建系统性的思维习惯。这些发现强调了作者的数据集在提高模型推理能力方面的价值,尤其是在需要结构化和逻辑解决问题的任务中。
此外,如表5所示,SFT之后的RL应用带来了额外的性能提升。这一步骤推动模型向更深层次和更演绎性的思维发展,使其能够处理更复杂和细致的问题。观察到的渐进式改进突显了SFT和RL的互补性:SFT通过将模型与高质量的推理模式对齐,建立了一个稳健的基础,而RL通过鼓励更High-Level的认知过程,对这些能力进行精炼和放大。这项研究证明了作者的训练数据在提高模型性能方面发挥着关键作用,SFT和RL的结合提供了一种强大而有效的策略,以最大化推理和思维能力。这些结果验证了作者的推理数据集的质量和实用性。
5.4.2. 模型参数变体消融研究
为了展示R1-Onevision在不同参数规模模型上的有效性,作者使用Qwen2.5-VL-3B作为较小的 Baseline 模型进行了一系列消融实验。具体来说,作者对Qwen2.5VL-3B模型应用了监督微调(SFT)和强化学习(RL),并评估了其性能。
实验结果总结于表6中,与 Baseline Qwen2.5-VL-3B相比,在推理和任务性能方面有显著提升。R1-OneVision-3B在数学视觉任务中达到了
的准确率,在数学诗境(ALL)中达到了
。这一性能显著超过了作者的 Baseline 模型,展示了推理能力的显著提升。这些发现突出了R1-Onevision的可扩展性和适应性,表明它在不同模型规模上仍然有效。
- 结论
本文介绍了一种基于跨模态形式化方法的多模态推理综合框架,该方法统一了数据构建、模型训练和评估。R1-Onevision旨在解决视觉和文本模态集成所固有的挑战,使模型能够有效地在这些领域进行推理。该框架核心的跨模态推理流程通过利用细粒度对齐机制和结构化推理路径,弥合了视觉和语言之间的差距。该框架促成了R1-Onevision数据集的创建,这是一个丰富的资源,包含详细的逐步推理标注,旨在增强模型训练和评估。使用该框架训练的R1-Onevision模型展示了强大的多模态推理能力,并在从视觉问答到复杂问题解决场景的多种任务中表现出稳健的泛化能力。
为进一步支持多模态推理的评估,作者引入了R1-Onevision-Bench,这是一个全面的基准,严格评估模型在推理各个维度的性能。作者广泛的实验验证了R1-Onevision的有效性,显示出与最先进开源模型相比的显著改进。
参考
[1]. R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization