Chart-R1：基于强化学习微调的图表多模态推理模型与程序化数据合成方法！

备注好友：方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

近期，受OpenAI-o1/o3和Deepseek-R1的启发，基于强化学习微调的R1风格方法在学术界引起了广泛关注。以往的R1风格方法主要集中于数学推理和代码智能。在更通用的多模态数据上验证其优势具有重要的研究意义。图表是一种重要的多模态数据类型，具有丰富的信息，为复杂推理带来了重要的研究挑战。

在本工作中，作者引入了Chart-R1，一种基于强化学习微调的图表领域视觉语言模型，以实现复杂图表推理。为支持Chart-R1，作者首先提出了一种新颖的程序化数据合成技术，用于生成高质量的逐步图表推理数据，涵盖单子图和多子图，弥补了图表领域推理数据的不足。

然后作者开发了一种两阶段训练策略：Chart-COT（逐步思维链监督）和Chart-RFT（数值敏感强化微调）。Chart-COT旨在通过逐步监督将复杂的图表推理任务分解为细粒度、可理解的子任务，为提高强化学习的推理水平奠定了良好基础。Chart-RFT采用典型的组相对策略优化方法，其中对数值响应采用相对较软的 Reward ，以强调图表领域的数值敏感性。作者在开源基准测试和自建的图表推理数据集（即ChartRQA）上进行了广泛的实验。

实验结果表明，Chart-R1相较于图表领域方法具有显著优势，甚至可与开源/闭源大规模模型（例如GPT-4o、Claude-3.5）相媲美。作者的代码和数据集将可在

https: //github. com/ DocTron-hub/Chart-R1获取。

1 引言

近期，受OpenAI的o1/o3模型[2025]和DeepSeek-R1[Guo et al. [2025]]等模型成功的启发，利用强化学习（Reinforcement Learning，RL）进行微调的研究在学术界引起了广泛关注。尽管这些方法在数学推理、代码生成和多学科知识等文本领域展现出潜力，但将这些先进的推理能力迁移到视觉领域仍是一个开放性挑战。虽然像Vision-R1[黄等人[2025]]和VLM-R1[沈等人[2025]]等近期方法已成功利用RL提升视觉感知和 grounding 能力，但它们主要集中于简单问题，忽视了需要深度推理能力的高阶任务。

图表作为信息密集型图像，是图像理解和推理领域的关键研究方向——王等人[2024]。先前研究通过在采用思维链（Chain-of-Thought, CoT）或思维程序（Program-of-Thought, PoT）方法增强的数据集上进行监督微调（Supervised Fine-Tuning, SFT）来提升图表感知和理解能力——魏等人[2022]、陈等人[2022]。SFT的一个关键局限性在于导致模型过度拟合特定的推理模式，阻碍了其泛化能力。继DeepSeek R1之后，近期方法——贾等人[2025]、倪等人[2025]利用强化学习（Reinforcement Learning, RL）来增强视觉语言模型（Visual Language Model, VLM）的推理能力。然而，这些工作的范围在很大程度上仅限于视觉感知和理解，而非深度图表分析所需的复杂推理。

在这项工作中，作者提出了Chart-R1，一个利用强化学习增强复杂推理能力的图表领域视觉语言模型。为此，作者引入了两个关键贡献。首先，作者提出了一种新颖的程序化合成策略来生成高质量的推理数据。其次，作者引入了一种有效的两阶段训练策略，显著增强了推理能力。具体而言，为了支持Chart-R1的训练，作者首先在程序化合成方法中生成复杂的图表推理数据。作者利用大语言模型生成图表绘制代码，然后使用生成的代码来构建复杂问题、多步思维链推理过程和最终答案。为此，作者构建了ChartRQA，一个包含258 kΩ多步推理样本的复杂推理数据集，涵盖了单图表和多图表任务。为确保图表中数据的保真度，作者从arXiv论文中精选现实世界表作为数据源。ChartReasoner Jia等人[2025]提出将图表转换为代码来生成推理数据。然而，其对有损解析过程的依赖直接限制了最终推理数据的范围和多样性。Chart-R1的训练分为两个阶段：Chart-COT（带逐步思维链监督）和Chart-RFT（数值敏感强化微调）。在初始Chart-COT阶段，模型通过SFT（监督微调）在逐步推理数据上进行微调，以构建其将复杂任务分解为细粒度子任务的核心能力。在Chart-RFT阶段，作者利用组相对策略优化（GRPO）策略，其中 Reward 信号是软匹配和编辑距离的组合。该设计特别针对并增强了数值型和基于字符串的答案的准确性。值得注意的是，这两个阶段采用了不同的数据集，基于作者的发现，在相同数据上训练会损害模型在强化学习过程中的探索能力。此外，作者引入了一个人工验证基准ChartRQA，用于评估复杂图表推理的边界。与先前工作Xia等人[2024]、Wang等人[2024]不同，其问题具有更高的复杂度，需要多步思维过程。现有VLMs在ChartRQA上的性能大幅下降，暴露了它们图表推理能力的重大局限性。

总之，作者的贡献如下：

作者提出了一种新颖的两阶段训练策略，包括Chart-COT和Chart-RFT，以增强视觉语言模型中的图表推理能力。llm-Chart-R1_2507Chart-R1采用该策略进行训练，在多种图表理解和推理基准测试中取得了新的SOTA（当前最佳）成绩。
作者引入了一种程序化数据合成策略，利用代码作为关键起始源来生成逐步推理数据。该数据源基于arXiv论文中的真实世界表，确保生成图表的高保真度。
作者引入了ChartRQA，这是一个用于复杂图表推理的综合性数据集，包括人工验证的基准测试集和大规模训练数据集。现有视觉语言模型在ChartRQA基准测试上的显著性能表现，突显了它们在图表推理能力方面存在的一个关键局限性。
作者进行了一系列综合实验，系统地评估了各种设置的影响。作者的研究结果提供了宝贵的见解，并为该领域的未来研究提供了明确的指导。

2 相关工作

2.1 图像视觉语言模型

图表理解和推理是研究社区的关键领域，涵盖了Low-Level和High-Level任务Singh等人[2019]、Methani等人[2020]。近年来，许多图表领域模型被提出以增强视觉语言模型（VLMs）的图表理解能力Han等人[2023]、Liu等人[2023]。然而，已有工作主要集中在描述性任务Masry等人[2024a,b]，例如从图表中提取显式内容Masry等人[2022]。

相比之下，近期研究更侧重于利用VLMs的推理能力来解释图表中的复杂和隐含信息。例如，TinyChart Zhang等人[2024]采用基于模板的方法生成思维链（PoT）推理数据Chen等人[2022]。ChartCoder Zhao等人[2025b]提出思维片段（Snippet-of-Thought）以增强图表到代码的生成。ChartReasoner Jia等人[2025]利用图表到代码模型将图表图像转换为代码，并基于代码生成推理过程。然而，由于图表到代码的准确性问题Shi等人[2024]、Xu等人[2024]，生成的推理数据存在局限性。

2.2 长推理视觉语言模型

近期，随着DeepSeek-R1 Guo等人[2025]的成功，许多研究尝试通过基于规则的 Reward 和强化学习（RL）来增强大语言模型（LLM）的推理能力Shao等人[2024]。在视觉语言领域，近期研究遵循DeepSeek-R1方法来增强视觉语言模型（VLM）的长链推理能力Shen等人[2025]，Wang等人[2025]。

例如，Vision-R1 Huang等人[2025]和R1-OneVision Yang等人[2025]应用多模态推理数据与组相对策略优化（GRPO）相结合，使VLM能够进行长链推理。MMEureka Meng等人[2025]和R1-Zero Liu等人[2025]进一步通过改进的强化学习训练策略推进了视觉长期推理。Point-RFT Ni等人[2025]利用具身认知的CoT推理进行视觉理解，但其仅使用ChartQA进行强化学习，这限制了最终模型的推理能力。

3 方法

为提升模型在图推理任务中的推理能力，作者提出了数据合成与两阶段训练策略。首先，作者通过思维链推理过程程序化地生成大规模训练数据集，随后将思维链数据上的监督微调作为冷启动阶段，以初始化后续的强化学习策略进行训练。

3.1 程序化数据合成

尽管已经提出了多个用于图表推理的CoT数据集，但它们大多源自ChartQA数据集，通过为其现有的问答对增加生成的推理过程构建而成，如Zhang等人[2024]和Jia等人[2025]的研究。然而，这种方法类似于从SOTA视觉语言模型中提取推理，由于这些模型在复杂任务上的失败会固有地限制生成数据的质量，因此存在这一问题。生成高质量的CoT推理数据是一个公认挑战，主要是因为当前方法将最终答案的正确性作为唯一的监督信号。在复杂图表推理领域，这一问题尤为突出，因为现有模型已经表现出显著的局限性。因此，通过这种方法生成数据在质量和多样性上均存在内在缺陷。尽管Jia等人[2025]提出的最新ChartReasoner方法通过首先将图表解析为代码来生成推理数据，但生成数据的多样性和质量从根本上受限于图表到代码解析器的性能。相比之下，作者的程序化数据生成策略通过将代码作为关键起始源，颠覆了这一范式。首先，作者 Prompt 强大的大语言模型生成绘图代码。该代码随后作为完美、高保真的基础，大语言模型在此基础上合成问答对及其复杂的逐步推理路径。

绘图代码生成作者指导大语言模型生成Matplotlib绘图代码，以渲染高质量且多样化的图表图像。然而，作者的分析表明，直接在绘图代码中生成合成数据值往往会产生单调的趋势，缺乏复杂性和多样性。为解决这一问题，作者首先从现实世界的arXiv论文中整理表，这些表作为真实的数据来源。其次，为增强生成代码的多样性，作者手动为不同类型的图表编写种子代码示例。为确保生成代码的多样性，作者将整理好的表和种子代码随机组合，作为大语言模型进行上下文学习的来源，以生成绘图代码。为生成复杂的、多图表场景，作者在种子代码中包含大量多图表示例，并在生成过程中明确 Prompt 大语言模型使用plt.subplots()等函数创建组合图形。作者的工作显著扩展了图表推理可用的图表类型范围，代表了最多样化的数据集。作者执行所有生成的代码样本，并丢弃任何未能成功运行的样本。

基于可执行的绘图代码作为基础，作者 Prompt 大语言模型合成完整的推理实例，该实例包含一个问题、其答案以及逐步的推理路径。为了增加多样性，作者将绘图代码分为单图和多图两种类型，并使用不同的指令进行实例生成。对于多图问题，作者特别 Prompt 大语言模型生成需要跨参考子图之间信息的问题。结果表明，该策略显著提高了多图任务的复杂性。作者的结果显示，利用代码使大语言模型能够生成比仅使用图表图像的方法更复杂的问题和更详细的推理。作者认为基于代码的方法在生成复杂图表推理方面更优越，因为底层代码提供了无损的文本细节表示，同时能够独立于现有语料库进行新数据的可扩展合成。作者筛选出不符合思维和回答格式以及有缺陷的图表图像的数据样本。

使用上述方法，作者构建了ChartRQA，一个全面的图表推理语料库，其中包括一个包含推理路径的大规模训练数据集（258k个实例）以及人工验证的基准数据集。训练数据集根据作者的两阶段训练策略（ChartRQA-SFT和ChartRQA-RL）分为两个子集，分别包含228k和30k个样本。ChartRQA与其他图表领域训练数据集的详细比较见表1。基准数据集通过人工验证构建，专家对每个样本的题目难度和答案正确性进行审查，最终构建了1,702个高质量样本（933个单图表任务和769个多图表任务）用于评估。如表2所示，作者还计算了题目、推理路径和最终答案的平均token数量，并按单图表和多图表问题进行细分。分析显示，与单图表问题相比，多图表问题的相关组件显著更长。此外，训练集和测试集的分布是平衡的。图2展示了作者生成的ChartRQA。

picture.image

质量评估为评估作者生成数据的质量，作者随机抽取了1k个实例并招募人类专家进行评估。结果表明，超过85%的实例没有错误。值得注意的是，作者有意省略了任何数据清理过程。llm-Chart-R1_2507Chart-R1在训练于这个原始、未经整理的数据集上仍能取得优异性能，这验证了作者提出的基于代码生成策略的鲁棒性。

3.2 图表100OT

为提升图表推理能力，作者提出一种两阶段训练策略。以Qwen2.5VL-7B-Instruct作为基础模型，作者首先在提出的ChartRQA-SFT的逐步推理数据上对其进行SFT（监督微调）。具体而言，基础模型首先在作者生成的逐步推理数据上进行SFT，这作为代码起始阶段，使模型具备将复杂任务分解为细粒度子任务的基本能力。作者的消融研究表明，在CoT（思维链）数据上进行初步SFT阶段至关重要，因为它比从头开始应用RL（强化学习）能显著提升性能。

作者使用标准的自回归语言建模目标来训练模型。损失函数是目标序列的负对数似然：

$L(θ) := -E\_{(x, y)∼D\_CoT}∑\_{t=1}^T log P(y\_t|x, y\_{<t}; θ)=""$ =""

其中

是 Query 和目标响应，包含推理过程。

3.3 图表RFT

在Chart-COT阶段之后，虽然微调后的模型在分解复杂问题方面表现出增强的能力，但其在外部领域（OOD）任务上的表现显著下降。作者假设这是由于ChartRQA-SFT与某些简单的图表理解任务之间存在分布不匹配，从而损害了其泛化能力。为解决泛化能力的下降问题，作者随后应用强化微调（RFT）来扩展其推理能力。

基于近期推理工作 Guo 等人 [2025] 的研究，作者针对 RFT 适应了群体相对策略优化（GRPO）算法 Shao 等人 [2024]。GRPO 放弃了评价模型，转而通过群体得分估计 Baseline ，显著减少了训练资源。对于每个输入

，策略

会采样

个候选响应群体

。

Reward 设计为了实现有效的RFT，作者遵循DeepSeek-R1 Shao等人[2024]的方法，采用基于规则的 Reward 机制，该机制由准确率 Reward 和格式 Reward 组成。针对图表问题，作者引入了一种软准确率 Reward ，该 Reward 利用不同的函数分别评估数值型和基于字符串的任务。这允许根据预期的答案类型进行更适当的评估。

准确 Reward 。作者采用不同的 Reward 函数来衡量模型输出的正确性，每个函数都针对特定的答案类型进行定制。对于数值答案，作者采用Point-RFT Ni等人[2025]提出的软匹配技术，允许相对误差容忍度为±5%。对于基于字符串的答案，作者使用编辑距离作为 Reward 信号。格式 Reward 。格式 Reward 通过语法 Level 的正则表达式解析器确定。该解析器通过检查两个条件来验证输出的结构完整性：(1)推理过程是否正确地被

和标签包围，以及(2)最终答案是否可以从指定的答案标签

和中提取。

数据比例对于Chart-COT和Chart-RFT阶段，作者使用ChartRQA的不同子集。这一设置至关重要，因为作者的实验表明，如果两个阶段都使用相同的CoT数据，会导致模型过度拟合以复制来自SFT数据的推理路径，这反过来又降低了策略模型在RL阶段时的多样性和探索能力。作者发现，Chart-RFT阶段的稳定性和收敛性严重依赖于来自前一阶段Chart-COT阶段的数据模式一致性。使用模式不一致的SFT数据会显著阻碍RFT收敛，这突显了在Chart-COT阶段需要一个分布对齐的数据集，以确保下游RFT的有效性。

4 实验

4.1 实现细节

在数据生成阶段，作者使用Gemini-2.5-Flash生成绘图代码和问答对。在训练阶段，作者的ChartRQA-SFT用于监督微调（SFT），而ChartQA和ChartRQARL的组合用于强化学习与规划优化（GRPO）。SFT阶段使用批大小为48进行单轮训练，RL阶段使用批大小为128进行三轮训练。最终通过将RL过程应用于初始SFT训练模型Chart-R1-SFT，得到最终的Chart-R1模型。对于这些不同阶段，学习率分别设置为1e-5和1e-6。最后，在配备24块H800 GPU的系统上，SFT和RL的训练过程分别耗时约3小时和30小时。

4.2 实验设置

作者进行实验以评估从不同训练设置中获得的结果。首先，作者评估训练阶段和训练数据的范围，包括：(1) 使用CoT数据的SFT训练，(2) 直接强化学习与CoT-RL的对比，以及(3) 带有和不带有ChartRQA数据的强化学习。

基准测试为了全面评估作者提出的Chart-R1的理解和推理能力，作者选择了ChartQA Masry等人[2022年]、Chaxiv-RQ（推理问题）Wang等人[2024年]、ChartQAPro Masry等人[2025年]以及作者提出的ChartRQA作为评估基准。

4.4 消融实验

作者首先评估了不同训练设置的影响，结果如表4所示。研究发现，采用作者的两阶段训练策略，即使用Chart-SFT数据进行逐步SFT训练，以及使用ChartQA和ChartRQA-RL数据进行RL训练，能够获得最均衡的性能。值得注意的是，省略Chart-COT会导致在ChartRQA基准测试上的性能显著下降。作者将此归因于ChartRQA的性质，即复杂图表需要多步思考才能回答。

第一阶段Chart-COT使模型具备了进行此类逐步任务分解的能力。此外，仅使用ChartQA数据集进行SFT会导致所有基准测试的性能下降，包括ChartQA本身。作者认为，尽管SFT可以提高领域内任务的容量，但在简单且多样性低的数据集上进行训练会扰乱调优后的分布，从而损害领域内（ChartQA）和领域外（CharXiv-RQ，ChartRQA）任务的能力。

picture.image 已有研究证实，训练数据的复杂性对于有效的强化学习至关重要 Guo等人[2025]。作者生成的ChartRQA训练集满足这一要求，包含单图表和多图表图像以及需要逐步推理的任务。在强化学习阶段包含作者的ChartRQA数据集对于实现最佳性能至关重要。作者在Chart-RFT阶段观察到结构和逻辑复杂度对于性能提升的重要性。作者发现仅使用ChartQA数据集进行训练不足以开发出鲁棒的推理模型。ChartQA有限的复杂度无法促使模型学习多样化的长路径推理策略。这一局限性由图3所示的训练过程得到实证验证。准确率 Reward 迅速收敛至约0.9且后续增长甚微，而响应长度仍被限制在约100个token。

picture.image 作者进一步研究了作者的两阶段训练策略的影响，该策略包括Chart-COT和Chart-RFT阶段。通过与不包含Chart-COT阶段的 Baseline 进行比较，作者分析了产生的训练过程，特别是 Reward 和响应长度。作者发现CoT数据上的第一次SFT有两个关键优势。首先，它显著增加了RL阶段生成的token长度。其次，它导致了一个更有效的准确率 Reward 曲线，该曲线在训练开始时快速上升，然后在更高的最终值处收敛。

Reward 函数对于 Reward 函数，作者进行了实验以评估不同准确度 Reward 的设置。结果如表5所示。为了更好地评估不同准确度 Reward 造成的影响，作者进行了消融研究，仅对Qwen2.5VL-7B-Instruct进行RL阶段的训练。结果表明，采用软准确度 Reward ，结合基于字符串任务的编辑距离和数值任务的软匹配，在大多数作者的基准测试中均能获得更优的性能。这一发现强调了调整 Reward 函数以适应特定答案类型的重要性。

picture.image SFT数据在训练Chart-R1时，作者的SFT数据集包含来自ChartRQASFT的228k个样本。然后作者通过添加ChartQA数据集和与RL数据重叠的30k ChartRQA-RL来消融SFT数据组成，以评估对性能的影响。作者分别对SFT和RL每个设置进行2k步和1个周期的训练。表6中的结果表明，结合ChartQA和ChartRQA-RL，最终性能明显下降。作者的分析表明，使用SFT和RL的重叠数据会导致过拟合，模型记住了SFT阶段的推理路径，导致思维过程更加僵化，输出多样性显著丧失。此外，ChartQA数据的直接回答格式不利于模型发展将问题分解为逐步思维过程的能力。

picture.image 可视化作者以定性案例研究作为总结，其中作者的Chart-R1模型成功生成了针对复杂问题的详细推理和正确答案。在相同的情况下， Baseline Qwen2.5VL-7B模型失败，直接证明了llm-Chart-R1_2507具有更优越的性能和更先进的推理能力。

5 结论

在本文中，作者提出了Chart-R1，一种用于复杂图表推理的图表领域视觉语言模型。为了提升Chart-R1的推理能力，作者引入了一种程序化数据生成方法，并提出了一个新颖的两阶段训练策略，以优化数据构建和训练方法。

此外，作者还提出了ChartRQA，其中包含258k个经过验证格式的训练样本，以及一个用于评估复杂图表推理的基准。结果表明，结合作者提出的训练策略，Chart-R1相较于其他视觉语言模型实现了更优越的性能。

参考

[1]. Chart-R1: Chain-of-Thought Supervision and Reinforcement for Advanced Chart Reasoner

Chart-R1：基于强化学习微调的图表多模态推理模型与程序化数据合成方法 ！