本文主要解决了什么问题
-
- 缺乏构建以推理为中心的医学大语言模型(LMMs)的开源且可复现的方案,阻碍了社区范围内的研究、分析和比较。
-
- 如何将大型推理模型(LRMs)的思维链推理范式与多模态医学理解相结合,以提升医学问答性能。
-
- 不同训练范式(监督微调vs强化学习)和数据模态(纯文本vs图像-文本)对医学推理模型性能的影响尚不明确。
-
- 如何在多模态医学问答任务上实现更好的性能,并与现有模型进行比较。
本文的核心创新是什么
-
- 提出了MEDVLTHINKER,这是首个用于构建和评估通用医学视觉语言推理模型的完全开源方案,包括数据管理、训练Pipeline和标准化评估协议。
-
- 两种训练范式的比较:基于推理轨迹的监督微调(SFT)和基于最终答案正确性的可验证Reward强化学习(RLVR)。
-
- 系统化的数据管理流程,根据不同的推理难度筛选纯文本和图像-文本医学数据。
-
- 发现了反直觉的结论:在纯文本推理数据上进行训练比在多模态图像-文本数据上进行训练能带来更显著的性能提升。
-
- 使用GRPO(群体相对策略优化)算法实现高效的RLVR训练,无需值估计器或评价模型。
结果相较于以前的方法有哪些提升
-
- 在六个医学问答基准上,RLVR始终且显著优于SFT训练方法。
-
- MEDVLTHINKER-7B(使用基于纯文本数据的RLVR方案训练)在现有的公共视觉问答(VQA)基准上建立了新的最先进水平,超越了所有先前开源的医学LMMs,平均准确率达到54.88%。
-
- 将模型扩展到32B后,其性能达到了专有GPT-4o的水平(平均准确率63.12% vs GPT-4o的63.74%)。
-
- 发现纯文本数据训练比图像-文本数据训练更有效,这为未来医学推理模型的数据选择提供了指导。
-
- 在具有挑战性的MedXpert-MM基准上,MEDVLTHINKER-7B达到了24.43%的准确率,比HuatuoGPT-Vision的22.00%有明显提升。
局限性总结
-
- 图像-文本训练数据(PMC-VQA)的质量问题,由于该数据集是由大语言模型合成生成的,可能包含噪声和偏差。
-
- 基于难度的过滤策略是静态的,基于3B模型的性能,可能对更大的模型不是最优的。
-
- RLVR训练相对较短且任务特定,仅利用了问答格式的Reward,模型可能无法泛化到其他交互形式。
-
- 尽管测试了32B模型,但可能需要更大的模型或更多样化的预训练来捕捉现实世界医疗推理的完整复杂性。
导读
大型推理模型(LRMs)通过思维链推理使模型能够在回应前进行"思考",为人工智能引入了新范式。然而,缺乏构建以推理为中心的医学大语言模型(LMMs)的开源且可复现的方案阻碍了社区范围内的研究、分析和比较。在本文中,作者提出了MeDVLTHINKER,一套简单而强大的基准模型。作者的完全开源方案包括:(1)针对纯文本和图像-文本医学数据的系统化数据管理,根据不同的推理难度进行筛选;(2)两种训练范式:基于推理轨迹的监督微调(SFT)和基于最终答案正确性的可验证 Reward 强化学习(RLVR)。在Qwen2.5-VL模型系列(3B、7B)和六个医学问答基准上的大量实验表明,RLVR始终且显著优于SFT。此外,在RLVR框架下,一个关键且反直觉的发现是,在纯文本推理数据上进行训练比在多模态图像-文本数据上进行训练能带来更显著的性能提升。作者最佳的开源7B模型,使用基于纯文本数据的RLVR方案进行训练,在现有的公共视觉问答(VQA)基准上建立了新的最先进水平,超越了所有先前开源的医学LMMs。此外,将模型扩展到32B后,其性能达到了专有GPT-4o的水平。作者发布所有管理数据、模型和代码,为社区提供坚实且开源的基础,以推进多模态医学推理的未来研究。
1 引言
医疗实践日益涉及处理大量多模态医疗数据(例如文本、影像、实验室结果)。临床医生必须整合来自不同来源的信息(临床记录、放射科影像、实验室报告),以做出诊断和治疗决策。大型多模态模型(LMMs)最近作为通用基础模型出现,能够感知和推理视觉输入(Li等人,2023;Liu等人,2023b,2024;Hurst等人,2024;Chen等人,2024b;Xie等人,2024b)。鉴于医疗数据天生是多模态的(例如显微镜切片、CT和MRI扫描、X射线),LMMs对医疗AI具有天然的吸引力,并开始在多模态丰富的临床环境中被采用,有潜力改善诊断(Chen等人,2024b;Li等人,2023;Liu等人,2023a)、治疗计划(Zhou等人,2023)和患者监测(Alshibli等人,2025)。
与此并行,大型推理模型(LRMs)通过引入新的响应范式扩展了大语言模型:模型在生成最终答案前通过思维链进行"思考"。这使模型能够在推理时分配更多计算资源,从而在复杂任务上通常能提升性能(Guo等人,2025;Guha等人,2025;Jaech等人,2024)。早期的纯文本LRM在医学问答任务上已展现出优异性能(Huang等人,2025;Chen等人,2024a;Wu等人,2025;Jiang等人,2025;Xie等人,2024a)。在测试时生成详细的推理步骤似乎能显著提升挑战性问题的准确率(Zuo等人,2025)。然而,如何最佳地将这种推理范式与多模态理解相结合仍待探索。尽管已有构建医学多模态推理模型的尝试,但这些模型往往缺乏开放性——要么完全闭源(Su等人,2025;Liu等人,2025),仅发布模型权重而不提供数据或训练代码(Sellergren等人,2025),要么虽完全开放,但仅限于狭窄数据集或特定领域(例如仅CT或MRI)(Lai等人,2025;Pan等人,2025)。因此,该领域缺乏对数据模态、数据管理流程和训练策略等关键因素如何影响模型性能的全面分析。
在本文中,作者提供了MEDVLTHINKER,这是首个用于构建和评估通用医学视觉语言推理模型的完全开源方案。作者的综合框架提供了一个完整的工作流程,从数据策展和训练 Pipeline 到标准化的评估协议。这使得首次能够在多种多模态医学问答基准上进行公平和系统的比较。图2概述了MEDVLTHINKER。作者首先策展两种类型的训练数据:纯文本问答数据集和图像文本(多模态)问答数据集。使用通用多模态大语言模型(Qwen2.5-VLInstruct)(Bai等人,2025年),作者对每个问题进行多次尝试以评估其难度。
具体而言,对于每个问题,作者生成多个候选答案,并统计模型回答正确的次数(即“通过次数”)。对于那些始终回答正确(过于简单)或从未回答正确(过于困难)的问题进行过滤,从而得到一个中等难度的问题训练集。然后,作者使用强大的教师模型为剩余问题生成详细的推理链(长链式思维,CoT)。对于纯文本问题,作者使用DeepSeek(Guo等人,2025)模型(一种强大的基于文本的LRM)作为CoT教师,而对于基于图像的问题,作者使用GPT-4o(Hurst等人,2024)(一种支持视觉的GPT-4变体)。
利用这些数据,作者在两种范式下训练基础多模态大语言模型:1)基于教师生成的思维链(CoT)轨迹的监督微调(SFT),2)基于问答对(不含CoT)的可验证 Reward 强化学习(RLVR)。SFT直接教会模型复现高质量的推理和答案轨迹,而RLVR仅使用答案正确性的二元 Reward 来鼓励模型的自主推理。作者通过群体相对策略优化(GRPO)(Shao等人,2024),一种无需值估计器或评价模型的效率策略梯度算法,实现RLVR。在RLVR训练中,模型为每个问题生成多个推理轨迹;每个轨迹会验证答案格式和最终答案的正确性,从而获得+1或-1的 Reward 。这些二元 Reward 在批次内进行归一化(白化),并输入到GRPO更新步骤中,该步骤应用PPO风格的裁剪目标。这个过程逐步使模型的生成概率质量集中于可验证正确的推理轨迹,同时限制与原始模型输出分布的偏离。
作者在六个多模态医学问答基准上进行了广泛的实验,以研究MEDVLTHINKER的特性。作者使用Qwen2.5-VL系列作为基础模型(参数规模为3B、7B和32B)。作者的评估涵盖了通用医学视觉问答和模态特定问答(包括病理学、放射学等专科)。结果揭示了几个重要——有时甚至是反直觉——的发现:首先,关于训练范式,使用RLVR训练的模型在3B和7B规模上始终优于使用SFT训练的模型。其次,在数据模态方面,纯文本训练优于图文训练。值得注意的是,在蒸馏的纯文本CoT数据上进行SFT会降低性能,相对于基础模型(例如,MEDVLTHINKER7B的准确率从53.5%下降到43.8%),而在图文数据上进行SFT的性能与未训练的基础模型相似。相比之下,在纯文本数据上进行RLVR提供了最大的性能提升,将7B模型的准确率从53.5%提高到54.9%。在图文数据上进行RLVR也能提升性能,但程度较小。此外,无论是通过SFT+RL还是顺序RL组合纯文本和图文数据,都不会带来使用纯文本数据单独训练之外的额外增益。第三,模型规模有显著影响:在所有配置下,7B模型始终优于其3B版本。
在现有的开源7B医疗语言模型中,使用RLVR在纯文本数据上训练的MEDVLTHINKER-7B在六个基准测试中达到了新的平均准确率
。为了评估模型规模的影响,作者进一步训练了一个32B的变体。如图1所示,MEDVLTHINKER-32B与专有的GPT-4o表现出竞争性的性能,展示了开源模型缩小与商业系统性能差距的潜力。为了加速社区驱动的开发并促进未来的创新,作者发布了作者的完整研究工具包,包括所有模型、代码以及用于数据管理、训练和评估的流程。
2 相关工作
2.1 大型推理模型与医疗适配
大型推理模型(LRMs)赋予大语言模型在最终确定答案前进行逐步推理的能力(Wei等人,2022;Guo等人,2025;Team等人,2025;Jaech等人,2024)。这种测试时的“先思考后回答”方法允许扩展推理,并在数学问题解决(Zeng等人,2025;Yang等人,2025;Muennighoff等人,2025)和代码生成(Jaech等人,2024;Yang等人,2024)等领域取得了显著的提升。训练LRM的一种方式是通过可验证 Reward 的强化学习(RLVR),该方法放弃了监督的推理链数据,而是使用关于答案正确性的二元反馈(Chen等人,2025;Yu等人,2025)。RLVR消除了对长推理例子的整理需求;它通过仅 Reward 最终结果来直接激励正确的推理。在实践中,RLVR的高效实现至关重要。分组相对策略优化(GRPO)(Shao等人,2024)因其效率而被采用,在RL更新过程中无需单独的价值网络(评价者)。另一种方法是通过对更强模型的推理轨迹进行监督微调(SFT)进行蒸馏。例如,可以使用GPT4 Level 的模型为医学问题生成高质量的推理链(CoTs),然后在这份数据上微调一个较小的模型(Chen等人,2024a)。近期研究表明,通过专家轨迹的SFT或通过答案 Reward 的RL微调医学聚焦的LRMs,可以显著提高医学问题回答的性能(Wu等人,2025;Huang等人,2025;Jiang等人,2025)。作者的工作将这些思想扩展到多模态领域,考察当涉及视觉信息时,类似的推理增强是否仍然有效。
2.2 多模态医疗大语言模型
鉴于临床数据通常包含图像(放射学(Lau等人,2018)、病理学(Ikezogwo等人,2023)等),将大语言模型(LLMs)扩展以处理视觉输入用于医疗应用正引起越来越多的兴趣。Med-Flamingo(Moor等人,2023)是首批提出用于医疗LLM的视觉-语言交错训练流程的模型之一,使其能够在单个 Prompt 中处理图像-文本对。LLaVA-Med(Li等人,2023)引入了两阶段方法:首先,通过学习投影(连接器)将视觉编码器与LLM连接,并在通用图像上进行微调;其次,在医疗图像-文本指令数据上微调组合模型以实现专业化。PMC-VQA(Zhang等人,2023)是此类大规模多模态指令数据集之一,其由PubMed Central文章(图像和标题)使用GPT-3.5作为标注器构建而成。然而,PMC-VQA中GPT-3.5生成的问答质量受限于基础模型的容量,且该数据集可能包含噪声或不够详细的问句。其他同时期的努力包括HuatuoGPT-Vision(Chen等人,2024b),该模型通过从医学语料库生成大量问答对并训练更大规模的模型(参数量高达34B)来扩展LLaVA-Med的流程。此外,还有针对特定模态的医学视觉语言模型(VLMs),如RadFM(Wu等人,2023)和SkinGPT(Zhou等人,2024),它们遵循类似的流程但专注于特定领域(例如放射学、皮肤病学)的领域特定图像-文本数据。总之,已提出几种开源的医学LLMs,但在作者的工作之前,将这些模型中明确推理机制(如LRMs)的集成尚未得到深入研究。
2.3 并行工作
最近,一些研究开始探索在大语言模型(LLMs)中引导医学推理的方法。对于纯文本医学问答,HuatuoGPT-o1采用基于PPO的强化学习(RL)方法(Schulman等人,2017)并结合外部 Reward 模型来训练医学推理LLM(Chen等人,2024a),而MedS3利用过程- Reward 模型(PRMs)进行强化学习以改进逐步推理(Jiang等人,2025)。另一种方法,在最近的一篇预印本中 Token 为M1,通过监督微调(SFT)将基于GPT-4的模型( Token 为R1)的推理轨迹蒸馏到更小的模型中(Huang等人,2025)。在多模态领域,MedVLM-R1(Pan等人,2025)在小规模多模态数据(少于1K个训练样本)上展示了强化视觉推理(RLVR)的有效性,而Med-R1(Lai等人,2025)在独立的模态特定数据集上应用了类似的RLVR方案。然而,这些模型是在有限的数据上训练的,并且无法泛化到不同类型的医学视觉问题。GMAI-VLR1(Su等人,2025)是一个通用的多模态医学LLM,采用RLVR范式进行训练,但其训练数据和代码未公开。相比之下,作者的工作提供了一个开源的构建多模态医学推理模型的方案,结合了SFT和RL技术,并在不同模型规模(3B、7B、32B)和多样化基准上进行了全面的实验研究。据作者所知,这是首次系统地比较监督CoT蒸馏和RLVR用于多模态医学问答,并将所得模型与先前的开源医学LLM和封闭模型如GPT-4进行基准测试。
3 方法
作者描述了MEDVLTHINKER的数据管理流程和训练方法。图2展示了数据过滤和模型训练的整体流程。
数据策展与过滤。作者为训练收集了两个数据集:一个纯文本医学问答数据集和一个多模态(图像+文本)医学问答数据集。对于纯文本数据,作者使用
,该数据集收录了来自 MedQA、MedMCQA和 HeadQA训练集分割的 23,493 个多项选择题。
中的每个问题都附带一组候选答案,并且作者能够获取这些问题的高质量推理链(CoTs),这些推理链是从 DeepSeekR1模型中提取的。对于多模态数据,作者采用 PMC-VQA,这是一个包含 176,948 个视觉问答对的大数据集,源自生物医学文献中的图像和标题(涵盖 149k 张图像)。PMC-VQA 是使用 GPT-3.5 生成的,涵盖了广泛的医学主题,使其成为一个通用的多模态医学问答资源(与针对单一类型图像的模态特定数据集不同,如 PathVQA、SLAKE、VQA-Rad)。
并非这些数据集中的所有问题都对训练推理模型同样有用;有些问题过于简单(对基础模型而言已属显而易见),而有些问题则过于困难(即使使用推理也无法解决)。根据最近的课程学习见解(Muennighoff等人,2025),作者对这两个数据集进行了基于难度的筛选。作者 Prompt 三种通用多模态模型(Qwen2.5-VLInstruct,参数量分别为3B、7B、32B)对每个问题进行16次回答(使用温度为1.0的核采样)。对于每个问题,作者记录通过次数,即产生正确答案的试验次数(共16次)。图3展示了不同模型规模下,纯文本m2k3和基于图像的PMC-VQA的通过次数分布。随着模型规模的增加,更多的问题实现了高通过次数(例如,32B模型在多数试验中正确回答了更大比例的问题)。这表明基础模型的能力随规模提升而增强,这意味着一个足够大的模型在足够多的尝试下可以可靠地解决许多问题。在训练数据选择方面,作者关注中等难度的题目,这些题目既非总是被解决,也非完全无解。具体而言,作者使用3B模型的筛选结果:通过次数为0(所有试验均错误)或≥7(在16次试验中至少正确7次)的问题均被移除。这保留了较小模型既不认为显而易见也不认为不可能的问题,假设这些中等难度的题目将从推理训练中获益最大。筛选后,纯文本数据集减少至16,512个问题,图像-文本数据集减少至115,456个问题。这些筛选后的数据集用于所有后续的3B、7B和32B模型训练,确保不同模型规模间的公平比较。
3.1 训练策略
作者在上述所述的不同策略下,对MeDVLTHINKER模型在过滤后的数据上进行训练。作者分别对文本数据和图像-文本数据执行SFT和RLVR,以分离每种数据模态的影响。此外,作者实验了两种组合策略:(a) 在文本数据上进行SFT,然后在图像-文本数据上进行RL(记作
𝟘
),以及(b) 在文本数据上进行RL,然后在图像-文本数据上进行RL(记作
RLO)。图2(B)展示了训练的变体。下面,作者将详细描述两种核心训练范式。
监督微调(SFT)。监督微调构成了作者流程的基础。作者从通用的预训练多模态语言模型(Qwen2.5-VL)开始,在精心策划的问答对(及其推理轨迹)上最小化token Level 的交叉熵损失。通过在高质量的CoT标注上进行教师强制学习,提供了密集的监督信号,使模型能够快速内化特定领域的医学知识、术语、答案格式以及临床解释的细微惯例。对于纯文本问题,作者使用DeepSeek-R1模型生成的长形式推理作为目标,对于基于图像的问题,作者使用GPT-4o生成的推理。这一SFT步骤教会模型模仿优秀教师的逐步推理过程。
可验证 Reward 强化学习(RLVR)。在SFT之后,作者使用RL以答案正确性为反馈进一步优化模型。作者采用组相对策略优化(GRPO),这是一种PPO变体,作用于一组采样输出。对于每个问题,作者从模型中采样
个推理轨迹展开(作者在实验中使用
)。一个确定性验证器检查每个输出:如果答案以预期格式给出(例如,模型生成由特殊 Token 界定的一系列思维链,然后给出最终答案选项),并且最终答案正确,则分配 Reward
;否则,分配 Reward
。作者对这些二元 Reward 在输出组中进行归一化(白化)以获得优势估计。GRPO算法使用PPO风格的裁剪目标更新模型策略,其中通常学习到的价值函数被替换为基于组的优势计算。这产生了一个KL正则化的对比策略更新,稳步推动模型生成更多可验证正确的推理轨迹(即推理正确答案的推理),同时约束其保持在行为策略附近(以避免退化)。重要的是,RLVR不需要显式的CoT标注,只需要一种可靠的方法来验证最终答案的正确性,使其成为使用相同数据增强推理的吸引人方法。在作者的设置中,所有问题都是选择题或具有客观正确答案,因此 Reward 信号自动获得。
4 实验
4.1 实现细节
作者使用
预训练权重初始化模型。对于SFT,作者使用32的批大小和
的学习率对模型进行3个epoch的微调。对于RLVR,作者在纯文本数据上使用GRPO进行5个epoch的训练,在图像-文本数据上进行1个epoch的训练,学习率为
。对于纯文本RL,作者设置总批大小为128(足以对每个问题采样8个 rollout),对于图像-文本RL,作者设置总批大小为256(因为每个样本包含图像特征)。对于在第二个数据集上继续进行RL的实验(例如,在
上进行SFT后,在PMC-VQA上应用RL),作者在第二阶段将批大小减少到64,以适应更长的序列长度(图像+CoT+答案序列的组合可以达到
个token)。所有模型均在
GPU机器上使用混合精度进行训练。
4.2 评估
作者在六个多模态医学问答基准数据集上评估了MEDVLTHINKER,这些数据集可以分为两类:(1)通用领域医学问答和(2)模态特定问答。通用领域的评估包括PMC-VQA的测试集(Zhang等人,2023)(由于MEDVLTHINKER在它训练数据的一个过滤子集上训练,因此直接进行比较),MMMUHealth的验证集(Yue等人,2024)(MMMU基准的健康与医学部分),以及MedXpertMM(Zuo等人,2025),这是一个需要复杂推理的具有挑战性的基准,它要求对多模态输入进行推理。模态特定评估包括PathVQA(He等人,2020)(病理图像)、SLAKE(Liu等人,2021)(裂隙灯眼科图像)和VQA-Rad(Lau等人,2018)(放射学X光片)。这些六个数据集共同涵盖了广泛的医学视觉问答场景,从通用的生物医学知识到高度专业的成像任务。
对于每个基准测试,作者报告了准确率(正确回答问题的百分比)。模型响应使用贪婪解码(温度0)生成,以评估基础能力而不引入采样方差。作者注意到,即使使用确定性解码,推理引擎中的轻微非确定性(由于浮点精度)也可能导致微小变化;因此,作者对每个评估运行3次,并报告平均准确率(标准差低于0.1,并在附录中提供以供完整性)。在结果表中,作者使用符号
表示在纯文本(m23k)数据上训练的模型,以及
表示在图像-文本(PMC-VQA)数据上训练的模型。例如,"SFT"表示在纯文本CoT数据上进行微调的模型,而"RL+RL
"表示首先在纯文本数据上使用RL训练,然后在图像-文本数据上进一步使用RL训练的模型。
4.3 结果
训练范式的影响(监督微调 vs. 基于强化学习的视觉推理)
训练数据的影响(纯文本与图文)。训练数据模态的选择也有显著影响。从表1可以看出,在纯文本数据上进行训练往往比在图文数据上进行训练能获得更好的结果。例如,7B RL
(平均)优于RLO
(平均)。然而,在纯文本CoT数据上进行SFT始终对性能产生负面影响,相对于基础模型,7B
为
,而多模态数据上的SFT在一些基准测试上略有提升(例如,PathVQA、SLAKE上提升+1-2%),但总体平均性能相当(SFTO
vs 基础模型
)。作者假设,从基于文本的LRM(DeepSeek)中提炼出的长文本纯文本推理可能无法很好地与需要解释图像的多模态模型的需求相匹配。虽然基于图像的数据存在噪声,但至少在训练过程中启用了模型的视觉处理能力,这或许可以解释为什么SFTO不会显著降低性能。尽管如此,最大的提升来自于在纯文本数据上的RLVR,它显著提升了性能(例如,与基础模型相比,3B提升+4 . 0 5%,7B提升+1 . 3 8%)。多模态数据上的RLVR也优于基础模型,但提升程度较小。这些结果表明,在RLVR中,高质量的文本QA数据(具有可验证答案)比更大但更嘈杂的基于图像的数据对于训练多模态模型的推理能力更有价值。提高多模态训练数据的质量仍然是一个重要的挑战(参见讨论)。
组合训练策略。作者还评估了将纯文本训练和图像文本训练相结合是否能够带来进一步的好处。尝试了两种组合:先在文本上进行SFT,然后在图像上进行RL(SFT@+RL),以及先在文本上进行RL,然后在图像上进行RL(RL^P+RL^O)。如表1所示,这两种策略均未在单模态RL训练中带来增益。事实上,对于7B模型,SFT+RL(平均53.07%)的表现不如单独的RLO(53.66%),而RL^O+RL(49.77%)则落后于RL(54.88%)。对于3B模型,观察到类似的结果。结果表明,在模型在纯文本数据上优化后,添加图像文本数据(即使通过RL)会阻碍推理能力,导致性能整体下降。作者得出结论,在作者的研究中,最佳方案是直接在高质量的纯文本推理数据集上应用RLVR。这为3B和7B模型都产生了最佳结果。在大多数情况下,在图像数据上添加SFT阶段或额外的RL阶段并无帮助,在最坏的情况下,反而降低了准确率。
模型规模的影响。增大模型规模显然能在各个方面提升性能。在所有对应设置中,7B模型均优于3B模型(比较表1中的行)。例如,基础7B平均比基础3B高4.36%;RL 7B比其对应3B高1.69%;SFTO 7B比SFTO 3B高0.56%。在某些基准测试(如MedXpert-MM,这是一个特别具有挑战性且需要复杂推理的测试)中,差距更为明显:最佳7B RL@达到24.43%,而最佳3B为22.90%;7B SFTO达到16.40%,而3B为16.00%(两者都相当低)。这一趋势表明,更大的模型具有更强的学习医学知识的能力,并能从推理训练中获益。推向更大的规模可能会继续带来收益(作者在下方测试了一个32B模型)。
与先前模型的对比。在表2中,作者将作者的MEDVLTHINKER模型与先前开源的医学视觉语言模型(VLMs)以及基于GPT4的模型进行了比较。作者的7B RLVR训练模型取得了平均分数
,比HuatuoGPT-Vision-7B-Qwen2.5(平均
)的报道性能高出
,并且也高于LLaVA-Med v1.5(Mistral-7B)(其确切分数不可用,表中 Token 为“ ”)。在MedXpert-MM等通用领域基准测试中,作者的优势更大:MEDVLTHINKER-7B的分数为
,而HuatuoGPT-Vision的分数为
。这证明了作者专注推理训练的好处。HuatuoGPT-Vision主要是在多模态数据上进行指令微调训练的(并且有一点)。
RLHF,并且在具有挑战性的推理问题上表现不佳。作者还注意到,HuatuoGPTVision在多模态微调后,在通用医疗问答任务上的性能大幅下降(类似于作者观察到的图像数据上的SFT会损害通用问答性能的现象)。相比之下,作者的RLVR方法在不产生此类权衡的情况下提升了性能。最后,作者的MepVLTHINKER-32B(仅文本上的RL)平均准确率达到63.12%,超越了GPT-4o-mini模型(58.24%)并在这些基准测试上与完整的GPT-4o(63.74%)基本持平。这是一个显著的结果:它表明,在具有足够大的模型规模和适当的训练下,开源模型可以在特定任务上接近专有模型(如GPT-4)的性能。作者强调,作者的整个训练流程、数据和模型都是开源的,为社区提供了构建的基础。
定性结果。作者在图4(案例研究)中提供了一些MEDVLTHINKER输出的实例,以说明RLVR训练前后推理质量的差异。
5 结论
在本工作中,作者提出了MEDVLTHINKER,这是一套通过将大型视觉语言模型与先进的推理训练范式相结合而构建的多模态医疗推理 Baseline 模型。作者系统研究了监督CoT微调与强化学习(基于GRPO的RLVR)在教导多模态模型推理医疗问题方面的效果。作者的实验表明,RLVR在提升模型性能方面显著优于CoT微调,尤其是在使用高质量纯文本医疗QA数据时。作者还发现,在纯文本数据上训练的模型比在图像-文本数据上训练的模型泛化能力更好,这突显了当前多模态语料库中的数据质量问题。通过在多个尺度上训练模型,作者证明了更大的模型规模具有明显优势:作者的7B MEDVLTHINKER在六个基准测试中取得了开放模型的顶尖结果,而32B变体则达到了与基于GPT-4的竞争对手相当的水平。作者的工作不仅为社区提供了强大的 Baseline 模型,还提供了多模态推理训练策略的见解。在未来的工作中,作者计划解决已识别的限制(数据质量、课程、更广泛的任务),并希望MeDVLTHINKER能够启发可靠且透明的医疗AI的进一步研究。
局限性
MEDVLTHINKER旨在推动多模态医疗问答的发展,但仍存在一些局限性需要承认。首先,图像-文本训练数据(PMC-VQA)的质量是一个问题。由于该数据集是由大语言模型合成生成的,可能包含噪声和偏差,从而限制了基于该数据集进行训练的收益。未来的改进需要要么清理这些数据,要么获取更高质量的人工标注多模态数据。其次,作者的基于难度的过滤策略是静态的,基于3B模型的性能。这可能对更大的模型不是最优的;更动态的或模型特定的课程可能能获得更好的结果。第三,作者的RLVR训练相对较短且任务特定,仅利用了问答格式的 Reward 。因此,模型专门针对问答任务格式,而可能无法泛化到其他交互(例如,多轮对话或解释性回答)而不进行额外的微调。最后,尽管作者测试了32B模型,但即使是更大的模型或更多样化的预训练可能也需要来捕捉现实世界医疗推理的完整复杂性。作者发布MEDVLTHINKER和代码,希望社区能够在此基础上解决这些局限性。
参考
[1]. MEDVLTHINKER: Simple Baselines for Multimodal Medical Reasoning
