告别人工标注!强化学习首次用于医学图像定位,Qwen2.5-VL模型在MS-CXR上准确率达83.12%

大模型向量数据库云存储

点击下方名片,关注「集智书童」公众号


picture.image

精简阅读版本

本文主要解决了什么问题

医学图像定位(Medical Image Grounding, MIG)任务中复杂的推理需求 :医学图像定位不仅要求模型精确定位特定区域,还需要理解解剖结构、病理特征及其空间关系,这对传统方法提出了挑战。

对大量思维链(CoT)标注的依赖问题 :现有方法通常依赖大量人工标注的CoT数据进行监督微调(SFT),成本高昂且效率低下。

现有模型缺乏对推理过程的建模 :多数方法采用端到端方式,难以处理语义相似区域或模糊边界结构,导致复杂场景下性能下降。

本文的核心创新是什么

首次将强化学习(RL)应用于医学图像定位任务 :基于GRPO(Group Relative Policy Optimization)框架,无需依赖CoT标注即可训练视觉语言模型(VLMs)进行推理。

提出空间语义 Reward(Spatial-Semantic Reward)机制 :结合空间精度(IoU)和语义一致性(MedCLIP)两个维度,对预测结果提供细粒度反馈,尤其对空间负向补全进行有效评估。

引入链式框推理模板(Chain-of-Box Prompt) :在推理过程中显式整合边界框的视觉信息,使模型在中间步骤中能够结合文本与视觉上下文进行多模态推理。

结果相较于以前的方法有哪些提升

在三个医学图像定位数据集(MS-CXR、ChestX-ray8、M3D-RefSeg)上均取得SOTA性能

  • • 在MS-CXR上,mIoU达到79.02,Acc为83.12,分别比BiRD提升5.69和7.07个百分点。
  • • 在ChestX-ray8上,mIoU为53.12,Acc为62.18,分别提升4.90和12.06个百分点。
  • • 在M3D-RefSeg上,mIoU为60.10,Acc为74.66,分别提升8.08和4.48个百分点。

定性结果验证模型定位准确性更高 :可视化结果显示,MedGround-R1在复杂解剖结构或模糊表达下也能更准确地定位目标区域,优于现有方法。

消融实验证明各组件有效性 :空间语义 Reward 和链式框模板对模型性能有显著贡献,GRPO训练策略在小样本下比SFT更稳定。

局限性总结

依赖预训练视觉语言模型和MedCLIP语义模型 :模型性能受限于所使用的预训练模型(如Qwen2.5-VL、MedCLIP)的质量和泛化能力。

计算资源需求较高 :GRPO训练机制涉及多次采样和Reward计算,训练成本相对较大。

仅在2D图像数据上验证,未扩展至3D医学影像 :虽然M3D-RefSeg包含3D数据,但作者仅提取2D切片进行实验,未验证方法在完整3D空间中的表现。

未测试在临床实际场景中的泛化能力 :尽管在公开数据集上表现优异,但缺乏在真实医院环境或跨模态数据中的部署验证。

深入阅读版本

导读

医学图像定位(MIG),即基于文本描述在医学图像中定位特定区域,需要模型不仅能够感知区域,还能推理这些区域的空间关系。现有的用于MIG的视觉语言模型(VLMs)通常依赖于大量思维链(CoT)推理标注的监督微调(SFT),而获取这些标注既昂贵又耗时。最近,DeepSeek-R1证明了大语言模型(LLMs)可以通过群体相对策略优化(GRPO)无需CoT标注来获得推理能力。在本文中,作者将GRPO强化学习框架应用于医学图像定位的VLMs。作者提出了空间语义 Reward 群体相对策略优化(Spatial-Semantic Rewarded GRPO)来训练模型,无需CoT推理标注。具体而言,作者引入了空间语义 Reward ,它结合了空间精度 Reward 和语义一致性 Reward ,为空间上正负的完成提供细致的反馈。此外,作者提出了使用链式框模板,将引用边界框的视觉信息整合到推理过程中,使模型能够在中间步骤中明确地推理空间区域。在MS-CXR、ChestX-ray8和M3D-RefSeg三个数据集上的实验表明,MedGround-R1在医学图像定位中达到了最先进的性能。消融研究进一步验证了MedGround-R1中每个组件的有效性。

代码、预训练权重和数据集:https://github.com/bio-mlhui/MedGround-R1

1 引言

医学图像定位[13,3,20]是计算机辅助诊断[25,8]中的关键任务,要求模型根据文本描述[19]在医学图像中定位特定区域。与通用图像定位不同,医学领域的这项任务通常需要对解剖结构、病理特征及其关系进行复杂的推理,因此模型不仅需要精确定位,还需要进行有效且富有意义的推理。例如,定位"靠近左肺的肿大淋巴结"这样的短语需要理解空间关系和医学背景,这超越了医学图像中简单的模式识别[17,24]。这种推理能力对于准确且可解释的预测至关重要,特别是在复杂医疗场景中,感兴趣区域可能重叠或边界模糊。然而,现有方法[6,13,4]往往难以融入这种推理能力,限制了它们在复杂医疗任务中的表现。

现有的面向MIG的视觉语言模型(VLMs)[9]主要依赖大量CoT推理标注的监督微调(SFT),而获取这些标注既昂贵又耗时。此外,这些方法通常专注于端到端定位,而没有显式地对推理过程进行建模,导致在复杂场景中性能欠佳。例如,它们可能无法区分语义相似的病理区域,或错误解释空间关系,尤其是在处理模糊或重叠结构时。虽然近期的研究[29]尝试通过多阶段流程整合推理,但它们通常需要大量 Token 数据,而这些数据的获取成本很高。

近期,DeepSeek-R1 [7] 和 DeepSeek-Math [16] 引入了组相对策略优化(GRPO),这是一种强化学习框架,使模型能够在无需思维链(CoT)标注的情况下发展推理能力,其性能与 OpenAI o1 系列相当甚至更好。通过利用强化学习的自进化策略,GRPO 使模型能够自主发现推理模式,如ego验证和反思,同时显著降低对监督数据的依赖。这一突破为计算机辅助诊断 [18,5,27] 中的图像定位开辟了新的可能性,在推理至关重要但 Token 数据稀缺 [26] 的场景中尤为重要。

为此,在本文中,作者提出了首个基于强化学习(RL)的医疗图像定位(MIG)框架,将GRPO技术应用于训练视觉语言模型(VLMs),无需使用思维链(CoT)标注。作者引入了空间语义 Reward 的组合,为空间负向补全提供细致的相对评估。作者提出使用新颖的链式框推理模板,该模板明确地将指称边界框的视觉信息整合到<思考>过程中,使VLMs在中间步骤中能够结合视觉和文本上下文进行推理。作者在三个公开可用的医疗数据集上进行了全面的实验,包括MS-CXR [6]、ChestX-ray8 [21]和M3D-RefSeg [1],证明MedGround-R1在MIG上实现了定量和定性方面的最先进性能。消融实验进一步验证了每个组件的有效性。

2 方法

如图1所示,在每一步训练中,给定一张医学图像和一个指代表达式,使用保存了

步之前的一个旧策略模型

来随机采样一组

个不同的补全结果。对于每个补全结果,作者计算三种类型的 Reward 。格式 Reward

使用正则表达式来评估补全结果是否遵循模板中预定义的格式。空间 Reward

计算预测边界框与真实边界框之间的IoU(IoU),这可以被视为空间精度。语义 Reward

利用冻结的MedCLIP [22,12,8]来评估每个补全结果中感兴趣区域(ROI)的边界框与指代表达式的语义相似度。然后,将这三种 Reward 的总和进行归一化,以计算每个 Reward 的相对优势

。为了保留原始预训练知识,设计了一个冻结的参考模型

。当前模型的优化使用组相对策略优化(GRPO)目标

[7,16]进行。模板中的绿色部分对应于Chain-of-Box Prompt 。

picture.image

需要注意的是,与之前的基于视觉语言模型的方法[9]不同,MedGround-R1在训练过程中不需要任何CoT标注或推理数据,仅需要真实参考框。

2.1 群组相对策略优化预备知识

DeepSeek-R1 [7] 是首个开源的大语言模型,其性能与 OpenAI 的 o1 系列等闭源模型相当甚至更优。DeepSeek-R1 的核心进步在于群体相对策略优化(GRPO)[16,7],这是一种强化学习算法,旨在无需大量思维链(CoT)标注即可提升大语言模型的推理能力。

与依赖监督微调(SFT)或大量思维链(CoT)标注的方法不同,GRPO利用LLM的内在潜力,通过纯粹的强化学习过程实现ego进化。通过将RL直接应用于基础模型,GRPO使模型能够自主发展复杂的推理行为,例如ego验证和反思。

形式上,给定一个问题

,GRPO 首先从

步前保存的旧模型

中采样一组

个不同的完成集

。通常设计一个 Reward 模型

(另一个大语言模型或任何标量函数)来评估每个解决方案的相对优势:

表示为

预测的

的后验分布,考虑以下目标进行最大化:

如果在某个补全

具有更强的相对优势

,那么

𝓷

被预期比

更可能生成

。为了保留原始预训练的知识,通常会使用一个参考模型

,即RL之前的模型:

其中

是KL散度的超参数。为了稳定训练,引入了截断 [15,16] 来构建最终目标:

其中

是裁剪超参数。公式4中的形式使GRPO能够通过利用基于组的相对 Reward 来高效优化策略模型,从而无需单独的评估者模型[15],并显著降低了计算开销。

2.2 医学图像定位的 Reward 格式

格式 Reward 。遵循DeepSeek-R1 [7],格式 Reward

确保模型的输出符合预定义的结构。具体而言,输出必须将其推理过程包含在和标签内,并在其后以和标签包含最终答案。此外,在定位任务中,标签必须在格式中额外包含一个边界框,格式为

。这两种 Reward 均通过正则表达式实现。7 8 如果输出同时匹配这两种模式,表明其符合要求的格式并包含有效的边界框,则 Reward 为1。否则, Reward 为0。

2.3 空间语义一致性 Reward

IoU作为空间一致性 Reward 。为了评估每个完成预测边界框的空间精度,计算真实边界框与预测边界框之间的IoU(IoU)

。如果IoU超过0.5的阈值, Reward 为1;否则, Reward 为0。这个 Reward

可以看作是衡量每个完成相对于真实边界框的空间一致性。

尽管

足以评估空间精度,但它无法评估其与真实值的语义一致性。作者的见解是,空间上负面的补全可能在语义上是正面的,这意味着其中一些可能与真实值属于同一语义类别,因此应比那些既非空间上也非语义上为正的补全分配更大的优势。

为解决这一局限性,作者引入语义一致性 Reward

。作者利用冻结的MedCLIP [22],计算完成部分的裁剪边界框ROI特征与指代表达式特征之间的余弦语义相似度。

Reward 提供了一种连续的 Reward 信号,能够捕捉预测区域与指代文本之间的语义对齐关系,即使预测的框在空间上与真实值没有重叠。

2.4 基于链式框模板的医疗图像定位

与DeepSeek-R1 [7] 不同,后者在标签内的推理过程仅涉及纯文本信息,作者提出了专为医学图像定位任务设计的Chain-of-Box Prompt ,用于视觉语言模型。作者的核心洞察在于,医学图像定位任务要求模型在推理步骤中需对图像内的空间局部区域及其关系进行推理。推理过程本质上涉及将注意力转移到不同的感兴趣区域(ROIs)。

如图1所示,每当模型引用图像中的ROI区域时,它会在区域文本后明确附加相应的边界框坐标

。这种Chain-of-Box方法确保了视觉信息能够无缝地融入推理上下文中,使VLMs能够有效地执行多模态推理。

3 实验

数据集。作者在三个公开可用的数据集上评估了MedGround-R1。第一个数据集是MS-CXR [3],源自MIMIC-CXR [11],包含1,153个图像-短语-边界框三元组。遵循MedRPG [6]的方法,作者对数据进行预处理,以确保每个短语 Query 对应单个边界框,最终得到890个样本。第二个数据集是ChestX-ray8 [21],这是一个用于诊断八种常见胸部疾病的大规模数据集。它包含984张病理图像,并带有手动标注的边界框。作者采用MedRPG [6]的预处理方法,使用类别标签作为短语 Query 来构建图像-文本-边界框三元组。第三个数据集是M3D-RefSeg [1],它由来自Totalsegmentator [23]数据集提取的2,778个 Mask -文本-体积三元组组成。为了适应2D定位任务,作者从每个3D体积中提取正面切片,并将分割 Mask 转换为边界框。

方法比较。作者将MedGround-R1与七种最近的最先进方法进行比较,包括LViT [13]、MedRPG [6]、CausalCLIPSeg [4]、ChEX [14]、GuideDecoder [28]、RecLMIS [10]以及一种基于视觉语言模型的方法BiRD [9]。对于基于分割的方法 [13,4,28,10],作者将它们的输出 Mask 转换为边界框以进行对比。每种方法都采用了其原始论文中的超参数设置。值得注意的是,BiRD [9]在其原始论文中基于Qwen2-VL进行了微调。为确保公平比较,作者根据与作者的设置相同的Qwen2.5-VL [2]重新训练了BiRD。

评估指标。作者遵循MedRPG [6]中建立的协议来评估所有方法。具体而言,作者报告准确率(Acc),其中如果预测区域与真实边界框的IoU(IoU)超过0.5,则认为预测区域正确。此外,作者还报告平均IoU(mIoU)指标,以提供更全面的定位精度比较。

实现细节。MedGround-R1基于在所提出的强化学习框架下对Qwen2.5-VL [2]进行微调。作者为每个GPU使用1的批处理大小,并采用2步梯度累积。模型训练5K步,初始学习率为

。作者采用混合精度训练,使用bfloat16、梯度预训练权重和Flash Attention来优化计算效率。作者在实验中设置

。最大完成长度设置为256。更多关于超参数的消融研究在Sec. 3.2中展示。

3.1 与SOTA方法的比较

MedGround-R1在所有三个数据集上均实现了最先进的性能,显示出相对于现有方法的显著改进。在MS-CXR上,作者实现了79.02的平均IoU(mIoU)和准确率(Acc)

在83.12上,MedGround-R1优于之前最佳方法BiRD,分别提高了5.69和7.07个百分点。在ChestX-ray8上,MedGround-R1达到了53.12的mIoU和62.18的准确率,分别超越了BiRD 4.90和12.06个百分点。对于M3D-RefSeg数据集,MedGround-R1实现了60.10的mIoU和74.66的准确率,分别优于BiRD 8.08和4.48个百分点。所有数据集上的一致性能提升验证了作者提出的强化学习框架的有效性,特别是空间语义 Reward 和盒链推理模板的集成,共同提升了 grounding 准确率。

视觉比较 如图2所示,定性结果进一步证明了MedGround-R1的优势。视觉比较表明,与其它方法相比,MedGround-R1预测的边界框与真实标签(GT)显著更加吻合。这种吻合性在具有复杂解剖结构或模糊指代表达的情况中也同样明显,例如第1行和第3行,MedGround-R1的空间和语义推理能力确保了精确定位。例如,在多个感兴趣区域重叠的情况下,MedGround-R1始终能正确识别正确区域,而其它方法往往产生不准确或过于宽泛的边界框。

picture.image

3.2 消融研究

的不同设置

代表每个训练步骤中采样的完成数量。所有模型都在MS-CXR上使用5K步进行微调。如表2所示,随着

的增加,性能得到提升。然而,

的较大值也会导致每个训练步骤的计算成本增加,包括采样和为每个完成计算 Reward 所需的时间。性能与计算效率之间的这种权衡必须仔细考虑。

不同的 Reward 组合。

在策略决策中扮演不同的角色。所有模型均在MS-CXR上使用5K步进行微调。如表3所示,移除格式 Reward

会导致性能下降。作者发现一些输出无效,且不符合标准框模式。没有空间 Reward (直接评估预测框与真实框之间的准确性),性能会显著崩溃。移除语义 Reward

导致性能适度下降,因为它为空间负向补全提供细致的相对评估,区分语义相关的预测与无关的预测。这些结果证实,这三种 Reward 对于鲁棒性能都是必要且有效的。

SFT、GRPO、链式框模板。如表4所示,作者在两种模式下微调VLM:SFT(最大化真实框的下一个token概率)和GRPO,并在MS-CXR上使用不同的训练步数。由于训练集较小,SFT倾向于过拟合,这从1k步到3k步的性能下降中可以看出。相比之下,GRPO保持了稳定的性能。此外,与DeepSeek-R1-零中使用的原始GRPO模板相比,链式框模板被证明在MIG中的多模态推理性能提升方面是有效的。

4 结论

在本工作中,作者提出了一种基于强化学习(RL)的医学图像定位框架,利用组相对策略优化(GRPO)。为使DeepSeek-R1 GRPO适应视觉语言模型(VLMs),作者引入了两个关键创新:(1) 结合空间语义 Reward ,为空间负向补全提供细致的相对优势;(2) 链式框 Prompt 模板,明确将视觉信息整合到中间推理步骤中。在三个数据集上的大量实验表明,MedGround-R1具有优越性,实现了当前最佳性能。消融研究进一步验证了每个组件的有效性。

参考

[1]. MedGround-R1: Advancing Medical Image Grounding via Spatial-Semantic Rewarded. Group Relative Policy Optimization

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论