点击下方卡片,关注「集智书童」公众号
导读
SAM展示了强大的零样本能力;然而,当应用于医学图像分割时,其准确性和鲁棒性显著下降。现有方法通过模态融合来解决这个问题,将文本和图像信息整合以提供更详细的先验信息。在本研究中,作者认为文本的粒度和领域差距会影响先验信息的准确性。此外,图像中High-Level抽象语义与像素级边界细节之间的差异可能会在融合过程中引入噪声。
为了解决这个问题,作者提出了先验引导的SAM(PGSAM),该模型采用细粒度模态先验对齐器,利用专业医学知识以实现更好的模态对齐。PG-SAM的核心在于利用医学LLM的细粒度文本有效地解决领域差距,同时也在模态对齐后提升了先验信息的质量,确保更准确的分割。此外,作者的解码器通过多级特征融合和迭代 Mask 优化器操作增强了模型的表达能力,支持无 Prompt 学习。作者还提出了一种统一的流程,有效地为SAM提供高质量的语义信息。在Synapse数据集上的大量实验表明,所提出的PG-SAM实现了最先进的性能。
代码:https://github.com/logan-0623/PG-SAM
1 引言
多器官分割是医学图像分析的核心任务,旨在准确分离多个器官。分割任何事物模型(Segment Anything Model,SAM)[21]展示了其广泛的应用潜力[13,16,19,24,25,31,33]。该模型的成功在于其能够适应各种不同的医学图像分割任务。
SAM依赖于精确的 Prompt 。然而,传统的SAM方法耗时,依赖领域专业知识,且容易受到人为错误的影响[12,23,32,37]。为了解决这些挑战,最近的研究集中于无 Prompt 方法,以提供更简单、更高效的分割解决方案[8,14,34,36,30]。这些方法利用先验信息来帮助解码器进行更好的分割。
受多模态学习启发,最近的方法利用文本信息生成先验以增强分割[1,5,18,23]。然而,这些方法忽略了从视觉-语言模型(VLMs)中提取的语义表示在很大程度上是抽象的和非像素级的,这可能会引入噪声。此外,文本描述的粒度会影响先验的质量;粗略的描述会导致与图像特征的较差对齐,从而降低分割精度[23]。在本工作中,作者提出缩小语义信息与像素级边界信息之间的差距可以改善分割并减轻噪声。
文本-视觉对齐方法在指导SAM方面展现出潜力。基于 Prompt 学习的方 法[11]通过与CLIP[27]对齐生成视觉描述,提供了有价值的文本-视觉信息。然而,这些方法受文本粒度限制的困扰,这影响了模态对齐。此外,缺乏专门的分割阶段使得捕捉细粒度图像细节变得困难,如图1(a)所示。相比之下,TPDRSeg[23]直接将显式文本与CLIP对齐,并生成先验信息以辅助SAM,提供了更细粒度的信息。然而,它依赖于由专家验证的眼科学文本,并且由于VLM依赖于自然图像训练而面临对齐问题,如图1(b)所示。同时,SEG-SAM[18]使用LLM提供文本信息,利用交叉注意力计算相似性,并将语义信息更有效地引入SAM,如图1(c)所示。然而,它仍然面临粒度问题,并且没有充分利用VLM的零样本能力,这可能会影响其泛化能力。
为此,作者提出了先验引导的SAM(PG-SAM),一个高效的流程,它提供领域自适应的细粒度先验,并缓解了领域差距问题,如图1(d)所示。具体来说,作者引入了一种细粒度模态先验对齐器,该对齐器利用医疗LLMs将大规模模型的流畅性与医疗专业人士的领域专业知识相结合,从而在复杂医疗场景中表现出色,并向CLIP提供更详细、更具体的语义信息。此外,作者使用低秩适应(LoRA)[15]对CLIP进行医疗领域的微调,提供更准确的语义先验。虽然这些先验补充了SAM的嵌入,但CLIP的图像特征专注于抽象语义,缺乏像素级细节,这可能导致简单的融合方法模糊SAM的嵌入,阻碍细粒度特征的保留。为了解决这个问题,作者设计了一个新的解码器,通过多级融合增强特征提取,减少噪声带来的细节损失,并促进CLIP和SAM之间的知识共享。最后,通过利用迭代 Mask 优化器,作者动态地微调每个类别的 Mask 权重,增强特征表达,并使对小器官细节的区分更好。在Synapse数据集上的大量实验表明,所提出的PG-SAM实现了最先进的性能。
总体而言,作者的贡献有三方面:
-
- 作者提出了一种细粒度模态先验对齐器,该对齐器结合High-Level语义和视觉信息,为所有类别生成高质量的先验。
-
- 作者引入了一种新颖的解码器,通过多级特征融合和 Mask 微调器来提升 Mask 质量。
-
- 作者提供了一种统一的流程,简化了过程,同时通过融入医学知识丰富了无 Prompt 方法。实验结果表明,PG-SAM提高了多器官分割性能,在Synapse数据集[22]上优于现有最佳性能。
2 研究方法
2.1 概述
图2展示了PG-SAM的整体概览,该方法由三个协调的关键组件组成:细粒度模态先验对齐器,如第2.2节所述;多级特征融合,如第2.3节所述;以及迭代 Mask 优化器,如第2.4节所述。PG-SAM首先为每张图像生成细粒度的文本描述,将它们结合以生成语义先验,称为语义引导矩阵,以辅助解码过程。然后,多级特征融合模块促进文本引导的显式先验和多级视觉特征之间的知识共享。最后,在迭代 Mask 优化器中,通过 Mask Token 为每个类别提供候选 Mask , Mask 细化器优化这些分割细节。
2.2 精粒度模态先验对齐器
对齐器采用医学-LLM生成解剖精确的文本 Prompt ,其临床特异性增强了语义引导,如图3所示的锐化 Heatmap 模式所示。然后,对齐器通过四个关键操作连接医学影像和文本领域:首先,一个经过LoRA调整的SAM编码器提取多尺度视觉特征
;同时,一个CLIP编码器将医学-LLM增强的文本 Prompt 处理成嵌入
,其中
代表文本特征的维度,
表示批量大小。此过程确保了精细粒度语义信息的准确捕捉,为后续的多模态对齐提供了坚实的基础。接下来,作者计算动态相似度权重:
表示一个可学习的投影,它将 CLIP 的全局相似度映射到空间权重,
。这种设计通过余弦相似度测量显式量化了跨模态语义对齐。然后作者构建空间注意力矩阵
。它通过层归一化点积注意力增强了像素间关系。
其中
表示特征图中的通道数。
最后,最终的引导矩阵
通过通道广播和双级归一化,将注意力精炼的特征与相似度权重相结合:
其中
表示层归一化算子,
表示具有广播功能的逐元素乘法。
2.3 多级特征融合
现有直接在低分辨率特征图上预测 Mask 的方法往往导致边界模糊[35],而简单的双线性上采样会丢失关键的高频细节[29]。为了解决这些问题,作者提出了一种基于可学习特征重组的多级融合模块。
作者采用如图1所示的跨尺度特征融合与金字塔上采样架构,并通过步长为2的转置卷积实现双线性空间扩展。两阶段上采样过程可表示为:
是 Transformer 的输出特征图。这种具有每阶段 2 倍分辨率增加的分层设计,结合 LN-GELU 模块,有效地调节了梯度 Stream ,与单步上采样相比,显著抑制了棋盘格伪影[26]。有意采用 4:2:1 的通道压缩比,以实现高频细节的逐步恢复,同时在整个过程中保持计算效率。
为了进一步提高空间感知能力,作者采用可变形卷积,精确地对齐引导矩阵
与沿空间维度的上采样特征,从而有效地捕捉到边缘和轮廓等在粗略特征中常被忽略的互补线索[1o]。随后,应用
卷积压缩通道维度,使引导信息与上采样特征的有效融合成为可能,最终实现跨模态特征的集成增强:
表示用于通道减少的
卷积,
代表应用于引导矩阵的仿射变换,而
包含可学习的变形参数。
2.4 迭代 Mask 优化器
为了解决初始 Mask 预测中的粗糙边缘问题[35],作者提出了一种迭代 Mask 优化器,其包含两个核心组件:
实例自适应核生成。为了平衡通用特征提取与实例特定自适应,作者设计了一个超网络,用于生成动态卷积参数。对于一个具有 Mask 编码
的实例
,一个MLP通过以下方式生成动态卷积核参数
:
其
中
在此方程中,
表示共享基础核,而
表示通道-wise 查哈德积 [20]。该设计通过两个关键方面实现适应性:(1)基础核
从不同实例中提取通用特征;(2)动态权重
编码实例特定的几何信息,通过门控机制调节通道响应,以有效适应各种物体形态。
渐进残差细化。作者通过迭代残差校正来实现 Mask 优化。第
次迭代的操作:
代表1000ask ,
表示通道级联,
是一个可学习的步长系数,
将输出值约束在范围
内。训练目标。为了训练作者的分割模型,整体训练目标采用交叉熵和Dice相似度的组合:
其中,
表示低/高分辨率路径(56
56 和 224
224),超参数
控制它们的平衡。
3 实验
3.1 实验设置
数据集。作者在MICCAI 2015 Synapse 多器官CT数据集 [22] 上进行评估,该数据集包含3,779张对比增强腹部CT切片(其中2,212张用于训练)。遵循SAMed [36] 和 H-SAM [9],作者使用18/12个病例进行训练/测试,切片分辨率为
。评估涵盖了八个器官:主动脉、胆囊、脾脏、肾脏、肝脏、胰腺和胃。
实现细节。作者在RTX 4090 GPU上实现训练,并使用与H-SAM兼容的增强方法。最大训练轮数设置为300,使用AdamW优化器,其中
、
和权重衰减分别设置为0.9、0.999和0.1。此外,作者遵循与SAMed相同的LoRA配置,其中LoRA的秩设置为4。
3.2 与最先进方法的比较
如表1所示,PG-SAM在少样本和全监督场景下均表现出显著的改进。在10%标注设置下,PG-SAM在左肾分割(提升0.24%)和胃分割(提升2.73%)方面超过了现有最佳性能,同时将边界定位误差降低至
,与表现最佳的 Baseline 相比,显示出卓越的边界感知分割能力。在全监督设置下,PG-SAM在无 Prompt SAM变体中实现了最高的平均Dice系数(提升0.14%),特别是在具有挑战性的解剖结构方面取得了显著改进:脾脏(提升0.78%)、左肾(提升0.22%)和胆囊(提升3.61%)。与传统的全监督方法相比,PG-SAM在分割精度和边界精度两方面均实现了双重提升:1)在整体分割质量上超越了TransUNet(Dice提升7.31%)和SwinUNet(Dice提升5.66%),2)通过将边界误差从HD95=7.61降低至MERIT(降低5.61%),同时保持了可比的Dice性能(降低0.11%)。
这证明了PG-SAM在实现精确边界划分的同时,不会牺牲区域分割的准确性,展示了其独特的优势。
此外,PG-SAM在性能效率方面取得了显著成果,如图5所示,作者的实验结果证实了这一点。当将Hausdorff距离95(HD95)得分与可训练参数数量进行比较时,PG-SAM通过在利用显著少于现有最先进方法的参数的同时保持具有竞争力的或更优的分割精度,展现了其卓越的效率。尽管在少样本设置中运行在较低的分辨率(224×224与512×512相比),这可能会略微影响医学图像中的细节捕捉,但PG-SAM在整体上仍然具有竞争力。
3.3 定性结果
在这个例子中,作者选择胆囊作为语义引导的区域。图4(a)展示了一个 Heatmap ,突出了语义引导矩阵的关键关注区域,而图4(b)则展示了相应的分割结果。先验信息有效地引导了胆囊的定位:SAMed未能定位胆囊,H-SAM分割不准确,而PG-SAM既能定位又能准确分割胆囊。
3.4 消融研究
为了验证PG-SAM中的三个核心组件(FGMPA、MLFF和IMO)的有效性,作者在Synapse数据集上进行了消融实验,如表2所示。从实验I( Baseline )的均一度量值
开始,在实验II中加入FGMPA提升了跨模态对齐,导致增加了
。进一步在实验III中整合MLFF增强了特征融合,性能提升了
。最后,在实验IV中引入IMO通过迭代优化细化分割 Mask ,实现了最高的均一度量值
,与实验II相比最终提升了+4.69%。这些结果证明了结合所有三个组件的协同优势,每个组件都对整体分割精度做出了贡献。
4 结论
在本研究中,作者针对SAM在医学图像分割中的局限性进行了探讨,领域差距和不足的文本先验导致性能下降。为此,作者提出的PG-SAM集成了医学LLMs以提升分割精度。它引入了三个关键创新:
(1)一个细粒度模态先验对齐器,用于精确的解剖先验;
(2)一个多级特征融合模块,能够无缝地将全局语义上下文与局部结构细节相结合;
(3)一个迭代 Mask 优化器,逐步提高边界精度。
在Synapse数据集上的全面实验表明,PG-SAM超越了最先进的技术,提高了多器官分割精度,尤其是在复杂器官方面。
参考
[1]. PG-SAM: Prior-Guided SAM with Medical for Multi-organ Segmentation
扫码加入👉「集智书童」交流群
(备注:方向+学校/公司+昵称)