WeakMedSAM 医学分割 | 子类探索+Prompt亲和力，低成本实现精准定位 - 文章 - 开发者社区

点击下方卡片，关注

「集智书童」

公众号

picture.image

导读

作者见证了在视觉任务中基础模型取得的显著进步。目前，一些近期的工作利用了“任何分割模型”（SAM）来提升医学图像的分割性能，其中大部分研究集中于训练一个 Adapter ，以全监督的方式微调大量像素级标注的医学图像。在本文中，为了降低标注成本，作者研究了一种基于SAM的新型弱监督分割模型，即WeakMedSAM。

具体来说，作者提出的WeakMedSAM包含两个模块：

1. 为了缓解医学图像中的严重共现问题，引入了一个子类探索模块来学习准确的特征表示。
1. 为了提高类别激活图的质量，作者的 Prompt 亲和力挖掘模块利用SAM的 Prompt 能力来获得一个亲和力图，用于随机游走细化。

WeakMedSAM可以应用于任何类似SAM的 Backbone 网络，作者使用SAMUS和EfficientSAM进行了实验。在三个常用的基准数据集（即BraTS 2019、AbdomenCT-1K和MSD Cardiac数据集）上的实验结果表明，作者提出的WeakMedSAM具有很好的前景。

代码：https://github.com/wanghr64/WeakMedSAM

引言

分割任何模型（Segment Anything Model，SAM）[1]在计算机视觉领域取得了显著的成功，对其在各种下游分割任务中的应用兴趣日益增长[2]-[4]。其中，将SAM应用于医学图像分析领域[5]——一个历史悠久且重要的方向——正受到越来越多的关注。

这些基于SAM的改进模型[5]-[8]的共同目标是促进SAM在医学图像分割中的有效和高效适应。由于直接利用SAM进行医学图像分割的性能有时因任务差异而不尽人意，因此，如SAMed[7]、Med-SA[9]和MedSAM[8]等方法，通过利用下游医学数据集对SAM进行微调，显示出将SAM集成到医学图像分割中的潜力。最新的工作如Med-SA[10]、One-Prompt SAM[11]和SegAnyPath[12]开发了更高效的SAM适应医学图像的技术。然而，观察到这些方法遵循完全监督范式，需要大量的带有手动绘制像素级分割标签的医学图像数据集。众所周知，获取像素级标注是一个劳动密集型且耗时的工作，需要经验丰富的医生的专业知识，这显著阻碍了SAM适应分割在不同临床场景中的应用。这一观察突出了对减少劳动强度的方法以适应医学成像领域的需求。

作为一种流行的替代大规模标注负担的方法，弱监督分割（WSS）范式[13]越来越受到认可。WSS通常采用弱监督技术，例如图像级标签[14]-[16]、点[17]-[19]、涂鸦[20]-[22]或边界框[22]-[24]，作为一种绕过全面像素级监督必要性的手段。在这些弱监督方法中，本文聚焦于图像级标签，因为它们简单且无歧义，图像级标签是唯一的，而其他弱监督方法如点可能引入可能的歧义。

通过作者的实证和实验观察，作者已识别出与基于SAM的弱监督分割框架相关的几个挑战：

a) 使用弱监督进行的分割结果主要依赖于类间信息，即不同类别之间的区别（例如，肿瘤和健康组织，马和自行车），这使得每个类别都有其自身的任务相关激活区域。此外，类内区域是同一类别内经常共同出现的元素（例如，肿瘤和水肿，马和骑手），导致虚假的任务无关激活区域[25]-[27]。与自然图像相比，共现对医学图像的影响更为严重。对于像肿瘤这样的小分割目标，这种现象变得更加明显，现有的WsS方法往往难以有效处理这样的小目标。如图1所示，病变的周边区域与目标区域强烈共现，导致激活不准确，甚至仅激活错误的外围区域。WSS在医学成像中固有的这一挑战在使用基于SAM的模型时也会遇到。因此，作者想知道如何减轻由共现引起的误激活的类间区域？

picture.image

b) CAMs主要用于识别图像中最具判别性的区域，可能会引起过度分割或不足分割[13]。因此，CAMs的细化需要实施补充策略。然而，似乎没有免费的午餐。例如，基于亲和力的方法[28]通过训练辅助网络来细化CAM，从而引入额外的计算开销。相反，仅依赖于像素的方法，如条件随机字段（CRF）[29]、[30]，无法结合结构信息。因此，是否存在一种方法，不仅利用SAM的现有参数，而且利用医学结构信息来细化CAM？

为应对上述挑战，本文提出了一种新颖的弱监督医学图像分割框架，即WeakMedSAM。

具体而言，为了解决医学图像中的类内共现问题，一种可行的方法是将每个主要类别（例如，有肿瘤和无肿瘤）细分为几个子类别（例如，肿瘤类型的潜在变异）以划分类内表示。在训练之前，作者对属于同一主要类别的样本特征进行预聚类，以获取子类别标签。随后，作者将子类别分类任务与主要类别分类任务相结合。子类别分类头明确地学习类内表示，从而使主要分类头能够实现准确的类间激活区域。在作者的实验中，作者惊讶地发现，仅优化主要类别分类头而不优化子类别分类头，有时会意外地导致子类别分类损失和CAM质量的同步优化。这突出了类内表示在提升CAM质量中的重要性，并展示了子类别机制在明确获取和增强该表示方面的能力，从而提高了类激活的精度。作者将此模块称为子类别探索（SCE）。

为了最大化SAM的参数利用和 Prompt 能力，通过网格点 Prompt 获取图像样本的亲和图，亲和图定义为像素之间的关系。随后，从亲和图导出的概率矩阵决定特定像素的激活区域是扩展还是收缩，通过在CAM上执行随机游走来获取最终的伪标签。作者提出的优化CAM的方法消除了训练辅助网络的必要性，从而显著降低了计算开销。该模块被称为 Prompt -亲和挖掘（PAM）。

作者的WeakMedSAM，作为一种即插即用的模块，适用于任何基于SAM的模型。为确保泛化能力，作者使用SAMUS [31] 和 EfficientSAM [32] 进行了实验。作者有意避免使用在大型医学数据集（如MedSAM [8]）上经过大量训练的基于SAM的模型，以防止实验数据集包含在它们的训练数据中可能产生的潜在偏差。此外，作者还通过使用不同的预训练特征提取器来评估WeakMedSAM的鲁棒性，包括在ImageNet和MIMIC-CXR数据集上预训练的模型。

通过在三个基准数据集——BraTS 2019、AbdomenCT-1K和MSD Cardiac数据集——上进行广泛评估，WeakMedSAM展现出有希望的结果。与在BraTS 2019数据集上Dice指标为74.61、ASSD为11.91个 Voxel 的新版WsS方法相比，WeakMedSAM利用SAMUS和EfficientSAM分别实现了Dice指标

和ASSD指标5.57/10.35个 Voxel 。此外，作者通过修改BraTS数据集，将其称为BraTS-Core，以验证WeakMedSAM在小目标分割中的有效性，并与全监督方法进行比较，以突出WeakMedSAM的实际潜力。

结论部分，作者的主要贡献可以概括为三个方面：

• 首先，作者尝试研究基于SAM的弱监督医学图像分割模型，以同时减轻标注成本并借鉴SAM的出色能力。
• 作者引入了一个子类探索模块，该模块能有效缓解医学图像中的共现问题，从而产生更精确的类别激活区域。
• 作者提出了一种 Prompt 亲和度挖掘模块，该模块利用SAM现有的 Prompt 能力，在不需额外训练的情况下，整合结构信息以优化CAM。

相关工作

A. 标签高效图像分割

在标签高效图像分割领域，半监督学习和少样本学习方法因其能够在有限 Token 数据下实现鲁棒分割的能力而受到广泛关注。半监督分割方法[33]-[36]利用 Token 和无 Token 数据来提升模型性能。另一方面，少样本分割[37]-[39]通过利用元学习框架来应对从最少 Token 示例中学习的挑战，这些框架从支持图像中提取特定类别的原型，以指导 Query 图像的分割。

虽然半监督和少样本方法在减少标注需求方面取得了显著进展，但作者的工作将重点转向了一个更加标签高效的范式。WeakMedSAM利用了一个仅依赖于图像级类别标签的弱监督分割框架，进一步减轻了数据标注的负担。

B. 弱监督图像分割

弱监督分割（WSS）[14]-[16]是一种仅使用图像级标签进行图像分割的范式。基本上，初始的伪标签通常使用CAM生成。然而，CAM的一个常见缺点是其倾向于仅激活最具判别性的区域。为了克服这一限制，最近的研究中提出了各种训练策略。例如，一些方法整合了诸如擦除[4o]、在线注意力累积[41]和跨图像语义挖掘[42]等技术来增强分割过程。其他方法利用辅助任务来正则化训练目标，包括视觉词学习[43]和尺度不变正则化[44]。此外，一些技术[45]、[46]利用额外的显著性图作为监督来抑制背景区域，并有效地识别非显著目标。

此外，某些方法[47]-[49]通过对比像素和原型表示来鼓励更全面地激活物体区域。

与这些方法不同，作者提出了一种基于SAM Prompt 能力的弱监督分割方法，无需额外训练即可在医学图像中整合结构信息。此外，WeakMedSAM在分割小目标（如小肿瘤）方面显著优于上述WsS方法，展现出在处理医学图像中细粒度结构方面的优越性能。

C. 医学图像的SAM调优

SAM在应用于自然图像时表现出色。然而，它在某些医学图像分割任务中遇到了挑战，尤其是在处理形状复杂、边界模糊、尺寸小或对比度低的目标时[5]，[6]。为了使SAM能够有效地适应医学图像领域，已经提出了各种方法[7]，[8]，[31]来使用下游医学数据集微调SAM。Ma等人收集了超过一百万张图像来开发MedSAM[8]。此外，Zhang等人将LoRA引入SAM以创建SAMed[7]。在上述微调方法的基础上，最近一些更具创新性的方法正在利用SAM进行医学图像分割。例如，医学SAM Adapter （Med-SA）[10]采用了一种轻量级且有效的适配技术，将特定领域的医学知识整合到分割模型中。此外，One-Prompt SAM[11]在推理阶段巧妙地使用单个 Prompt 处理未见任务，实现单次前向传递处理。此外，SegAnyPath[12]引入了多尺度 Agent 任务和创新的任务引导混合专家架构，在病理图像分割中展现出显著性能。然而，值得注意的是，这些现有方法依赖于完全监督的标签来微调SAM，需要足够数量的医学图像进行精确标注。

与相比，WeakMedSAM仅利用图像 Level 的类别标签，与精确标注相比，显著降低了数据标注成本。这一方面对于临床场景中准确且易于部署的医疗图像分割至关重要。

研究方法

如图2所示，作者提出的WeakMedSAM由两个模块组成：a) SCE（子类探索模块）：利用图像级标签对SAM的ViT编码器进行弱监督微调，同时利用子类特征获取CAM。b) PAM（ Prompt 亲和度挖掘）：使用 Prompt 亲和度图对CAM进行随机游走细化，以增强医学图像的结构表示。WeakMedSAM的整体架构如图2所示，更多细节请参考图2。

A. SAM微调结构

作者提出的WeakMedSAM方法与任何基于SAM的模型兼容。在本研究中，作者使用了SAMUS [31] 和EfficientSAM [32]，其中SAMUS代表传统的SAM微调框架，而EfficientSAM则是在知识蒸馏后体现参数高效SAM微调框架的模型。

1. SAMUS：SAMUS的实现将并行CNN分支集成到SAM的ViT编码器中，利用跨分支注意力来增强医学图像的分割。随后，开发了一个位置 Adapter 和特征 Adapter ，以促进SAM从自然领域到医学领域的适应。CNN分支由一系列顺序排列的相互连接的卷积池化块组成。跨分支注意力模块作为CNN和ViT分支之间的连接。所有特征 Adapter 共享一个一致的结构，包括三个主要组件：1）向下线性投影，2）激活函数，和3）向上线性投影。SAMUS有效地减少了与微调相关的计算开销，同时不改变SAM本身的参数，从而代表了传统的微调框架。
1. EfficientSAM：EfficientSAM提出了一种创新的SAM预训练方法，称为基于SAM的 Mask 图像预训练。该方法通过将成熟的MAE[50]预训练技术与SAM模型相结合，生成轻量级的ViT Backbone 网络用于分割任务，从而促进了高质量预训练ViT编码器的发展。具体来说，EfficientSAM利用SAM编码器生成特征嵌入，并训练一个使用轻量级编码器的 Mask 图像模型来重建由SAM而非传统图像块派生的特征。EfficientSAM重新设计SAM的ViT编码器，显著减少参数数量，为通过知识蒸馏对SAM进行微调提供了一种策略。

WeakMedSAM被设计成与任何基于SAM-like架构的分割网络即插即用兼容，其性能和复杂性受SAM Backbone 网络的影响。为了验证WeakMedSAM的通用性，作者在上述两个SAM-like Backbone 网络SAMUS和EfficientSAM上进行了测试，证明了其在广泛的SAM-like Backbone 网络中提供卓越性能的能力。后续的方法描述保持对SAM Backbone 网络的无关性。

B. 子类探索

picture.image

不同于使用像素级完全监督标签，作者仅使用图像级分类标签来微调SAM。为了减轻医学图像中WSS共现现象并强调类间知识，作者引入了一个由聚类获得的子类标签监督的子类分类任务。此任务明确学习不希望存在的类内表示，同时允许主要分类任务激活任务相关区域。这种方法在医学成像中尤为重要，因为类内共现普遍存在，并且进一步增强了模型准确激活如肿瘤等较小目标的能力。SCE模块如图3所示。

1. 获取子类标签：对于每个主类，记为

，其中

，作者指定

个子类，表示为

，其中

。对于每个具有主类标签

的图像样本

，对应于类

的子类标签是一个长度为

的 0-1 向量，表示为

。由于没有可用于直接优化的子类真实标签，作者通过使用无监督聚类生成伪子类标签。具体来说，作者在从特征提取器提取的图像特征上对每个主类进行聚类。聚类算法可以是任何无监督聚类方法，如 K-means，而特征提取器可以是任何预训练的图像编码器。在第四章第四部分，作者进一步分析了这一过程，特别是针对聚类算法的随机性和特征提取器结构及预训练数据集的影响进行了探讨，表明WeakMedSAM对这些因素表现出强大的鲁棒性。

1. 联合训练：作者的最终目标是开发一个由

参数化的子类分类头

，同时与由

参数化的主要分类头

共享相同的 SAM 图像编码器

。对于

和

，作者使用多标签二元交叉熵损失作为分类损失

。一旦通过上述聚类过程获得了子类的伪标签

，作者继续联合优化两个分类器

和

。

其中，

代表 SAM 的图像编码器，

代表图像总数，

代表用于平衡两个损失函数的权重，作者将其设置为 0.5。

通过这种方法，子分类头显式地探索了类内子空间，从而使主分类头专注于学习一个干净的类间表示，以便获得更准确的注意力图（CAM）。

3)分析：为了展示SCE模块的有效性，作者设计了以下实验：在不优化子类分类头参数的情况下，仅优化SAM图像编码器和主类分类头。作者在训练过程中跟踪了主类分类损失

、子类分类损失

和CAM的Dice系数

。作者得到了一个有趣的结果，该结果展示了精细化的类内特征表示与更精确的类激活区域之间的相关性。

如图4所示，在训练初期（图4的部分(a)），

迅速收敛，而

达到平台期，

则相对保持不变。这一优化过程是直观的，并且与没有SCE模块的模型预期的行为自然吻合。随后（图4的部分(b)），当作者持续仅优化

时，

经历了显著提升，同时

有所下降。作者将此归因于由

的减少所支持的更精细的类内子空间特征表示。这表明，在减轻任务无关的类内表示对图像编码器的影响后，依赖于类间信息的CAM的准确性得到了提高。

picture.image

最后（图4中的部分(c)），在没有明确学习类内表示的情况下，

的收敛停止。

的持续优化导致过拟合，表现为虚假激活区域，导致

降低。这进一步强调了消除类内干扰以增强 CAM 的重要性。

需要注意的是，并非所有训练过程都遵循这一范式，仅仅优化

并不能自动导致对类内空间的进一步探索。因此，引入SCE模块以显式优化

。SCE模块有助于模型获取类内空间的精细特征表示，从而提高激活区域的准确性。

C. Prompt 词亲和力挖掘

利用SAM等大型模型的能力，作者的目标是实现图像中相邻坐标之间的类别无关亲和力，而无需额外训练。这些亲和力随后被用作随机游走过程中的过渡概率，允许CAMs传播到相同结构实体的邻近区域。这种传播显著提高了CAMs的质量。

1. 从SAM获取亲和图：两个坐标之间的亲和力代表它们无类别结构特征的相似性，而在特定显著区域中的亲和力更有意义，可以指导细化。这两个特性，即结构相似性和空间局部性，与SAM的 Prompt 机制相一致，其中一点 Prompt 将导致具有相似结构特征的局部激活区域。

如图5所示，为了利用SAM的 Prompt 能力获取亲和力图，首先，将图像通过大小为

的均匀网格

进行划分。然后，对于每个网格区域

，在网格区域的中心点应用一个点 Prompt ，记为

，这会产生一个 Mask 预测图

，即 Mask 解码器的输出。

picture.image

因此，图像的整体亲和力图可以定义为以下形式：

其中

对图

的亲和度值进行归一化处理。然后，全局亲和度图

将被用于生成后续随机游走的转移概率矩阵

。

1. 利用亲和图修订CAM：从SAM获取的局部结构亲和度被转换为一个转移概率矩阵

。该矩阵有助于在图像内部对结构区域敏感的随机游走，如图6所示，从而促进这些区域内的激活分数分散。

picture.image

特征向量对之间的结构亲和度由它们的

距离来表征。具体来说，作者用

表示特征

和特征

之间的结构亲和度，其计算方法如下：

请注意，亲和度仅计算半径为

的局部圆内的特征之间的亲和度。在这里，作者取

。计算出的亲和度共同构成一个亲和度矩阵

，其中对角线元素被设置为 1。从这个亲和度矩阵中，通过以下步骤推导出随机游走过程的转移概率矩阵

：

，

其

中

。

在超参数

被赋予大于1的值时。通过将原始亲和矩阵

提升至

次幂，记作

，作者有效地抑制了

中的不显著亲和力。这种调整使得随机游走过程传播得更加谨慎。此外，计算对角矩阵

以便于对

进行行归一化。通过使用转移概率矩阵

，亲和传播过程通过一系列随机游走操作实现。具体来说，CAMs 与

相乘以执行这种传播。这种迭代传播过程持续进行，直到达到预定义的迭代次数

。因此，通过以下表达式获得类别

的修正后的CAM，记作

：

对

于

所

有

。

其中，

表示矩阵的向量化操作，

表示迭代次数。

D. 复杂性讨论

WeakMedSAM是任何基于SAM模型的扩展。与原始SAM模型相比，WeakMedSAM专门为子类探索（SCE）模块集成了两个线性层——主类分类头和子类分类头，从而增加了最小的计算开销。值得注意的是， Prompt 亲和度挖掘（PAM）模块不增加任何额外的模型参数。该模块的计算开销仅包括 Prompt 编码器和 Mask 解码器，它们轻量级且甚至可以在网页浏览器中执行[1]。这种设计确保了WeakMedSAM在训练和推理过程中都非常适用，使得在不需要大量计算资源的情况下，可以在各种GPU配置上执行。在第四章C7节中，作者进一步对所提出方法的复杂性进行了数值讨论，详细说明了其在不同计算环境中的效率和可扩展性。

实验

A. 实验设置

1. 数据集：本研究利用了三个广泛使用的公开数据集进行：BraTS 2019 [55]、AbdomenCT-1K [56] 和 MSD Cardiac 数据集 [57]。

BraTS 2019数据集包含总共335个多模态扫描，每个扫描都附有专家分割 Mask 。这些扫描包括四种模态：T1、T1c、T2和FLAIR，而在这里作者仅使用FLAIR模态。该数据集专门用于二元分割任务，作者的重点是区分健康和不健康的目标。AbdomenCT-1K数据集是一个全面且多样化的腹部CT器官分割数据集，包含来自12个医疗中心的超过1000个CT扫描，涵盖了多相位、多厂商和多疾病病例。作者的目标是其中的四个腹部器官：肝脏、肾脏、脾脏、胰腺。MSD心脏数据集包含专门用于左心室分割任务的MRI图像。它包含总共30个病例，每个病例由多个2D MRI切片组成。

作者将数据随机划分为三个子集：训练集、验证集和测试集，按照患者层面的8:1:1比例进行划分。在分析中，作者将3D-MRI扫描的各个切片视为2D图像，专注于切片层面的分割任务。

为进一步验证该方法在小目标（如小肿瘤）上的分割性能，作者在BraTS数据集中去除了肿瘤周围的脑水肿，仅保留了肿瘤区域。作者将此数据集称为BraTS-Core，它遵循与原始BraTS数据集相同的划分方案和标签定义。关于BraTS-Core数据集的详细描述见第IV-C6节。

1. 网络架构：作者保持SAM的 Prompt 编码器和 Mask 解码器处于冻结状态，通过使用SAMUS和EfficientSAM来专门训练SAM的图像编码器。对于EfficientSAM，作者使用参数数量最少的ViT-Ti编码器作为 Backbone 网络。值得注意的是，作者提出的WeakMedSAM可以用于任何基于SAM的模型，实现即插即用。在不牺牲通用性的前提下，后续的分析实验在SAMUS中进行。

作者选择使用从transformer块中得到的输出作为图像嵌入进行分类，以获得更好的类别激活表示。此外，主分类头和子分类头都采用了

卷积层。对于在从WeakMedSAM获得的伪标签上训练的分割网络，作者使用了广泛用于医学图像分割任务的U-Net [58] 网络。

1. 实现细节：作者使用Python和PyTorch框架进行了研究。实现过程中，代码在四块NVIDIA GTX 2080Ti GPU上运行。学习率遵循一周期策略，直至

，然后随后续迭代衰减。批大小设置为24，总迭代次数为10。图像裁剪至256像素大小。此外，作者为子类损失使用了恒定权重

。 2. 4. 评估指标：为了评估这些伪标签的质量，作者采用了四个评估指标：Dice系数（DsC）、Jaccard指数、平均对称表面距离（ASSD）和Hausdorff距离95%分位数（HD95）。DsC和Jaccard指数是广泛使用的像素级相似度度量，它们可以提供关于分割模型性能的见解。另一方面，ASSD和HD95指标通过测量预测结果与真实标签之间的表面距离来量化分割结果的准确性。

B. 与其他方法的比较

1. 与WsS方法的比较：为了评估作者提出的WeakMedSAM方法的有效性，作者对注意力机制图（CAMs）应用了一个阈值以获得伪标签，然后使用这些伪标签来训练分割网络并获取最终的分割结果。作者将其与最近的弱监督分割方法进行了比较，如表1和图7所示。WeakMedSAM在多个数据集上表现出优异的准确率，并在两个基于SAM的不同网络中展现出卓越的性能，从而验证了WeakMedSAM具有普遍性。

picture.image

2）与交互式SAM-like方法的比较：虽然SAM并未专门在医学图像数据集上进行训练，但它展现了零样本泛化的潜力[59]。特别是，SAM的交互式分割，通过诸如点和中框等 Prompt 进行引导，可以显著提升最终用户的使用体验。利用视觉基础模型进行交互式分割在降低重像素级标注成本方面具有广阔的前景。

因此，作者提出了一种假设的交互式分割场景，其中专家使用视觉 Prompt 来指定感兴趣的区域。为了将这种交互式分割的成本与作者图像 Level 的标签获取成本相等同，作者使用了一个单点 Prompt 。这个 Prompt 的坐标对应于SAM交互式分割中使用的分割标签的中心点。

在近期的研究中，许多努力都集中在在大规模医学图像数据集上对SAM进行微调。将这些微调后的模型应用于交互式分割在实际情况下的临床应用中可能具有更大的意义。因此，作者也将MedSAM纳入了与SAM的比较之中。

研究结果揭示，SAM在某些样本中表现出强大的零样本泛化能力，如图8所示。然而，在大多数情况下，由于缺乏与任务相关的信息，SAM的分割结果主要依赖于像素信息，这在医学图像中严重不足。因此，SAM倾向于将空白区域解释为背景而不是非目标区域，导致严重的过度分割或不足分割。因此，SAM直接应用于医学图像分割并不理想。相比之下，与SAM相比，MedSAM在整体分割性能上有了显著提升。虽然它的表现略逊于作者的WeakMedSAM，但通过添加少量额外的交互 Prompt ，它能够实现强大的结果。

picture.image

重要的是，在弱监督框架中使用类级标签消除了在推理阶段需要临床医生互动参与的需求。WeakMedSAM的整个推理过程完全自动化，进一步减少了分割任务所需的时间。

C.消融研究与分析

表10001展示了消融分析的定量结果。该表表明，基于ViT-b SAM的 Backbone 网络在BraTS 2019数据集上实现了

的DSC。引入所提出的子类分类和 Prompt 亲和度挖掘模块后，DsC分别提升至

和

。当这两个模型结合时，模型的性能提升至

。

1. SCE特征提取的不同 Backbone ：由于子类没有 GT 标签，作者使用无监督聚类创建伪标签。具体来说，基于从特征提取器提取的图像特征，对每个主要类别进行聚类。

潜在问题是，执行特征提取的主干网络性能最终可能会影响子类分类的最终性能。作者使用不同的预训练网络进行了预聚类。

如表4所示，作者的网络对 Backbone 网络的性能并不特别敏感。因此，为了减少计算开销，作者在预聚类阶段采用ResNet18作为特征提取器。

picture.image

1. SCE特征提取器的不同预训练数据集：虽然作者的实验使用了ImageNet预训练模型用于SCE模块，但作者认识到考虑医学图像预训练特征提取器的重要性。然而，识别或训练适用于各种医学图像模态的模型仍然是一个挑战。

feature extractors在下游任务中的有效性，即使在存在显著领域迁移的情况下[60]-[63]，以及在医学影像[64]-[66]中也是如此。鉴于作者的SCE模块对特征提取器的能力不敏感，如第IV-C1节所示，使用ImageNet预训练的特征提取器是一种合理且实用的方法。

为了进一步分析，作者使用在ImageNet和Medical-MAE提供的MIMIC-CXR [67] 数据集上预训练的ViT模型评估了SCE。图9展示了在BraTS数据集上使用ImageNet和MIMIC-CXR预训练的ViT模型进行SCE聚类结果。表5显示了使用这些提取器进行分割的性能。这些结果证明了SCE对特征提取器预训练数据集的鲁棒性。

picture.image

1. 子类别数量不同：引入子类别分类任务的目的是明确定义类内信息，这可能会扭曲激活区域。通过子类别分类头的学习来实现这一点，从而使主要类别分类头能够专注于获取类间信息。

尽管如此，每个主要类别关联的子类别数量在预聚类过程中是手动确定的。这意味着子类别数量的不同可能会影响模型的表现。如图10所示，通过不同子类别数量的实验，作者观察到当子类别数量为8时，模型达到了最佳性能。

picture.image

作为一项潜在的研究领域，设计一种自适应的方法来确定子类的数量将是有益的。这可以最小化冗余子类的出现，从而提高方法的有效性。4) 聚类算法随机性的分析：为了解决聚类算法固有的随机性对SCE模块性能可能产生的影响的潜在担忧，作者使用多个随机种子进行了聚类实验。结果如图11所示，对于一组给定的特征，聚类算法对随机种子初始化的变化表现出鲁棒性。

picture.image

并且分割结果也保持了高度稳定性，所有指标的变化均小于2%。因此，作者的SCE模块对聚类过程中引入的随机性不敏感。

1. 与其他细化方法的比较：为了提升CAM，研究者们探索了多种方法。这些方法可以大致分为两大类：一类需要额外训练以融入结构信息，如像素级语义亲和度（PSA）[28]，另一类则不需要额外训练，如条件随机字段（CRF）[29]、[30]，但未能利用结构信息。

相反，作者提出的PAM模块旨在提取结构信息，同时无需进行任何额外的训练。为了证实PAM模块的有效性，作者对之前提到的方法进行了比较分析。如表6所示，作者的结果表明，WeakMedSAM优于其他方法。

picture.image

1. 小目标分割分析：WeakMedSAM在多个数据集上进行了性能评估。如图12所示，BraTS数据集表现出小目标平均相对尺寸。在BraTS数据集上进行了详细的实验，包括消融研究和超参数敏感性分析，证明了WeakMedSAM在小目标如小肿瘤等上的有效性。

picture.image

为进一步验证在小目标上的性能，如图14所示，BraTS标注被修改，仅保留非增强肿瘤核心（NET）和GD增强肿瘤（ET），排除周围水肿（ED），创建了BraTS Core数据集。如图13所示，BraTS-Core的平均相对目标大小比BraTS更小。在表7中，将BraTS-Core上的分割性能与最近的WSS方法以及完全监督的上限进行了比较。上限定义为来自BraTS 2019排行榜1的肿瘤核心（Dice_TC）DSC指标的平均值。WeakMedSAM在小目标上显示出显著的优越性。然而，与完全监督的分割相比，仍存在性能差距，这表明了未来改进的领域。

picture.image

1. 进一步的数值分析：为了进一步分析WeakMedSAM计算复杂度，作者重申，作者提出的模块引入的开销是最小的。SCE模块的分类头仅由几个MLP组成，而PAM模块利用了SAM中的 Prompt 编码器和 Mask 解码器，这些设计用于轻量级操作，甚至在网页浏览器中也是如此。主要的计算成本来自SAM的图像编码器，在作者训练过程中保持大部分冻结。重要的是，WeakMedSAM可以作为即插即用的增强功能应用于任何类似SAM的架构。为了定量评估，表6lI提供了常用类似SAM模型的参数计数。

8)与全监督上限的比较：作者在BraTS数据集上比较了作者的弱监督方法与全监督上限的性能。与表5ll一致，作者使用了该上限的DSC和HD95指标的平均值。如表9所示，虽然全监督方法在分割性能上本身具有优势，但WeakMedSAM显著减少了大量数据标注的需求，而没有导致完全的性能失败，这证明了其在实际临床应用中的潜力。

picture.image

D. 参数敏感性

为了保持对核心方法的关注，而非广泛的训练优化技巧，作者的超参数消融研究和敏感性分析仅针对BraTS数据集进行。从这些在BraTS数据集上的分析中得出的超参数集随后被应用于以下两个方面：

图15：在AbdomenCT1K数据集上对超参数的评估。结果表明，当

和

时，性能最优。

picture.image

使用AbdomenCT-1K和MSD心脏数据集来评估所选设置的泛化性。

利用亲和图获取随机游走概率矩阵

的方法涉及超参数。在公式（4）中，超参数

（大于1）用于抑制

中的不显著亲和力。而在公式（5）中，超参数

决定了随机游走的迭代次数。为了评估这些超参数的影响，作者系统地进行了大量实验。作者的实证研究表明，当随机游走相关变量

的阈值设置为4，且

也设置为4时，亲和力的细化效果最佳。

为了确定其他数据集的最佳参数，针对AbdomenCT-1K数据集进行了一次额外的超参数分析，重点关注SCE模块中的子类数量

和PAM模块中的随机游走迭代次数

。作为多器官分割数据集，AbdomenCT-1K具有更多一级类别，与仅有一个一级类别的BraTS相比，降低了类内共现的重要性。因此，如图15所示，较小的

是最佳选择，其中

实现了最佳性能，而

适用于BraTS。最佳

值在数据集之间保持一致，

表现最佳。

.### E.交互式弱介导SAM

与MedSAM等全监督方法不同，后者利用大量像素级标签进行密集训练，WeakMedSAM依赖于图像级监督，这本质上限制了其交互式分割性能。作者的目标是证明WeakMedSAM的弱监督微调不会损害图像编码器与SAM架构其他组件之间的连贯性。为了验证WeakMedSAM在交互式分割场景中的适用性，作者设计了两种类型的 Prompt ：一种是从分割标签质心派生的单点 Prompt ，另一种是包含整个分割标签的边界框 Prompt 。与原始SAM的对比实验，如图16所示，揭示出在使用边界框 Prompt 时，SAM和WeakMedSAM都表现良好。然而，当使用单点 Prompt 时，WeakMedSAM显著优于SAM，展示了其在利用有限交互信息方面的优越能力。这些发现表明，仅使用图像级分类标签微调SAM以开发适合交互式分割的模型是可行的；然而，作者承认WeakMedSAM并非专门为此应用而设计，这表明需要进一步研究以增强其在这种环境中的性能。

picture.image

结论

在本研究中，作者探讨了在Segment Anything Model（SAM）的指导下进行弱监督医学图像分割的范式。提出的模型，即WeakMedSAM，包含两个模块：1）第一个模块，即SCE，涉及对SAM的ViT编码器进行弱监督微调以利用子类特征，有效消除潜在的共现情况，旨在获得可靠的CAM结果。2）第二个模块，即PAM，执行CAM的随机游走细化，利用迅速出现的亲和图来增强类内表示。来自三个广泛使用的基准数据集的实验结果证实了本文提出的WeakMedSAM模型具有有前景的性能。

在更广泛的背景下，WeakMedSAM还提出了一种通过减少对大量精确标注数据的依赖来适应SAM的创新视角，这可以在其他场景中采用。未来的工作将探索使用弱监督方法端到端微调SAM的潜力，可能进一步提高性能和泛化能力，重点关注改善SCE模块中ViT编码器微调和PAM模块中基于亲和力的细化之间的协同作用，确保SAM对交互式医学图像分割的适应更加统一和高效。

参考

[1]. WeakMedSAM: Weakly-Supervised Medical Image Segmentation via SAM with Sub-Class Exploration and Prompt Affinity Mining

picture.image

扫码加入👉

「集智书童」

交流群

（备注：

方向

学校/公司+

昵称

）

picture.image