定制微调 Adapter 探索 SAM2 性能上限，多策略提升医学图像分割效果超越 nnUNet ！ - 文章 - 开发者社区

点击下方卡片，关注

「AI视界引擎」

公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

分段任意模型2（SAM 2）是一种以 Prompt 驱动的基座模型，它将SAM扩展到图像和视频领域，与前辈相比，SAM 2在零样本性能上表现出色。基于SAM在医学图像分割方面的成功，SAM 2展现了进一步发展的巨大潜力。

然而，与SAM类似，SAM 2受限于其二元 Mask 输出、无法推理语义标签以及依赖于精确 Prompt 来定位目标目标区域。

此外，SAM和SAM 2直接应用于医学图像分割任务时，效果并不理想。

在本文中，作者通过定制微调 Adapter 探索了SAM 2的性能上限，在BTCV数据集上实现了92.30%的Dice相似系数（DsC），超越了目前最先进的nnUNet模型，提高了I2%。在此基础上，作者通过研究各种 Prompt 生成器来解决 Prompt 依赖问题。

作者引入了一个U-Net来自动生成预测 Mask 和边界框，这些作为SAM 2的输入。

随后，SAM 2的双阶段微调进一步提升了性能。

大量实验表明，作者的方法在AMOS2022数据集上达到了最先进的水平，与nnUNet相比，Dice系数提高了2.9%，在BTCV数据集上的表现优于nnUNet 6.4%。

引言

医学图像分割对于生物医学分析至关重要，它有助于疾病诊断、异常检测和手术规划。近年来，基于深度学习的方法[9, 11, 20, 28]显著推进了分割任务，卷积神经网络（CNNs）和视觉Transformer（ViTs）已成为主导架构。然而，医学图像数据集通常缺乏高质量标注，这阻碍了大规模模型的训练。因此，具有更高归纳偏置的架构，如CNNs，更容易从头开始训练，以在医学分割任务中实现出色的性能。

基础模型[7, 10]，经过大量数据集的训练，在零样本和少样本泛化方面展现出惊人的能力，涉及多种下游应用[17, 18]。这些模型将训练特定任务的模型范式转变为“预训练后再微调”的方法，对计算机视觉领域产生了重大影响。基于SA-1B数据集训练的Segment Anything Model（SAM）[13]的引入，在 Prompt 驱动的自然图像分割领域取得了里程碑式的进展。SAM的成功扩展到包括医学图像分割[2, 6, 16, 24, 26, 27]在内的各种应用中。

基于此，SAM 2 被提出作为 SAM 的增强版本，扩展了其在图像和视频领域的功能。SAM 2 允许使用单个 Prompt 在视频序列中进行实时分割。表1 显示，在 BTCV 数据集上，SAM 2 的表现优于 SAM，其 Dice 得分为 82.77%，而 SAM 的 Dice 得分为 81.89%，这激励了进一步探索 SAM 2 在医学图像分割任务中的应用。

picture.image

然而，与SAM类似，SAM 2也存在局限性，包括其二值 Mask 输出、缺乏语义标签推理以及对精确 Prompt 的依赖来识别目标目标。此外，SAM和SAM 2在未进行修改的情况下，在医学分割任务上的表现不及最先进的模型。

为了应对这些挑战并最大化SAM 2在医学图像分割方面的潜力，作者做出了以下贡献：

作者推出了RFMedSAM 2，这是一个创新的框架，用于在医学图像分割中进行自动 Prompt 优化，它利用了SAM 2的多阶段优化能力。
作者开发了新的 Adapter 模块：深度卷积 Adapter （DwConvAdapter）用于注意力块和CNN-Adapter用于卷积层，增强了空间信息捕捉，并实现了高效的微调。
作者通过最优 Prompt 建立了SAM 2的性能上限，在BTCV [14]数据集上实现了92.30%的DSC，超越了最先进的nnUNet，提高了12%。
作者提出了一种独立的UNet，用于生成 Mask 和边界框作为SAM 2的输入，实现了自动 Prompt 生成和双阶段优化，消除了对手动 Prompt 的依赖。
作者在具有挑战性的医学图像数据集（AMOS [12]和BTCV [14]）上进行了广泛的实验，证明RFMedSAM 2实现了最先进的结果，在AMOS2022数据集上超越了nnUNet 2.7%，在BTCV数据集上超越了6.4%。

unset

相关工作

unset

医学图像分割领域经历了显著的演变，传统机器学习方法逐渐让位于基于深度学习的方法。U-Net[20]通过其编码器-解码器结构和帮助保留空间上下文的 Shortcut ，为医学图像分割设定了新的基准。在此之后，nnUNet[11]引入了一个自动化的流水线，该流水线将U-Net的架构适应于不同的医学数据集，实现了持续的一流成果。

最近，一些基于Transformer的模型，如UNETR[9]和nnFormer[28]，被探索用于捕捉全局上下文并提高准确性。这些模型利用自注意力机制，有助于建模长距离依赖关系，但它们通常需要大量的数据集才能进行有效的训练，由于标注医学图像的有限可用性，这构成了一个挑战。

基础模型通过提供一系列下游任务的强大起点，已经改变了机器学习的格局。"预训练然后微调"的模式在自然语言处理和计算机视觉领域都取得了显著成效[7, 10]。这些模型在大型、多样化的数据集上训练，以学习通用的表示，这些表示可以通过最小量的额外训练适应特定任务。这种模式显著降低了对于大量特定任务数据集的依赖，并实现了零样本和少样本学习。SAM[13]通过利用能够通过 Prompt 适应新分割任务的预训练模型，为分割任务体现了这种方法的典型应用。虽然SAM在自然图像上展示了强大的零样本性能，但其潜在的医疗影像等特定领域的应用引发了兴趣并促进了后续研究。

SAM模型在多项研究中被扩展和定制用于医学图像分割。如MedSAM[16]、MaskSAM[24]、Self-Prompt SAM[25]及其他变体[6, 27]等作品突显了该模型的灵活性和社区利用其优势应用于医学领域的努力。这些变体通常涉及微调SAM的 Prompt 编码机制或整合特定领域的训练策略，以更好地适应医学图像的复杂性，包括不同的分辨率、噪声和非标准化结构。尽管取得了这些进展，SAM原始设计中的局限性——如二值 Mask 输出和 Prompt 依赖性——依然存在，这限制了其在全面医学分割任务中的独立应用效果。

SAM提出的“ Prompt 驱动分割”概念激发了依赖外部 Prompt 或 Prompt 进行分割的模型的发展。这种方法与标注数据稀疏的少样本和零样本学习场景相契合。SAM 2作为SAM的扩展，引入了诸如记忆注意力机制和记忆编码器等改进，以处理视频序列，提高了处理的连贯性[13]。然而，这些创新也伴随着挑战，包括 Prompt 依赖性和有限的语义理解，这使得它们在完全自动化的医学分割任务中不太理想。关于 Prompt 生成[22]和优化的研究显示，整合自动 Prompt 生成的机制可以减少对人工提供的 Prompt 的依赖，并在更复杂、更实际的场景中提升性能。

在SAM 2和其他基于 Prompt 的模型中，对准确 Prompt 的依赖性带来明显的局限性，特别是在难以获得精确标注的领域。当前研究正在探索缓解这种依赖性的方法，例如设计能够生成可靠 Prompt 的辅助模型或整合适应性地在训练过程中改进 Prompt 的学习机制。此外，虽然记忆注意力在保持视频分割中的时间一致性方面效果显著，但它在训练和内存需求方面也引入了复杂性。解决这些挑战将有助于SAM 2和类似模型在医学图像分割中充分发挥其潜力，缩小性能与实用性之间的差距。

unset

提出的方法

unset

在本节中，作者首先回顾了SAM和SAM 2。接着，作者介绍了作者提出的自动 Prompt 优化SAM 2（RFMedSAM2）的整体结构。RFMedSAM2中每个组件的详细描述可在附录中找到。

3.1. SAM与SAM 2概述

分段任何模型（SAM）已被证明是一个鲁棒的基于 Prompt 的基础模型，用于图像分割，展示了在各种应用中强大的零样本能力。在SAM的成功基础上，分段任何模型2（SAM 2）将这些能力扩展到图像和视频领域，使得仅使用一个 Prompt 就能实现整个视频序列中目标的实时分割。

SAM和SAM 2都拥有一个核心结构，包括图像编码器、 Prompt 编码器和 Mask 解码器。图像编码器处理输入图像以生成图像嵌入，而 Prompt 编码器处理以点、边界框或 Mask 形式存在的输入 Prompt 。随后， Mask 解码器将图像和 Prompt 嵌入结合，生成二值分割 Mask 。SAM使用视觉Transformer作为其图像编码器的 Backbone 网络，而SAM 2则采用Hiera [21]以增强特征表示。SAM 2还引入了一个记忆注意力模块，该模块根据过去帧的特征和目标指针来条件化当前帧的特征，并引入一个记忆编码器，将当前帧的特征与输出 Mask 融合，以生成记忆特征。

SAM 2流程包括两个主要阶段： Prompt 帧处理阶段和无 Prompt 帧处理阶段，如图2所示。在 Prompt 帧处理阶段，SAM 2处理包含显式 Prompt 的帧。每个帧都独立处理， Prompt 引导分割过程。此阶段还将批量大小扩展到预期目标数量，确保输出包括帧中每个目标的 Mask 。此阶段的结果包括预测 Mask 和目标指针，这些信息被传递给内存编码器以生成内存特征。无 Prompt 帧处理阶段处理没有显式 Prompt 的帧。内存注意力模块利用先前和无 Prompt 帧的信息来为当前帧的分割构建上下文。在这个阶段， Prompt 帧被分配一个时间位置O，而无 Prompt 帧被分配时间位置最多6，靠近的帧具有更高的时间位置。这种方法有助于为分割建立有效上下文，尽管原始设计在保持准确的时间定位方面可能存在挑战，这可能会导致错误。

picture.image

表1总结了SAM和SAM 2在不同设置下在BTCV数据集上的性能。结果显示，当每帧使用边界框 Prompt 时，SAM 2的表现优于SAM， Dice分数更高。这证明了SAM 2增强架构和内存注意力能力在视频分割任务中的优势。

3.2 分析与洞察

SAM 2具有显著的优势，但也存在固有的局限性。本节对这些方面进行了详细分析。表1总结了在BTCV数据集上对SAM及其2.0版本在不同设置下的实验。这些实验中使用的所有 Prompt 都源自真实信息，且模型评估过程中未进行任何结构性的修改。

边界框 Prompt 与中心点：如表1所示，使用中心点 Prompt 时，SAM和SAM 2的Dice系数均低于10%。当使用边界框 Prompt 时，性能显著提升。因此，在随后的实验中，使用边界框作为 Prompt 。

每帧 Prompt ：结果表明，当每帧都包含每个目标的边界框时，SAM 2 的表现最佳（Dice 系数达到 82.77%），这突出了每帧 Prompt 对于实现最佳准确性的重要性。

SAM与SAM 2的比较：采用每帧 Prompt ，SAM实现了81.89%的Dice分数，而SAM 2达到了82.77%，这证明了SAM 2的性能优于SAM。

步骤2的优化：在SAM 2的步骤2中，利用记忆注意力对未 Prompt 的帧进行处理，这一步骤可以扩展到所有帧以实现优化目的。对所有帧强制执行步骤2会导致Dice分数略有下降，从82.77%降至81.17%，但这显示出优化分割结果的可能性。

Stream 操作：SAM 2的大部分模块（除内存注意力模块外）对图像进行单独处理，不涉及时间操作，从而降低了内存使用。内存注意力模块将先前和 Prompt 帧的特征堆叠起来，与当前帧建立连接。这种方法既高效又有效，因此作者在作者的方法中保留了这种 Stream 操作，如图3所示。

picture.image

3.3 RFMedSAM2架构

3.3.1. 架构概述

图1展示了RFMedSAM 2的整体架构，包括三个主要阶段：

picture.image

初始预测阶段：U-Net模型处理医学图像，生成多类初始 Mask 预测。这些预测被转换为边界框，作为下一阶段的 Prompt 。初步分割阶段：改进的图像编码器从输入图像中生成图像嵌入，同时 Prompt 编码器将辅助边界框转换为点嵌入。 Mask 解码器使用这些嵌入来生成初始 Mask 和物体指针。生成的 Mask 被用来创建新的边界框，改进的记忆编码器处理这些 Mask 和当前帧特征以产生记忆特征，从而实现初始细化。

精炼阶段：改进的记忆注意力模块从编码器提取图像特征，并与之前帧的记忆特征建立联系。 Mask 解码器处理这些输出以及来自 Prompt 编码器的新点嵌入，最终输出经过精炼的预测结果。

3.3.2. SAM2的修改

RFMedSAM 2的设计对SAM 2架构进行了多项关键改进：

修改后的图像编码器：为了使各种医学成像模态与SAM所需的RGB输入格式相匹配，增加了一个由两个堆叠的卷积层组成的序列来适应输入模态。Hiera [21] 主干网络在其注意力模块中包含DWConvAdapters，在FPN模块中包含CNN-Adapters以增强适应能力。

修改后的 Mask 解码器： Mask 解码器在自注意力和交叉注意力模块之后以及与MLP层并行处包含 Adapter ，以更有效地捕捉空间信息。DwConvAdapters促进空间学习，而CNN-Adapters适应卷积层以进行医学图像处理。

UNet、记忆编码器和记忆注意力：U-Net保持了具有 Shortcut 的对称编码器-解码器结构，以更好地保留空间细节。记忆编码器整合CNNAdapters以适应其组件处理医学图像特征。记忆注意力模块在其Transformer块中融合了DwConvAdapters，以有效处理空间信息。

3.4 架构设计

在本节中，作者展示了针对SAM 2架构的改进，旨在提升其在医学图像分割方面的性能。作者的主要目标是设计一种改进的记忆注意力策略和新型 Adapter ，以最大化SAM 2的分割能力。

虽然使用真实标签 Prompt 来探索性能的上限，但关键贡献在于支持稳健微调和提高适应性的架构修改。

3.4.1. 精细化框架选择策略

在SAM 2的第二步，最初用于处理记忆注意中的未 Prompt 帧，是增强分割一致性的关键改进步骤。作者的目标是扩展这一步骤以处理所有帧，并对整个序列的预测进行细化。在原始设计中，SAM 2将所有 Prompt 帧的时间位置赋值为0，这导致了时间定位的不明确，以及当在帧间应用注意力时可能出现假阳性的问题。

为了优化内存注意力策略，作者通过 Baseline 模型尝试了不同的框架选择方法和时间位置分配。图3(2)展示了四种策略。原始策略（图3(2a)）实现了90.74%的Dice相似系数（DsC），但被仅使用步骤1的简单方法所超越，这表明由于时间定位不正确而存在局限性。

作者的改进策略，如图3（2b）所示，将当前帧的索引分配给O的时间位置，确保模型优先考虑包含步骤1 Mask 预测的当前帧的记忆特征。这种策略显著提升了性能，达到了91.58%的DsC。选择前后帧的替代策略（如图3（2c）和3（2d）所示）要么导致性能下降，要么增加内存需求。

作者采用了图3(2b)中的帧选择方法，选择最多6个之前的帧，并将当前帧索引设定为O的时间位置。这种方法确保了全面整合记忆，以实现鲁棒的分割细化。

3.4.2. 新型 Adapter 设计，以提升微调效果

为了在保持SAM 2的零样本能力的同时实现参数高效的微调，作者设计了新的自适应机制，以增强SAM 2架构中的空间和卷积处理能力。

深度卷积 Adapter （DWConvAdapter）：图像编码器、记忆注意力和 Mask 解码器均包含注意力模块，这些模块用于处理具有丰富空间信息的图像嵌入。

为了加强这一点，作者引入了DwConvAdapter（图3(3b)），它通过结合深度卷积来有效捕捉空间上下文。集成DWConvAdapter使得DSC提升了0.47%，这证明了其在增强空间学习方面的实用性。

卷积层CNN-Adapter：鉴于SAM 2中存在多个卷积层，作者也开发了一种CNN-Adapter，以促进这些层内的更好适配（图3(3b)）。加入CNN-Adapter后，DSC（区分度）提升了0.25%，进一步验证了有针对性的架构修改的有效性。

作者的最终模型集成了针对点嵌入注意力块的原始 Adapter 、针对图像嵌入注意力块的DWConv Adapter 以及针对卷积层的CNN Adapter 。这一全面架构使得SAM 2相较于最先进的方法实现了超过4%的性能提升，如表2所示，从而确立了其在高级医学图像分割方面的能力。

picture.image

3.5. 提升 Prompt 生成技术

在利用精确的 GT （GT） Prompt 探索SAM 2的上限性能后，下一步是开发一种实用方案，以消除对这种精确 Prompt 的依赖，这在现实世界的医学图像分割中是不切实际的。认识到SAM 2在精确 Prompt 下可以取得非凡的性能，作者提出了一种 Prompt 生成框架，该框架在训练过程中对生成的 Prompt 和最终预测进行优化。

设计了六个用于自动 Prompt 生成的独立模块，如图3(4a)-(4f)所示，分为两大类：可学习的点坐标表示（图3(4a)-(4c)）和可学习的 Mask （图3(4d)-(4f)）。这些模块的性能结果显示在图3(1)的最后六个条形中。

3.5.1. 可学习的点坐标表示

图3（4a）所示的模块为每个类别初始化目标 Query ，这些 Query 通过一系列自注意力块和交叉注意力块进行处理，与当前图像特征进行交互。使用多个MLP层调整嵌入维度，以生成框坐标和目标得分。SAM 2相对于前一代产品，在点 Prompt 上采用了更严格的标签标准，使用如“无目标”（-1）、“负/正点”（0, 1）以及“框 Prompt ”（2, 3）等标签。在先前的实验中，全局 Prompt （GT）包括了表示特定帧不存在目标的标签。在当前的方法中，训练目标得分以指示特定帧是否应该包含 Prompt 或完全不含 Prompt 。

尽管付出了这些努力，图3（4a）中的阻塞仅达到了77.35%的DsC，表明存在明显的性能差距。如图3（4b）所示，通过整合 Mask 解码器的目标得分，性能提升了1.9%，但结果仍低于预期。为了克服标签表示的挑战，作者设计了一个可学习的点嵌入块，使其能够直接学习坐标和标签表示（图3（4c））。然而，这种方法导致DsC下降了11%，突显了学习精确 Prompt 的难度。

精确的坐标预测对于边界框 Prompt 至关重要，但由于图像嵌入的非坐标编码特性以及嵌入的随机初始化，这一问题变得颇具挑战性。此外，边界框缺乏有效多类分割所需的语义丰富性。这促使作者转向使用可学习的 Mask ，它们能提供更稳健的语义信息。

3.5.2 可学习 Mask

作者发现，先预测 Mask 然后从中提取边界框，比直接预测坐标的方法更为可靠。如图3（4d）所示的结构，结合了从图像编码器中提取的多级特征的卷积层分层设计。模型从低分辨率特征开始，通过卷积层逐步提高分辨率，并将这些层与更高分辨率特征相结合。辅助损失函数通过将生成的 Mask 与真实值进行比较来监督 Mask ，实现了DSC（交并比）为84.93%的效果。尽管这是一个改进，但它的表现仍然低于顶尖水平。

一项挑战是，由生成的 Mask 带来的辅助损失和SAM 2的最终输出损失都影响了图像编码器的更新，导致冲突，从而阻碍了最优训练。 Prompt 生成器和SAM 2之间不同的架构使得同步参数更新变得复杂，难以保持平衡和实现持续改进。

为了克服这一问题，作者在SAM 2的基础上引入了一个独立的U-Net架构，以生成不会干扰SAM 2参数更新的 Mask （图3（4e））。这个由U-Net生成的 Mask 被用来推导边界框，作为SAM 2的输入 Prompt ，从而将性能提升至85.38%。为进一步增强U-Net与SAM 2之间的交互，作者将 Mask 和边界框直接输入到SAM 2的第一步，这使得预测一组更精细的 Mask 和更新后的边界框成为可能。随后，这些 Mask 和边界框被输入到第二步进行进一步优化，最终实现了86.48%的DSC整体性能。

这一多阶段 Prompt 生成与优化流程显著降低了对于精确目标 Prompt 的依赖，并强调了模型在现实医学影像场景中实现自给自足 Prompt 生成的能力。

unset

实验评估

unset

4.1 数据集与评估指标。

作者使用两个公开可用的数据集进行了实验：AMOS22腹部CT器官分割数据集[12]和超越颅骨穹（BTCV）挑战数据集[14]。

（i）AMOS22数据集包含200张腹部CT扫描图像，并附有16个解剖结构的标注，这些标注是进行多器官分割任务的基础。测试集包括200张图像，作者使用AMOs22排行榜评估作者的模型。

（ii）BTCV数据集包括30例腹部CT扫描病例。遵循既定的分割策略[8]，作者使用24个病例进行训练，4个病例进行验证。性能评估采用13个腹部器官的平均Dice相似系数（DsC）。

在表2和3中，“语义标签”指的是模型推理和预测标签的能力，而“ Prompt ”则指明了 Prompt 来源。由于SAM和MedSAM不预测语义标签且需要额外的 Prompt ，作者使用GT或由预训练的nnUNet推理出的预测来生成 Prompt ，相应的标签被用作语义标签。

4.2 与现有先进方法的比较

4.2.1. 在AMOS22数据集上的实验结果。

表2展示了在AMOS22数据集上的定量结果，比较了作者所提出的RFMedSAM 2与广泛认可的分割方法，包括基于CNN的方法（nnUNet [11]）、基于Transformer的方法（UNETR [9]、SwinUNETR [8]、nnFormer [28]）以及基于SAM的方法（SAM [13]、SAM 2 [19]、MedSAM [16]、SAMed [26]和SAM3D [2]）。为确保公平性，所有方法均采用5折交叉验证进行评估，不使用集成技术。

作者观察到，作者的RFMedSAM 2在大多数器官上优于所有现有方法，在DsC领域实现了新的最先进性能。当使用nnUNet的预测结果作为边界框 Prompt 时，与nnUNet的87.8%准确率相比，SAM、SAM 2和MedSAM的准确率分别下降了34%、18%和27%。这些准确率的降低表明结果存在负面影响。SAM 2表现最佳，这表明它具有最强的零样本能力。

具体来说，RFMedSAM 2在DSC上比nnUNet高出2.9%。RFMedSAM 2在DSC上分别比SAMed和SAM3D高出23%和25%。显著的改进表明，作者提出的无 Prompt RFMedSAM 2优于其他无 Prompt SAM模型。在极具挑战性的AMOS 2022数据集上，作者的RFMedSAM 2实现了最先进的性能，这证实了作者的方法的有效性。

4.2.2. 在BTCV数据集上的结果。

表3展示了在BTCV数据集上的定量性能，对比了RFMedSAM 2与基于SAM的领先方法（包括带有适当 Prompt 的SAM [13]、SAM2 [19]、MedSAM [16]、SAM-U [6]和SAM-Med2D [5]）以及不带 Prompt 的SAM基于方法（如SAMed [26]和SAM3D [1]），卷积基方法（VNet [20]和nnUNet [11]），以及基于Transformer的方法（TransUNet [4]、SwinUNet [3]和nnFormer [28]）。作者观察到RFMedSAM 2在所有现有方法中表现最为出色，设定了新的最先进基准。当提供适当的 Prompt 时，RFMedSAM 2实现了92.3%的DSC，比之前的最先进方法提高了5%。

相比之下，在带有适当 Prompt 的SAM基于方法中，最佳性能由SAM-Med2D实现，达到84.7%，而作者的RFMedSAM 2则超出这个水平7.6%，凸显了其相对于带有 Prompt 的SAM方法的优越有效性。当不提供 Prompt 时，作者提出的无 Prompt RFMedSAM 2分别优于其他无 Prompt 的SAMed和SAM3D 9%和6%。与基于非SAM的方法相比，作者的方法在高度饱和的数据集上DsC（分割一致性）方面分别超出nnUNet和nnFormer 6.4%和1%。在图4中，作者展示了与代表性方法的定性结果。这些结果还表明，作者的RFMedSAM 2可以更准确地预测“胃”、“脾”和“肝”标签。

picture.image

4.3. 分析

表5展示了在BTCV和AMOS数据集上不同步骤的输出预测实验结果。结果显示，性能逐渐提升，从初始预测（步骤O，UNet）开始，接着是第一次细化后的第二次预测（步骤1，SAM 2），最后是第二次细化后的第三次预测（步骤2，SAM 2）。图5可视化了这三个不同步骤的比较。结果清晰地展示了通过两次细化逐步填充孔洞的过程，突显了作者模型细化过程的有效性。

picture.image

目标分数。作者实验了三种不同的 Baseline 模型：使用 Prompt 对SAM 2进行微调，以可学习的边界框作为 Prompt 生成器，以及以可学习的 Mask 作为 Prompt 生成器，这两种情况都包括和不含目标分数的预测。表4显示，

i)与使用不含目标分数的 Prompt 相比，使用 Prompt 学习目标分数并没有显著提高性能，因为 Prompt 本身就已经表明了目标是否存在于给定帧中。

ii)具有可学习边界框的模型从学习目标分数中受益，因为边界框预测的准确性通常不高。

iii)具有可学习 Mask 的模型在学习目标分数时表现更差，因为输出预测 Mask 的概率分布提供了更准确的预测。目标分数，它直接决定一个单一的概率平面，可能会对这种准确性产生负面影响。输入 Patch 大小和UNet选择。表6显示了不同输入 Patch 大小（像素数量相同）的性能。增加深度维度的数量可以带来好处。表7展示了不同的U-Net架构。

它表明3D UNet优于2D UNet，因为深度维度是可以学习的。在瓶 Neck 分引入注意力块由于对医学图像分割的强烈归纳偏见而无法带来好处。

picture.image

结论

在本文中，作者介绍了RFMedSAM 2，这是一种用于自动 Prompt 优化的新型框架，它扩展了SAM 2流程，以促进多个优化阶段，从而使其适用于 Voxel 医学图像分割。作者探索了两个主要分支，以充分利用SAM 2的潜力。

本研究的第一部分专注于评估当SAM 2接收到准确 Prompt 时的性能上限。为了提升模型，作者提出了深度卷积 Adapter （DwConvAdapters），用于涉及图像嵌入的注意力块以捕捉空间信息，以及CNN- Adapter 用于卷积层以实现高效的微调。借助这些 Adapter 和优化的内存注意力定位，作者的模型在BTCV[14]数据集上实现了92.30%的Dice相似系数（DsC），超越了nnUNet的12%。

第二部分旨在克服对精确 Prompt 的依赖，通过设计一个能够自动生成精确 Prompt 的模块来实现。基于确定上限和修改SAM 2所获得的见解，作者提出一个独立的U-Net来预测 Mask 和边界框，这些作为SAM 2的输入 Prompt 。这些 Prompt 在SAM 2内部经历了两个优化阶段，进一步提升了性能。作者的模型在AMOS2022[12]和BTCV[14]数据集上分别实现了90.7%和86.7%的DsC。

unset

参考

unset

[1]. RFMedSAM 2: Automatic Prompt Refinement for Enhanced Volumetric Medical Image Segmentation with SAM 2 .

点击上方卡片，关注

「AI视界引擎」

公众号