ICML2024 SAM再下一城 | SOTA性能，用基于双层优化的BLO-SAM来微调自动图像分割 - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

picture.image

Abstract

SAM 是一个在数百万图像和分割 Mask 上进行预训练的基础模型，显著推进了计算机视觉中的基本任务-语义分割。一个在数百万图像和分割 Mask 上进行预训练的基础模型，显著推进了计算机视觉中的基本任务——语义分割。尽管SAM有其优势，但面临两大挑战。首先，它在自主分割特定目标时存在困难，因为它依赖于用户手动输入如点或边界框等提示来识别目标目标。其次，由于SAM的预训练数据分布主要是通用领域的图像，与下游任务中使用的数据存在差异，因此它在特定下游任务，如医学成像方面面临挑战。目前解决这些问题的方法，通常涉及对SAM进行微调，但经常导致过拟合，这在数据非常有限的场景中，如医学成像中，是一个显著问题。为了克服这些限制，作者引入了基于双层优化（BLO）的BLO-SAM微调方法。作者的方法通过优化一个可学习的提示嵌入，实现了无需手动提示的自动图像分割。此外，它通过在不同的优化层次上分别对模型的权重参数和提示嵌入使用训练数据集的两个子集进行训练，从而显著降低了过拟合的风险。作者将BLO-SAM应用于通用和医学领域的多样本语义分割任务。结果显示，BLO-SAM在多种最先进的图像语义分割方法中表现出卓越的性能。BLO-SAM的代码可在https://github.com/importZL/BLO-SAM获取。

unset

unset1 Introductionunset

unset

语义分割是计算机视觉中的一个关键任务，旨在为每个像素分配一个语义类别（如狗和猫等目标类别，或天空和海洋等场景类别）（Mo等人，2022年）。深度学习已经在提高语义分割性能方面取得了巨大成功（Lateef & Ruichek，2019年）。这种进步进一步得到了基础模型（FMs）（Bommasani等人，2021年）的推动，即大型预训练模型，它们在各种任务中展现了前所未有的普遍性，包括视觉（Radford等人，2021年；Moor等人，2023年）、语言（Brown等人，2020年；Touvron等人，2023年；20）和多模态（Alayrac等人，2022年；Wang等人，2022年）。基于1100万图像 Mask 对的数据引擎，Segment Anything Model（SAM）（Kirillov等人，2023年）作为一个值得注意的分割基础模型出现，并在分割多样化的自然图像方面表现出强大的能力。作为一种新型的可提示分割模型，SAM通过在提供适当的点或边界框作为提示时生成所需的分割 Mask 而与众不同。

尽管基于提示SAM在生成精确的分割 Mask 方面表现出色，但它面临一个显著的局限性——它不能自主分割特定目标，因为它需要点或边界框作为手动提示1。例如，如果作者想要从胸部X光图像中分割肺，作者需要在肺部区域提供至少一个点或包含肺的边界框，以指示要分割的目标是肺。在将SAM应用于下游分割任务时，另一个重大挑战来自于SAM的预训练数据与下游任务中的数据之间的分布差异。在数据分布偏离预训练数据的情况下，即使有适当的提示，SAM也难以准确分割期望的目标（Mazurowski等人，2023；He等人，2023）。

为了解决分布差异问题，Med-SA（Wu等人，2023年）利用Adapter（Houlsby等人，2019年）对SAM的图像编码器和 Mask 解码器在下游任务中进行微调，从而在多个医学数据集上优于几种SOTA分割方法的表现。然而，Med-SA在训练和推理阶段仍然需要由人类提供或从初始分割 Mask 生成的提示，这使得它在实际应用中不太实用。为了解1决这两个挑战（即分布差异和需要手动提示的问题），SAMed（Zhang和Liu，2023年）用默认提示（即可学习的向量）而不是手动提示来微调SAM，直接输出所有类别的多个分割 Mask 。然而，上述方法仍有局限性。当在下游任务中标记数据非常有限时，它们存在过拟合的风险。例如，在医学领域，带有标记分割 Mask 的图像往往是稀缺的，这要么是由于输入图像数量有限（例如，出于隐私考虑），要么是由于获取分割 Mask 困难（例如，需要领域专家进行标注，这既耗时又昂贵）。在标签稀缺的情况下对像SAM这样的大型基础模型进行微调，通常会导致对训练数据的过拟合以及对测试图像的泛化能力差。正如作者的实验所示（见图2），SAMed和Med-SA遭受严重的过拟合和测试性能低下。

picture.image

针对上述挑战，作者引入了BLO-SAM，这是一种基于双层优化（BLO）的SAM微调方法，旨在解决过拟合问题。BLO-SAM通过在训练数据的两个分割上更新两组可学习参数来对抗过拟合。如图1(a)所示，BLO-SAM涉及两组参数：i) 分割模型的权重参数，包括LoRA层（Hu等人，2021年）、转置卷积和MLP头，以及ii) 提示嵌入。这些参数通过两个 Level 的嵌套优化问题进行优化，如图1(b)所示。在较低 Level 中，作者通过在训练数据集指定子集上最小化微调损失来迭代训练分割模型权重，同时保持可学习的提示嵌入固定。在此微调之后，作者转移到较高 Level ，以验证模型在训练数据剩余子集上的有效性。然后通过最小化验证损失来更新提示嵌入。通过将不同可学习参数的学习过程隔离到两个优化问题中的不同数据子集，作者的方法有效地减轻了过拟合单一数据集的风险，提升了模型在测试示例上的泛化能力。

picture.image

BLO-SAM对抗过拟合的机制受到了对超参数调整这一成熟实践的启发（Franceschi等人，2018年）。通常，模型的权重参数（如神经网络中的权重和偏置）在训练数据集上进行训练，而超参数（如神经网络中的层数）则在单独的验证集上进行调整，这防止了对训练数据的过拟合。如果超参数也在训练集上进行调整，会导致严重的过拟合。同样，在SAM的背景下，提示嵌入可以被视为一种“超参数”形式。当这些嵌入与分割模型权重一起，通过在单个数据集上最小化损失函数来优化时，就会出现过拟合，正如SAMed所做的那样。作者的BLO-SAM遵循了“超参数调整”的正确方式：它在“验证集”——训练数据的一个子集上优化“超参数”——提示嵌入，同时在另一个子集上训练分割模型权重。作者的工作有两个主要贡献：作者提出了BLO-SAM，这是一种具有过拟合抗性的方法，仅用少数训练样本即可对SAM进行微调。作者建议在一个BLO框架内，针对两个不同的子数据集来学习SAM的提示嵌入和模型参数，有效地在超低数据环境下对抗过拟合。此外，作者的方法实现了完全自动化的分割，无需在推理和训练过程中手动设置提示。这大大增强了SAM在实际应用中的实用性。

作者在通用领域和医疗领域的六个数据集上的广泛实验表明，在不到10个训练样本的情况下，BLO-SAM展现出了强大的有效性。作者的方法在没有手动提示的情况下，显著优于原始SAM、基于SAM的模型、少样本语义分割方法以及流行的分割模型。

unset

unset2 Related Workunset

unset

Semantic Segmentation

在语义分割领域，近年来已经取得了实质性进展，特别是在基于深度学习的方法背景下。许多研究聚焦于分割神经网络的架构设计，例如全卷积网络（FCNs）（Long等人，2015年），U-Net（Ronneberger等人，2015年），DeepLab（Chen等人，2017a年），以及SegFormer（Xie等人，2021年）。注意机制的融合，如在Atrous Spatial Pyramid Pooling（ASPP）（Chen等人，2017a年）和非局部神经网络（Wang等人，2018年）中的体现，进一步提高了语义分割中的上下文理解。最近，Segment Anything Model（SAM）（Kirillov等人，2023年）作为图像分割的FM模型出现。SAM使用经过MAE预训练的ViT（He等人，2022年）来编码输入图像，位置嵌入来编码提示，并基于轻量级Transformer（Vaswani等人，2017年）的 Mask 解码器来生成高质量的分割 Mask 。具体细节请参见附录B。

正如第一节所讨论的，多项工作（Mazurowski等人，2023；He等人，2023）显示，当SAM在预训练数据与任务特定数据之间存在明显差异时，其在下游任务中的有效性会降低。例如，He等人（2023）研究了SAM在12个医学分割数据集上的表现，结果显示在某些数据集上，SAM的表现显著不如五种最先进的算法。这些发现强调了在将SAM应用于自然图像以外的领域时，有必要对其进行微调。为了解决这个问题，MedSAM（Ma和Wang，2023），Med-SA（Wu等人，2023）和SAMed（Zhang和Liu，2023）在医学图像上对SAM进行微调，表现优于多种最先进的方法。为了使用文本提示SAM，LISA（Lai等人，2023）将多模态大型语言模型LLaVA（Liu等人，2023a）与SAM整合在一起。此外，Yang等人（2023）和Cheng等人（2023）进一步将SAM扩展到视频分割和视频中的目标跟踪，展示了SAM在一系列视觉任务中的灵活性。

Model Finetuning

微调技术已经在将大型基础模型适应于特定下游任务方面展示了最先进的效果（Radford et al., 2018; Devlin et al., 2018）。然而，随着基础模型的规模增长，微调所有参数的计算成本变得越来越昂贵（Brown et al., 2020; Touvron et al., 2023a; Kirillov et al., 2023）。因此，已经提出了各种参数高效的微调方法来缓解这个问题。例如，Adapter（Houlsby et al., 2019）将可训练的 Adapter 层注入到预训练的Transformer（Vaswani et al., 2017）中。低秩适应（LoRA）(Hu et al., 2021)在基础模型的预训练权重矩阵中添加可学习的低秩矩阵，并在微调阶段只优化低秩矩阵，而预训练参数保持冻结。Zhang et al. (2023a) 提出在适应特定下游任务时，根据不同LoRA层的重要性分数自适应地为更新它们分配预算。Prompt-tuning（Lester et al., 2021）针对特定下游任务提出可优化的“软提示”，在微调过程中只优化这些可训练的提示。P-tuning（Liu et al., 2023b）通过训练一个神经网络生成提示嵌入，同时保持预训练参数冻结，以此微调预训练的基础模型。IA3（Liu et al., 2022）提出将预训练基础模型的激活层输出与可训练向量相乘，并在微调阶段优化这些向量。与这些强调参数效率的方法相反，作者的方法聚焦于减轻过拟合。它是设计来补充这些方法，而不是替代它们。

Bi-Level Optimization

双层优化（BLO）是指一类优化问题，其中一个优化问题（下层）嵌套在另一个优化问题（上层）中（Sinha等人，2017年）。各种任务可以在BLO框架内制定，包括元学习（Finn等人，2017年；Killamsetty等人，2022年；Qin等人，2023年），神经结构搜索（Liu等人，2018年；Hosseini和Xie，2022年），以及数据重加权（Shu等人，2019年；Garg等人，2022年；Hosseini等人，2023年）。在这些任务中，模型权重通常在数据集的训练部分进行下层优化时学习，而像超参数或架构这样的元变量则在上层优化中，在一个独立的验证部分学习，以减轻过拟合的问题。

已经开发了多种基于梯度的优化算法和软件以解决双层优化（BLO）问题。例如，Liu等人（2018）开发了一种有限差分近似方法，以高效地计算关于BLO问题中上层变量的梯度。Finn等人（2017） Proposal 直接使用迭代微分（Grazzi等人，2020）来计算元变量的梯度更新。Choe等人（2022）开发了一款软件，使用户能够轻松高效地使用不同的近似方法计算BLO问题中的梯度。

unset

unset3 Methodunset

unset

Overview of BLO-SAM

作者的方法，BLO-SAM，采用双向优化（BLO）对SAM进行微调，以适应下游的语义分割任务。在预训练的SAM模型中，部分参数在微调过程中会发生变化，而其余参数保持不变，如图1所示。此外，为了消除对人工提示的需求，作者学习了一个提示嵌入向量。为了防止过拟合，作者将训练集分为两半（分别表示为和），分别用于学习SAM的可微调参数和提示嵌入。在作者BLO框架的较低层次上，SAM的可微调参数（表示为）在子数据集上进行优化，此时提示嵌入（表示为）暂时固定。然后，将依赖于的最优解传递给更高层次。在更高层次的优化中，在子数据集上进行验证。验证损失作为提示嵌入的函数，表示微调后SAM的泛化性能。作者优化以最小化这个验证损失，从而减少过拟合的风险并提高泛化能力。两个层次的问题共享为语义分割设计的相同形式的损失函数。两个层次通过迭代优化，直到收敛，如算法1所示。

picture.image

使用LoRA微调SAM。作者采用了低秩适配（Low-Rank Adaptation，LoRA）(Hu et al., 2021)以参数高效的方式微调SAM。LoRA通过引入一个额外的可学习矩阵（称为LoRA层），该矩阵是低秩的，作为对现有预训练权重矩阵的更新。在微调期间，重点优化这个低秩矩阵，同时保持预训练矩阵不变。值得注意的是，LoRA层的参数数量远少于原始矩阵，从而提升了微调过程的效率。如图3所示，在SAM的 Mask 解码器中所有注意力块的每个 Query 和值投影层中添加了LoRA层，包括自注意力、图像到标记注意力和标记到图像注意力。每个LoRA层包含两个连续的线性层，第一个将输入标记投影到低维空间，第二个从低维空间投影回原始特征空间，以便LoRA的输出可以加到冻结的Transformer层的输出上（图3）。对于不同的注意力块，输入标记是不同的。在自注意力块中，提示嵌入用作所有三个输入标记。对于图像到标记注意力块，提示嵌入用于键和值投影，而图像嵌入用于 Query 投影。相反，在标记到图像注意力块中，图像嵌入用于键和值投影，提示嵌入用于 Query 投影。最终，SAM的可学习参数包括LoRA层中的参数、位于 Mask 解码器中的转置卷积以及多层感知机（MLP） Head ，而所有其他模型参数都是冻结的，如图1(a)所示。

picture.image

Bi-Level Finetuning Framework

低层次优化问题。在低层次上，作者暂时固定提示嵌入，并在第一个子数据集上通过最小化以下损失来优化SAM的可微调参数：

其中和分别表示预测 Mask 和真实 Mask 之间的交叉熵损失和Dice损失，而是一个权衡参数。参数表明损失依赖于模型参数和提示嵌入，且是在数据集上计算得到的。较低层次的目标是解决以下问题：

意味着最优解取决于，因为依赖于损失函数，而损失函数又依赖于。

上层优化问题。在上层中，作者在第二个子数据集上验证经过微调的模型。通过最小化验证损失来更新可学习的提示嵌入：

这是与方程式（1）相同的损失函数，但用替换了，用替换了。方程式3的关键在于损失取决于，而又取决于。因此，作者需要“展开”，以正确计算关于的梯度，具体细节在附录A中详述。

双向优化框架。将上述两个优化问题整合起来，作者得到一个双向优化框架：

在这个框架中，两个优化问题是相互依赖的。较低层的输出作为较高层的输入。较高层中的优化变量在较低层的损失函数中使用。

Optimization Algorithm

作者采用基于梯度的优化算法来解决方程（4）中的问题。借鉴了Liu等人（2018）的方法，作者对方程（2）执行一步梯度下降，以近似最优解。随后，作者将的近似值代入到上层优化问题中。通过梯度下降最小化近似的上层损失函数来更新。这些步骤构成了一次全局优化步骤。作者在下层和上层之间迭代执行全局步骤，直到收敛，如算法1所示。详细的推导过程在附录A中提供。

算法1 BLO-SAM优化算法

We propose an optimization algorithm for the Bilinear Octree-based Spatial Affinity Matrix (BLO-SAM) that efficiently computes the spatial affinity between two sets of features. The algorithm is outlined as follows:

作者提出了一个针对双线性八叉树空间亲和矩阵（BLO-SAM）的优化算法，该算法能够有效地计算两组特征之间的空间亲和力。该算法概述如下：

Initialize an empty BLO-SAM ( \mathbf{S} ) and set ( k ) to the desired number of nearest neighbors.
初始化一个空的BLO-SAM ( \mathbf{S} ) 并将 ( k ) 设置为期望的最近邻数量。
For each feature ( \mathbf{x}_i ) in the first set, compute the distances to all features ( \mathbf{y}_j ) in the second set and sort them in ascending order.
对于第一组中的每个特征 ( \mathbf{x}_i )，计算其与第二组中所有特征 ( \mathbf{y}_j ) 之间的距离，并按升序排序。
For each ( \mathbf{x}i ), select the ( k ) nearest neighbors ( \mathbf{y}{j_1}, \mathbf{y}{j_2}, \ldots, \mathbf{y}{j_k} ) and compute the affinity weights ( w_{i, j_1}, w_{i, j_2}, \ldots, w_{i, j_k} ) using Equation (1).
对于每个 ( \mathbf{x}i )，选择 ( k ) 个最近邻 ( \mathbf{y}{j_1}, \mathbf{y}{j_2}, \ldots, \mathbf{y}{j_k} ) 并使用方程 (1) 计算亲和力权重 ( w_{i, j_1}, w_{i, j_2}, \ldots, w_{i, j_k} )。
Update the BLO-SAM ( \mathbf{S} ) with the affinity weights for each feature ( \mathbf{x}_i ).
使用每个特征 ( \mathbf{x}_i ) 的亲和力权重更新BLO-SAM ( \mathbf{S} )。
Normalize the BLO-SAM ( \mathbf{S} ) row-wise to ensure the sum of the weights for each row is one.
对BLO-SAM ( \mathbf{S} ) 进行逐行归一化，确保每行的权重之和为1。
Return the optimized BLO-SAM ( \mathbf{S} ) for further analysis.
返回优化后的BLO-SAM ( \mathbf{S} ) 以进行进一步分析。

unset

unset4 Experimentsunset

unset

在本节中，作者评估了BLO-SAM在一系列多样化的语义分割任务上的表现，这些任务来自通用领域和医疗领域，包括人脸组件分割、汽车组件分割、人体分割、牙齿分割、胃肠道疾病分割以及肺部分割。为了与SAM兼容，每个多类别分割任务都被转换成了多个二分类分割任务，每个类别对应一个任务。作者的实验重点在于超低数据量环境，其中训练样本数量少于十个。

Datasets

在人脸组件分割任务中，作者采用了CelebAMask-HQ数据集（Lee等人，2020年），这是一组高分辨率的人脸图像，附带有各种人脸组件的分割 Mask ，包括眉毛、眼睛、头发、鼻子和嘴巴。对于车辆分割任务，作者使用了David（2020年）的数据集，其中包含汽车图像及其分割 Mask ，包括四个语义组件：车身、车轮、灯光和窗户。作者只使用了车身、车轮和窗户，因为许多数据实例中缺少“灯光”类别。对于人体分割，作者使用了TikTok舞蹈数据集（Roman，2023年）。对于牙齿、胃肠道疾病和肺部分割任务，作者分别使用了儿童牙科全景射线照片数据集（Zhang等人，2023b）、Kvasir-SEG数据集（Jha等人，2020年）和JSRT数据集（Shiraishi等人，2000年）。每个数据集都包括一个训练集和一个测试集。通过从原始训练集中随机抽取少量示例，作者创建了一个新的少样本训练集，然后用于训练作者的模型和 Baseline 。关于数据集的更多详细信息可以在附录C中找到。作者在随机条件下重复进行三次抽样，主论文中报告了测试集上的平均性能，而标准差在附录E中详细说明。在作者的方法中，抽样新训练集进一步被随机等分为两个子集和。 Baseline 方法使用整个新训练集，不进行任何细分。

Experimental Settings

基准模型与评价指标。作者将作者的方法与多种基准模型进行了比较，包括监督学习、小样本学习和基于SAM的方法。监督学习方法包括在语义分割中广泛采用的DeepLabV3（Chen等人，2017b）以及为医学图像分割设计的类似UNet的 Transformer 模型SwinUnet（Cao等人，2022）。小样本学习方法包括HSNet（Zhang等人，2022），它使用跨语义注意力来弥合低级特征与高级特征之间的差距，以及SSP（Fan等人，2022），它引入了一种自我支持匹配策略来捕捉 Query 目标的连贯的底层特征。基于SAM的基准模型包括原始SAM（Kirillov等人，2023）、Med-SA（Wu等人，2023）和SAMed（Zhang和Liu，2023），分别使用Adapter（Houlsby等人，2019）和LoRA（Hu等人，2021）进行SAM的微调。Med-SA和SAMed在一个单一训练集上更新所有可学习的参数。对于原始SAM，作者从每个 GT Mask 构建了三种不同类型的提示，包括前景中的一个正点、背景中的一个负点和目标目标的边界框。对于Med-SA，其提示同样是从 GT Mask 中提取的。在推理过程中，SAM和Med-SA都需要用户生成的提示，当测试图像数量众多时，这一要求是不可行的。遵循SAM和Med-SA的评价协议，这些提示是提前从 GT Mask 中衍生出来的。重要的是要认识到这种方法是不切实际的，因为它需要访问测试图像的 GT Mask 。尽管如此，它们仍是作者能够进行比较的最容易获得的基准模型。所有实验都是在具有80G内存的A100 GPU上进行的。

作者使用了Dice得分作为评估指标。Dice得分定义为，其中和分别代表预测 Mask 和真实 Mask 。

超参数。在作者的方法中，方程（1）中的权衡参数设置为，遵循张和刘（2023）的设置。LoRA层和其他非冻结的模型组件在较低层次使用AdamW优化器（Loshchilov和Hutter，2017）进行优化。作者将初始学习率设置为 -，betas设置为，权重衰减设置为。第次迭代的学习率遵循公式（张和刘，2023）中的计算：。这里，和分别代表初始学习率和最大训练迭代次数。对于上层提示嵌入的更新，作者使用了与低层次优化相同的设置。作者将训练周期数设置为，并根据在子数据集上的分割性能选择最佳预训练权重。

Results and Analysis

人脸组件分割。在作者对CelebAMask数据集上使用BLO-SAM进行人脸组件分割的评估中，作者有两组设置，每组训练样本数量不同（4个或8个）。表1中呈现的结果揭示了一些值得注意的观察。

picture.image

首先，BLO-SAM展示了其强大的能力，即使仅有非常少量的训练样本，也能对SAM进行微调，以实现精确的面部组件分割。例如，仅使用4个标记样本（其中2个用于，另外2个用于），BLO-SAM就能达到整体Dice得分为，而当训练数据集大小增加到8个时，得分提升到。BLO-SAM的有效性扩展到各个面部组件，以仅有4个训练样本时，对头发分割达到的Dice得分为例，这一成果是在没有任何人工输入提示的情况下实现的。

其次，作者的BLO-SAM方法相较于标准的SAM显示出显著的改进。例如，仅在4个标记示例上进行微调时，BLO-SAM将SAM的Dice分数从显著提升到。这些结果清楚地表明了作者的方法作为一种有效的SAM微调方法的优势。它熟练地将预训练的SAM适应到下游任务特定的数据分布中，仅使用几个示例即可。

第三，BLO-SAM超越了其他基于SAM的方法，包括Med-SA和SAMed，这些方法同样对预训练的SAM进行针对特定语义分割任务的微调。与Med-SA或SAMed不同，后者在单个训练集上更新所有可学习参数，BLO-SAM采用双层优化来在训练数据的非重叠子集上更新分割模型权重和提示嵌入，有效地减轻了过拟合的风险。虽然Med-SA的性能与作者的方法相近，但在测试过程中它需要用户手动提供提示。这个要求在很大程度上限制了其在现实世界应用中的实用性。相比之下，作者的方法完全自主运行，无需手动提示。

最后，与诸如DeepLab和SwinUnet等通用监督学习方法相比，当使用非常少量的示例进行训练时，BLO-SAM显示出显著的优势。例如，在使用4个标记示例的情况下，DeepLab的整体Dice得分是，而BLO-SAM则获得了显著更高的Dice得分，达到。除了在4个示例的眉毛分割方面，BLO-SAM还在其他方面优于包括HSNet和SSP在内的少样本学习方法。这种优越性归功于它通过微调将SAM的能力转移到下游任务中。

图4展示了一些定性比较。作者可以看到，BLO-SAM与基准方法相比生成了更准确的分割 Mask 。

picture.image

车辆分割与人体分割。作者进一步评估了BLO-SAM在分割车辆部件方面的性能。表2显示，在总体Dice得分上，BLO-SAM超过了所有基准方法。在单个部件方面，BLO-SAM在大多数类别中优于基准，只有在“轮子”方面有例外。在人体分割任务中，BLO-SAM同样优于基准模型，如表2所示。作者方法的优势在于，它具有强大的能力，只需少数数据样本就能适应SAM到下游任务的数据分布，同时通过BLO框架克服过拟合，并消除对手动提示的需求。作者在人体分割任务中进一步增加了训练样本的数量。结果见附录G。

picture.image

医学图像语义分割。为了进一步评估作者的方法，作者在几个医学图像分割任务上进行了实验，这些任务中可能存在从SAM的预训练数据到医学数据集的重大分布偏移。这种分布偏移可能会严重损害SAM在医学领域的性能。作者在牙齿、胃肠道疾病和肺部分割任务上进行了实验，并在表3中报告了结果。对于所有医学分割任务，BLO-SAM与 Baseline 方法相比取得了最佳性能。与 Baseline 方法相比，BLO-SAM在4个示例情况下的优势比在8个示例情况下更为明显，这强调了BLO-SAM在少样本设置中对抗过拟合和提高泛化能力的强大性能。BLO-SAM的优势也可以通过比较预测的分割 Mask 来展示，如附录H所示。

picture.image

计算成本和参数数量。作者在A100 GPU上测量了所有方法的训练成本。可以看出，BLO-SAM与其他基于SAM的方法在训练时间（表3）和推理时间（附录D）上具有可比性。更详细的分析可以在附录D中找到。此外，正如表3所示，BLO-SAM在所有可训练方法中具有最小的可训练参数，突显了其参数效率。

Ablation Studies

SAM可训练组件的消融研究。SAM包括三个主要组成部分：图像编码器、提示编码器和 Mask 解码器。作者有4种消融设置，包括1）微调 Mask 解码器（与BLO-SAM相同），2）图像编码器（通过集成到内部Transformer块中的LoRA层），3）提示编码器（通过更新卷积层），以及4）微调以上所有组件。这项消融实验是在身体和牙齿分割数据集上进行的，每个数据集在微调期间有4个标记的示例。结果展示在图5中，作者有一些关键发现。首先，在将SAM适应特定的语义分割任务时， Mask 解码器是微调中最关键的组件。其次，微调SAM的所有三个组件可以提高性能，尽管这会以增加可训练参数和训练成本为代价。因此，在作者的BLO-SAM方法中，作者只微调 Mask 解码器。

picture.image

对优化提示嵌入方法的研究剔除。在本研究中，作者探讨了三种优化提示嵌入方法的有效性。实验是在4个标记样本的身体和牙齿分割任务上进行的。第一种方法在和的组合上同时优化提示嵌入和模型参数。第二种和第三种方法在上优化提示嵌入，如同BLO-SAM，但分别使用一阶和二阶近似来计算BLO问题中的梯度（具体细节见附录A）。在先前提到的实验中，作者使用一阶近似，它在计算上比二阶近似更高效，以降低计算成本。

对图6中展示的结果分析表明，在子数据集上优化参数的同时，在子数据集上优化参数，与在和的组合上同时优化两个参数集和相比，可以获得更优的性能。这一观察强调了在互不相交的子数据集上分别优化不同的参数集的优势，这被证明比在单个数据集上优化所有参数的方法更有效地减轻过拟合的风险。此外，结果显示，与一阶方法相比，二阶优化有望进一步提高模型的最终性能。然而，必须认识到这些好处伴随着计算上的挑战，并且需要增加计算资源。

picture.image

unset

unsetAppendix F presents three additional ablation studies.unset

unset

unset5 Conclusionunset

unset

在本文中，作者提出了BLO-SAM，这是一种新方法，用于在没有手动提示的情况下，微调Segment Anything Model（SAM）以执行下游的语义分割任务。通过利用双层优化策略，作者在两个不同的子数据集上优化分割模型参数和提示嵌入，从而减轻过拟合风险并提高泛化能力。在有限标记训练数据的多样化任务上的实验强烈证明了BLO-SAM的有效性。

unset

unset6 Impact Statementsunset

unset

这篇专注于对Segment Anything Model（SAM）进行微调的论文，在少样本设置下推进语义分割方面，特别是在通用和医疗领域内，代表着重要的进展。从伦理角度来说，这一尝试提出了关于在医疗保健中负责任地使用强大AI技术的问题，它可能改善诊断过程，但也需要仔细考虑患者隐私和数据安全。社会影响是广泛的，因为改进的分割能力可以从自动驾驶车辆到医疗成像等不同行业受益。然而，负责任地部署这些进步是避免意外后果和偏见的关键。在创新和伦理考虑之间找到平衡将是在利用这一研究为社会造福方面至关重要的。

unset

unset参考unset

unset

[1].BLO-SAM: Bi-Level Optimization Based Finetuning of the Segment Anything Model for Overfitting-Preventing Semantic Segmentation.

点击上方卡片，关注「AI视界引擎」公众号