SAM家族添成员 | 您的标注工具是不是该换了？EfficientSAMs比SAM变轻也变强了 - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

picture.image

Segment Anything Model (SAM) 已成为众多视觉应用的强大工具。驱动其令人印象深刻的表现（零样本迁移和高灵活性）的关键组件是一个在广泛的优质 SA-1B 数据集上训练的超大型 Transformer 模型。尽管 SAM 模型具有好处，但其巨大的计算成本限制了其在更广泛的实际应用中的使用。

为了解决这个问题，作者提出了 EfficientSAMs，这是一种轻量级 SAM 模型，在显著降低复杂性的同时表现出良好的性能。作者的想法是基于利用遮蔽图像预训练，SAMI，它学习从 SAM 图像编码器重建特征，从而实现有效的视觉表示学习。进一步地，作者使用 SAMI 预训练轻量级图像编码器和解码器来构建 EfficientSAMs，并在 SA-1B 上进行模型微调，以进行任何分割任务。作者对多个视觉任务进行了评估，包括图像分类、目标检测、实例分割和语义目标检测，并发现作者提出的预训练方法，SAMI，始终在其他遮蔽图像预训练方法中表现出色。

在零样本实例分割任务中，作者的 EfficientSAMs 与 SAMI 预训练轻量级图像编码器表现出良好的性能，与其他快速 SAM 模型相比，获得了显著的改进（例如，在 COCO/LVIS 上提高了约 4 个 AP）。

1 Introduction

Segment Anything Model (SAM) [31] 在视觉领域非常成功，在各种图像分割任务（如零样本边缘检测[1, 31]、零样本物体提出[31, 54]和零样本实例分割[31]）中实现了最先进的性能，并在许多实际应用中得到应用[24, 37, 41, 50, 51, 52]。SAM 的关键特性是基于提示的视觉 Transformer (ViT)[19] 模型，该模型在包含超过 10 亿个遮罩的 1100 万张图像的大规模视觉数据集上进行训练，允许在给定的图像上分割任何目标。这种 Segment Anything 的能力使 SAM 成为视觉的基础模型，并使其应用范围扩展到视觉之外。

尽管在前面的优势，SAM 模型的架构在实际部署中成为了效率的主要瓶颈，尤其是图像编码器（例如 ViT-H）。请注意，在 SAM 中，ViT-H 图像编码器有 632M 个参数，而基于提示的解码器只有 3.87M 个参数。因此，当在实际中使用 SAM 进行任何分割任务时，会导致高计算和内存成本，这使得实时应用具有挑战性。

为了应对这个挑战，一些最近的工作提出了避免在应用 SAM 进行提示式实例分割时承担巨大成本的策略。例如，[68] 建议将默认 ViT-H 图像编码器的知识浓缩到微小的 ViT 图像编码器中。在 [71] 中，通过实时 CNN 基础的 Segment Anything 任务的计算成本可以得到降低。

在本文中，作者提出使用经过良好预训练的轻量级 ViT 图像编码器（例如 ViT-Tiny/Small[53]）来降低 SAM 的复杂性，同时保持良好的性能。作者的方法是利用 SAM 模型来获得高质量的预训练 ViT 编码器，从而为分割任何事物任务生成所需的预训练轻量级 ViT Backbone 网络。具体而言，作者的 SAMI 方法利用 SAM 编码器（例如 ViT-H）来生成特征嵌入并使用轻量级编码器来训练遮蔽图像模型，以从 SAM 的 ViT-H 中重构特征，而不是图像块。这导致了一般化的 ViT Backbone ，可以用于下游任务，如图像分类、目标检测和分割任何事物。然后作者使用 SAM 解码器来微调预训练的轻量级编码器，以便在分割任何事物任务上进行微调。

为了评估作者的方法，作者考虑了一个迁移学习设置的遮蔽图像预训练环境，其中模型首先在 ImageNet 上使用重建损失进行预训练，图像分辨率设为 224x224，然后在有监督数据的目标任务上进行微调。作者的 SAMI 学习轻量级编码器，这些编码器在概括性方面表现良好。通过 SAMI 预训练，作者可以在 ImageNet-1K 上训练像 ViT-Tiny/Small/Base 这样的模型，并提高其泛化性能。对于 ViT-Small 模型，作者在微调 ImageNet-1K 上的 100 个周期时，获得了 82.7% 的 top-1 准确率，超过了其他最先进的图像预训练 Baseline 。作者还将在目标检测、实例分割和语义分割等任务上微调作者的预训练模型。在这些任务中，作者的预训练方法都取得了比其他预训练 Baseline 更好的结果，更重要的是，作者观察到小型模型取得了显著的改进。此外，作者在 Segment Anything 任务上评估了作者的模型。在零样本实例分割方面，作者的方法与最近的轻量级 SAM 方法（包括 FastSAM）相比，在 COCO/LVIS 上取得了 4.1AP/5.2AP 的优势。

picture.image

作者主要的贡献可以概括如下：

作者提出了一个基于 SAM 的遮蔽图像预训练框架 SAMI，该框架训练模型以从 SAM ViT-H 图像编码器中重构特征。作者证明了这种方法可以显著提高图像遮蔽预训练方法的表现。

作者展示了 SAMI 预训练 Backbone 可以很好地泛化到许多任务，包括图像分类、目标检测和语义分割。

作者推出了高效 SAM 模型 EfficientSAMs，这是一种轻量级 SAM 模型，具有最新的质量和效率权衡（见图 1），可以与 SAM 模型互补，用于实际部署。代码和模型将被开源，以造福广泛的 SAM 高效应用。

2 Related Work

作者简要回顾了关于分割任何事物模型、视觉 Transformer 、知识蒸馏和遮蔽图像预训练的相关工作。

Segment Anything Model

SAM[31] 被誉为里程碑式的视觉基础模型，它可以根据交互提示在图像中分割任何目标。SAM 显示了卓越的零样本迁移性能和高灵活性，适用于许多视觉任务，包括各种分割应用[7, 8, 10, 17]，修复[67]，图像恢复[29]，图像编辑[21]，图像阴影消除[69]，目标跟踪[14, 65] 和 3D 目标重建[49]。还有许多其他工作试图将 SAM 推广到实际场景，包括医学图像分割[41]，伪装目标检测[51]，透明目标检测[24]，概念解释[50]，语义共享[52]，以及帮助视觉障碍人士[37]。由于其广泛的实际应用，SAM 的实际部署也日益受到关注。一些最近的工作，包括[68, 71] 提出了减少 SAM 计算成本的策略。FastSAM[68] 开发了一种基于 CNN 的架构，YOLOv8-seg[30]，以提高效率。MobileSAM[71] 提出了一种解耦的蒸馏方法，以获取 SAM 的轻量级图像编码器。作者的工作重点在于处理 SAM 的效率问题，以实现其实际部署。

Vision Transformers

ViTs [19] 在视觉应用中取得了令人印象深刻的性能[5, 20, 26, 34, 39, 44]。ViTs 展示了相对于 CNN 类模型[26]的优势和泛化能力。也有许多关于部署高效 ViTs 的工作。较小的 ViTs，如 ViT-Small/Deit-Small 和 ViT-Tiny/DeiT-Tiny，是在 [53] 中引入的，以补充 ViT-Huge、ViT-Large 和 ViT-Base 在 [19] 中。由于卷积可以以减少参数和计算成本的方式捕获局部信息，MobileViT[42] 探索将 ViT 与卷积相结合，这超过了轻量级 CNN 模型 MobileNet-v2/v3[32, 48] 具有更好的任务级别泛化特性和减少内存大小和计算成本。这个技巧在许多后续工作中使用，包括 LeViT[22]，EfficientFormer[35]，Next-ViT[33]，Tiny-ViT[61]，Castling-ViT[66]，EfficientViT[38]。设计高效 ViTs 的一系列进展与作者的 EfficientSAM 工作构建高效 SAM 目标是平行的。

Knowledge Distillation

知识蒸馏（KD）是一种在不改变深度学习模型架构的情况下提高其性能的技术。[27] 是将更大教师模型中的暗知识蒸馏到较小学生模型的开创性工作。学生模型的学习受到教师模型提供的硬标签和软标签的监督。这一做法被多个旨在更好地利用软标签以传输更多信息的工作所遵循。在 [64] 中，蒸馏方法将表示学习与分类解耦。解耦知识蒸馏[70] 将经典的 KD 损失分为两部分，即目标类知识蒸馏和非目标类知识蒸馏，从而提高知识传递的有效性和灵活性。另一项工作是从中间特征中转移知识。FitNet [47] 是一项开创性工作，它直接从教师模型中间特征中蒸馏语义信息。在 [60] 中，引入了一个自监督教学助手（SSTA），它与监督教师一起指导基于 ViT 的学生模型的学习。 [2] 研究了从预训练 MAE 模型中蒸馏知识的可能性，通过在较大 MAE 教师模型和较小 MAE 学生模型之间的中间特征对齐。

Masked Image Pretraining

自监督预训练方法 [6] 在计算机视觉领域引起了广泛关注。一条工作线是对比学习方法[9, 11, 57, 62]，通过在不同增强的图像视图之间强加高相似性来学习增强不变性。虽然学习的表示具有良好的性质，如高线性可分性，但对比学习方法依赖于强大的增强和负采样。另一条有趣的工作线是遮蔽图像建模（MIM），它通过重建遮蔽图像块来帮助模型学习有意义的表现。MIM 先驱工作专注于使用去噪自动编码器[56] 和上下文编码器[43] 训练具有遮蔽预测目标的视觉 Transformer 。有许多关于使用 MIM 进行自监督图像预训练的有前途的工作。BEiT[3] 是第一个采用 MIM 进行 ViT 预训练以预测视觉 Token 的方法。在 BEiTv2[44] 中，利用语义丰富的图像 Token 器作为更好的重构目标。在 MaskFeat[59] 中，重构来自 HOG 描述符的局部梯度特征导致有效的视觉预训练。在 SimMIM[63] 和 MAE[26] 中，直接重构遮蔽图像块的像素值实现有效的视觉表示学习。基于 MAE 的后续工作使用大型教师模型指导 MAE 预训练[2, 28, 60]。作者的工作基于 MAE，并发现利用 MAE 从 SAM 图像编码器中重构特征使得预训练变得非常有效。

3 Approach

Preliminary

遮蔽自动编码器（MAE）模型有两个组件，编码器和解码器。编码器和解码器都基于 Transformer 层[55]。MAE 接受图像 Token ，即输入图像的非重叠块，作为输入。这些输入 Token 被分为未遮蔽 Token 和遮蔽 Token ，比例由给定的遮蔽比例确定。未遮蔽 Token 将保留给编码器用于提取特征，而遮蔽 Token 将作为需要在学习过程中进行重构的 MAE 解码器的学习目标（MIM）。MAE[26] 采用高遮蔽比例（例如 75%），以防止在预训练阶段出现信息泄露（例如，仅根据邻居简单外推遮蔽像素）。

SAM-Leveraged Masked Image Pretraining

picture.image

现在作者将 MAE 框架应用于获得分割任何事物模型的有效图像编码器。受到 SAM[31] 高灵活性的启发，作者探索从 SAM 图像编码器中获取潜在特征作为重构目标，以利用 MAE。作者的方法强调在 SAM 中嵌入的知识的传递。图 2（顶部）说明了提出的基于 SAM 的遮蔽图像预训练方法 SAMI 的概述。编码器将未遮蔽 Token 转换为潜在特征表示，而解码器则利用编码器输出的特征嵌入帮助遮蔽 Token 表示的重建。重构表示学习受到来自 SAM 的潜在特征的指导。

交叉注意力解码器。在 SAM 特征的监督下，作者观察到只需要通过解码器重构遮蔽 Token ，而编码器的输出可以作为重构过程中的 Anchor 点。在交叉注意力解码器中， Query 来自遮蔽 Token ，而键和值分别来自编码器未遮蔽的特征和遮蔽特征。作者将来自交叉注意力解码器遮蔽 Token 的输出特征与来自编码器未遮蔽 Token 的输出特征合并，用于 MAE 输出嵌入。然后，将此组合特征按输入图像 Token 的原始位置重新排序，以得到最终的 MAE 输出。

线性投影头。作者通过作者的编码器和解码器获得图像输出。然后作者将这些特征输入到一个小项目头中，以将来自 SAM 图像编码器的特征对齐。为了简单起见，作者只使用线性投影头来处理 SAM 图像编码器输出和 MAE 之间的特征维度不匹配问题。

重建损失。在每个训练迭代中，SAMI 包括来自 SAM 图像编码器的馈送特征提取，以及 MAE 的馈送和反向传播过程。将 SAM 图像编码器输出和 MAE 线性投影头的输出进行比较，以计算重建损失。

令 SAM 图像编码器为，MAE 的编码器和解码器分别为和，权重分别为和，线性投影头为，权重分别为。假设输入 Token 为，其中是 Token 的数量。输入 Token 随机分组为未遮蔽 Token ，，遮蔽 Token ，其中遮蔽比例为给定的值。特征重排运算符为，合并运算符为。

作者的目标特征来自 SAM 图像编码器可以表示为，MAE 编码器的输出为，解码器输出为。线性投影头的输出为。因此，作者的目标重构损失可以表示为：

在作者的实验中，作者使用范数作为重构损失。通过最小化重构损失，作者的编码器被优化为作为图像 Backbone ，用于提取特征，类似于 SAM 图像编码器。作者的编码器、解码器和线性投影头被优化为学习 SAM 图像编码器中的上下文建模能力。优化所有 Token 的重构损失将知识嵌入在 SAM 中传递。

为了构建高效的 SAM 模型以解决分割任何事物任务，作者在预训练后使用 SAMI 预训练的轻量级编码器，如 ViT-Tiny 和 ViT-Small 作为图像编码器，并使用 SAM 的默认遮蔽解码器作为作者的 EfficientSAM。如图 2（底部）所示。作者在 SA-1B 数据集上微调作者的 EfficientSAM 模型以解决分割任何事物任务。作者的 EfficientSAM 框架的概述如图 2 所示。

4 Experiments

Experimental Settings

预训练数据集。作者的遮蔽图像预训练方法 SAMI 在带有 1.2 亿图像的 ImageNet-1K 训练集上进行。遵循遮蔽图像预训练 [26]，作者不使用标签信息。作者使用来自 [31] 的 SAM ViT-H 图像编码器在预训练作者的 ViT 模型时生成重构特征，这些模型包括 ViT-Tiny，ViT-Small 和 ViT-Base。

预训练实现细节。作者的 ViT 模型使用均方误差（MSE）损失进行重构。作者使用批量大小为 4096，AdamW 优化器 [40] 具有学习率 2.4e-3，，，权重衰减 0.05，线性学习率过第一个 40 个周期后，余弦学习率衰减以更新作者的模型。作者只采用随机大小裁剪到 224x224 分辨率，随机水平翻转，并进行数据增强的归一化。遮蔽比例设置为，解码器包含 8 个 Transformer 块，与 [26] 中一样，具有 512 个维度。作者使用 PyTorch 框架在 V100 机器上预训练 SAMI 400 个周期。对于参考，需要 1600 个周期的预训练以获得 MAE[26]。

下游任务/数据集/模型。 任务和数据集。 首先考虑三个基准数据集和几个代表性的视觉任务，以展示提出的 SAMI 的优越性，包括在 ImageNet 数据集[16]上进行图像分类，具有 1.2 亿训练和 50K 验证图像；在 COCO 数据集[36]上进行目标检测和实例分割，具有 118K 训练和 5K 验证图像；在 ADE20K 数据集[72]上进行语义分割，具有 20K/2K/3K 图像分别用于训练、验证和测试。然后，作者考虑分割任何事物任务，以进一步展示作者提出的 SAMI 的优势。作者在 SA-1B 数据集[31]上使用作者预训练的轻量级图像编码器对 SAM 进行微调，该数据集包含 11M 高分辨率图像的 10 亿个遮罩，并测试作者的 EfficientSAMs 在 COCO 和 LVIS[23]上的交互式实例分割和零样本实例分割能力。_ 模型。_ 作者在 SAMI 中丢弃解码器，保留编码器作为 Backbone 提取不同任务特征，类似于 MAE[26]。作者使用作者的预训练 ViT Backbone 为不同任务应用，包括用于分类的 ViTs，用于检测和实例分割的 ViTDet，用于语义分割的 Mask2former，以及用于分割任何事物的 SAM。

微调设置。 分类任务。 作者使用 AdamW 优化器，，，权重衰减 0.05，对 ViTs 在 100 个周期内进行微调，使用 32 个 V100 GPU，每个 GPU 具有 32 个批处理大小。初始学习率为 1e-3，前 5 个周期进行线性 Warm up ，然后通过余弦学习率调度器衰减到零。作者设置 ViT-Small 和 ViT-Base 的层状学习率衰减因子为 0.75。作者不对 ViT-Tiny 应用层状学习率衰减。对于数据增强，作者采用 RandAugment [15]，并将标签平滑设置为 0.1，mixup 设置为 0.8。_ 检测和实例分割任务。_ 作者遵循 ViTDet [34] 的框架，通过将 ViT Backbone 适配到简单的特征金字塔，进行目标检测和实例分割。作者采用 AdamW 优化器，，和权重衰减 0.1，在 COCO 上训练模型。所有模型都在 64 个 V100 GPU 上训练 100 个周期，每个 GPU 具有 1 个批处理大小，图像分辨率 1024x1024。初始学习率为 2e-4，前 10 个周期进行线性 Warm up ，然后通过余弦学习率调度器衰减到零。训练 100 个周期。_ 分割任务。_ 作者的预训练 ViT 模型作为 Mask2former [13] 的 Backbone ，与分割层一起在 ADE20K 上进行微调。作者采用 AdamW 优化器，，和权重衰减 0.05，对 SA-1B 数据集进行微调，与 EfficientSAM 的编码器和解码器一起进行 5 个周期的微调。作者使用 AdamW 优化器，具有动量，，，初始学习率 4e-4，线性学习率衰减到 0。作者将权重衰减设置为 0.1。作者不对数据进行增强。输入图像分辨率 1024x1024。作者的 EfficientSAMs 在 64 个 A100 GPU 上进行训练，具有 40GB GPU 内存。

** Baseline 和评估指标。** _ Baseline 。_ 对于分类任务，作者将不同预训练/蒸馏方法的 ViT Backbone 的性能进行比较，包括 MAE[26]，SSTA[60]，DMAE[2]，BEiT[3]，CAE[12]，DINO[6]，iBOT[73]，DeiT[53] 等。对于检测和实例分割任务以及语义分割任务，作者还与用于 ViTDet[34] 和 Mask2former[13] 的多个预训练 ViT Backbone 进行比较。对于分割任何事物任务，作者与 SAM[31]，FastSAM[71] 和 MobileSAM[68] 进行比较。_ 评估指标。_ 作者在准确率方面评估作者的方法以及所有 Baseline 。具体而言，分类任务的准确度指标是指 top-1 准确率；对于检测和实例分割任务（AP：平均精度），AP，AP；对于语义分割任务（mIoU：均交并集），mIoU，mIoU：平均交并集；对于分割任何事物任务，mIoU，AP，AP，AP，AP。对于效率指标，作者比较模型参数的数量或推理吞吐量。

Main Results

图像分类。为了评估作者提出的技术在图像分类任务上的有效性，作者将提出的 SAMI 思想应用到 ViT 模型中，并在 ImageNet-1K 上与 Baseline 进行比较。

picture.image

如表 1 所示，作者的 SAMI 与预训练方法如 MAE，iBOT，CAE 和 BEiT，以及蒸馏方法如 DeiT 和 SSTA 进行了比较。SAMI-B 实现了 84.8% 的 top-1 准确率，分别比预训练 Baseline MAE，DMAE，iBOT，CAE 和 BEiT 提高了 1.2%，0.8%，1.1%，0.9% 和 0.4%。与蒸馏方法如 DeiT 和 SSTA 相比，SAMI 也显示了大幅改进。对于轻量级模型如 ViT-Tiny 和 ViT-Small，SAMI 与 DeiT，SSTA，DMAE 和 MAE 相比取得了显著的改进。

目标检测和实例分割。作者还将 SAMI 预训练的 ViT Backbone 扩展到下游目标检测和实例分割任务，并将其与在 COCO 数据集上的先前预训练 Baseline 进行比较，以评估其有效性。具体而言，作者将预训练的 ViT Backbone 适配到 Mask R-CNN 框架[25]中的简单特征金字塔中，以构建检测器 ViTDet[34]。

picture.image

表 2 显示了作者的 SAMI 与其他 Baseline 的总体比较。作者可以看到，作者的 SAMI 始终在其他 Baseline 之上实现更好的性能。SAMI-B 与 MAE-B 相比，获得了 0.9 AP 和 0.6 的改进。对于轻量级 Backbone ，SAMI-S 和 SAMI-Ti 分别与 MAE-Ti 和 MAE-S 相比取得了显著的改进。此外，SAMI-S 显著优于 DeiT-S，在 AP 和 AP 方面分别提高了 2.6 和 2.3。对于其他预训练 Baseline ，作者的 SAMI 仍然与 DINO 和 iBOT 具有优势。这一系列的实验验证了提出的 SAMI 在目标检测和实例分割任务中提供预训练检测器 Backbone 的有效性。

语义分割。作者进一步将预训练 Backbone 扩展到语义分割任务以评估其有效性。具体而言，作者在 Mask2former [13] 框架中使用 ViT 模型作为 Backbone ，在 ADE20K 数据集上进行语义分割。 picture.image

如表 3 所示，使用 SAMI 预训练 Backbone 的 Mask2former 实现了更好的 mIoU，即相对于使用 MAE 预训练的 Backbone 在 ImageNet-1K 上提高了 2.5，4.7 和 3.7。这一系列的实验验证了作者提出的技术可以很好地泛化到各种下游任务。

也考虑从单个框进行目标分割，如 [31] 所介绍的。为此，作者在实际点击的真实掩码内均匀地采样随机点，并计算与实际掩码对应的紧致边界框。由于作者的模型能够预测多个掩码，作者只评估最确信的掩码作为 SAM [31]。

结果。在表 4 中，作者将 EfficientSAMs 与 SAM，MobileSAM 和 SAM-MAE-Ti 进行了比较。在 COCO 上，作者的 EfficientSAM-Ti 在 1 点点击时比 MobileSAM 提高了 1.9 mIoU，在 1 个盒子时提高了 1.5 mIoU，并具有可比的复杂性。

picture.image

作者的 EfficientSAM-Ti 具有 SAMI 预训练权重，在 COCO/LVIS 交互式分割方面也优于 MAE 预训练权重。作者注意到，作者的 EfficientSAM-S 仅在 COCO 盒子时比 SAM 低 1.5 mIoU，在 LVIS 盒子时比 SAM-MAE-Ti 低 3.5 mIoU，并且参数数量减少了 20 倍。作者发现，作者的 EfficientSAMs 在多个点击与 MobileSAM 和 SAM-MAE-Ti 相比也表现出有前途的性能。

零样本实例分割。遵循 SAM [31]，实例分割任务通过将 ViTDet[34] 生成的边界框（bbox）作为提示进行。预测与 bbox 具有最高 Intersection over Union（IoU）的掩码作为预测的掩码。

结果。在表 5 中，作者报告了零样本实例分割的 AP，AP，AP 和 AP。作者将 EfficientSAM 与 MobileSAM 和 FastSAM 进行比较。作者可以看到，EfficientSAM-S 在 COCO 上获得了超过 6.5 AP，在 LVIS 上获得了 7.8 AP，超过了 FastSAM。

picture.image

对于 EfficientSAM-Ti，它在 COCO 上仍然远远超过 FastSAM，获得了 4.1 AP，在 LVIS 上获得了 5.3 AP，并超过了 MobileSAM，在 COCO 上获得了 3.6 AP，在 LVIS 上获得了 5.5 AP。请注意，作者的 EfficientSAMs 比 FastSAM 轻得多，例如，efficientSAM-Ti 有 9.8M 个参数，而 FastSAM 有 68M 个参数。EfficientSAM-S 也显著减少了 SAM（具有 0.6G 参数）之间的差距，只有约 2 AP 的减少。这些结果表明，EfficientSAMs 对于零样本实例分割具有非凡的优势，并验证了作者的 SAMI 预训练方法的优点。

picture.image

定性评估。现在作者提供一些定性结果，以帮助理解 EfficientSAMs 的实例分割能力。一些示例可以在图 3，图 4 和图 5 中看到。具体而言，作者报告了两种类型的提示（点）和（框）预测的掩码，就像 MobileSAM [68] 中一样，以及分割所有结果。更多的定性结果可以在补充材料中找到。这些结果表明，作者的 EfficientSAMs 在与 SAM 比较时具有竞争力。请注意，作者的 EfficientSAMs 比 SAM 轻得多，作者的模型可以有效地给出良好的分割结果。这表明作者的模型可以作为 SAM 的互补版本，为许多实际任务服务。 picture.image

picture.image

显著实例分割。显著目标分割 [4] 旨在从图像中分割最具有视觉吸引力的目标。作者将交互式实例分割扩展到显著实例分割，无需手动创建点/框。具体而言，作者采用最先进的显著目标检测模型 U-net[45]，预测显著图，并在显著图内均匀采样 3 个随机点（3 点击）来执行作者的 EfficientSAM 实例分割。在图 6 中，作者可以看到作者的 EfficientSAM 能够很好地执行显著实例分割。这一初步探索打开了帮助手部残疾人士在图像中分割感兴趣目标的潜在可能性。

picture.image

Ablation Studies

作者现在通过一系列使用 ViT Backbone 的 ablation 研究来分析 SAMI 和 EfficientSAMs。

重构损失。作者研究了重构损失对 SAMI 在 ImageNet-1K 上的性能的影响。作者将作者的均方误差（MSE）重构损失与余弦相似度损失进行了比较。作者发现 MSE 重构损失效果更好，如表 6 所示。这建议直接重构 SAM 特征而不是具有高角度相似度的目标。

picture.image

交叉注意力解码器。为了重构 SAM 特征，作者直接使用编码器的输出 Token 并只使用解码器通过交叉注意力进行遮蔽 Token 的转换。作者研究了所有 Token 通过解码器进行性能变化，如 MAE[26]。当在解码器中 Query 遮蔽 Token 时，作者发现 SAMI-Ti 在 ImageNet-1K 上比将所有 Token 输入解码器进行目标重建的 MAE[26] 提高了 3%。类似于 AnchorDETR[58] 中的 Anchor 点，编码器的输出 Token 已经通过直接对齐 SAM 特征学习得很好，可以作为交叉注意力解码器通过交叉注意力帮助遮蔽 Token 对齐的 Anchor Token 。

遮蔽比例。在 MAE[26] 中，推荐使用 75% 的遮蔽比例。作者在 SAMI 中探索不同的遮蔽比例对性能的影响。如表 7 所示，作者发现观察结果与 MAE [26] 一致，即高遮蔽比例倾向于产生良好的结果。

picture.image

重构目标。作者研究了重构目标的影响。作者在 SAMI 中使用 CLIP [46] 中的不同编码器来生成特征作为重构目标。从 CLIP 编码器对齐的特征也可以比 MAE 提高 0.8% 的 ViT-Tiny 模型在 ImageNet-1K 上的性能。这表明遮蔽图像预训练从强大的有指导的重构中受益。

EfficientSAMs 的微调步骤影响。作者探索了 EfficientSAMs 的微调步骤的影响。如图 7 所示，EfficientSAM-Ti 和 EfficientSAM-S 在 0.1 个周期后就能达到不错的性能。对于 1 个周期，性能增益大于 2.5 mIoU。EfficientSAM-S 的最终性能达到 76.9 mIoU，仅比 SAM 低 1.5 mIoU。这些结果证明了 SAMI 预训练图像编码器和作者的 EfficientSAMs 的优势。

picture.image

5 Conclusion

作者提出了一个遮蔽图像预训练方法 SAMI，以在 SAM 基础模型的指导下探索 ViTs 的潜力。SAMI 通过从 SAM 图像编码器重构潜在特征以转移视觉基础模型到 ViTs 的知识，从而改进了遮蔽图像预训练。在图像分类、目标检测、实例分割、语义分割和分割任何事物任务上的广泛实验证实了 SAMI 的优势。作者还证明了 SAMI 可以帮助构建具有预训练轻量级编码器的有效 SAMs。作者的初步工作表明，SAMI 具有应用于有效分割任何事物任务之外的可能性。

在这个补充材料中，作者提供了更多的结果，以证明作者高效 SAM 模型的实例分割能力。

Efficiency Evaluation

picture.image

通过 Tab. 8 中的表格，作者记录了作者的模型在单个 NVIDIA A100 上的吞吐量和参数数量。作者在单个盒子提示下测量了单张图像的吞吐量为（每秒）图像数，输入图像分辨率为 1024 × 1024。

Qualitative Evaluation

为了研究作者的模型基于提示能够产生分割掩码的能力，作者使用模型进行基于提示的实例分割，包括基于点的提示和基于盒子的提示分割。作者还使用模型进行分割所有和显著实例分割，无需手动创建点或盒子提示。

picture.image

对于每个任务，作者共享 4 个示例来展示作者的模型在不同提示下的实例分割能力。这些结果直接证明了具有不同提示的 EfficientSAM 模型之间的竞争实例分割能力。例如，在基于点的实例分割的情况下，作者的模型能够给出合理的实例分割结果（请参阅图 8）。在基于盒子的实例分割的情况下，作者的模型也能够生成预期的物体分割（请参阅图 9）。在分割所有的任务中，作者的模型提供了良好的分割性能（请参阅图 10）。

picture.image

在显著实例分割的情况下，作者的模型具有生成掩码的能力，并能够自动进行实例分割，无需手动创建点或盒子（请参阅图 11）。但是，作者仍需注意，作者的模型有时可能会产生噪声分割，如图 12 所示。 picture.image

picture.image

点击上方卡片，关注「AI视界引擎」公众号