基于SAM2的Adapter在类无无关例分割中的应用！

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

想要了解更多：

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」

行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码，加入「 集智书童-知识星球 」，日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑，期待交流！

免责声明

凡本公众号注明“来源：XXX（非集智书童）”的作品，均转载自其它媒体，版权归原作者所有，如有侵权请联系我们删除，谢谢。

picture.image

SAM 2 模型在自然场景的零样本分割性能上表现出了强大的能力，最近发布 SAM 2 模型 2（SAM2）进一步提高了研究行人对图像分割能力的期待。为了评估 SAM2 在类无无关例级分割任务上的性能，作者为 SAM2 设计不同的提示策略，以应对类无无关例级任务。

在三种相关的场景中进行测试：显著实例分割（SIS）、伪装实例分割（CIS）和阴影实例检测（SID）。此外，为了进一步探讨 SAM2 在分割细粒度目标结构的有效性，作者对高分辨率二分图像分割（DIS）基准进行详细测试，以评估细粒度分割能力。定性及定量实验结果显示，SAM2 在不同场景下的性能差异显著。

同时，SAM2 并非在分割高分辨率细小细节方面特别敏感。

作者希望这份技术报告能推动基于 SAM2 的 Adapter 的出现，以提升大视觉模型在类无无关例实例分割任务上的性能的上限。

项目链接：https://github.com/P\_J\_Lallen/InstanceSAM2Eval。

1 Introduction

大型基础模型的出现，如Chat-GPT、GPT-4和LLaMA，彻底改变了人工智能（AI）领域。得益于庞大的数据集，这些模型在多模态处理方面表现出色，例如语言、图像、视频和音频，展示了AI能力的显著进步。在此基础上，Segment Anything Model（SAM） [1] 脱颖而出，实现了大规模视觉模型的场景分割突破。SAM的通用性和适应性使其具有揭示复杂场景和目标的能力，进一步拓宽了图像分割任务的前沿领域。

SAM允许用户输入自定义提示，如点或边界框，可以获得高度准确的分割 Mask 。这种适应性使得SAM能够执行各种图像分割任务。最近，SAM2 [2] 克服了SAM在处理视频内容方面的不足。在图像分割领域，SAM2 已在分割准确率和推理效率方面取得了改进 1。众多评估方法已经出现，以检验SAM2在不同场景下的分割性能。例如，Lian et al.[3] 评估了在水中环境下的实例分割性能，Yan et al.[4] 研究了其在内窥镜和显微镜图像中的有效性。此外，Ma et al.[6] 针对11种医学图像模式和视频，对SAM2进行了全面的基准测试，突显了与SAM和MedSAM相比的优缺点。Tang et al.[7] 在隐形目标检测基准测试中比较了SAM2和SAM。研究发现，当没有提示时，SAM2在检测隐形物体方面的绩效明显优于SAM；而在提供分割提示时，它的性能显著提高。这些有趣的发现引发了关于SAM2在类无关实例级分割任务中的性能的好奇心。在本文中，作者评估了SAM2在类无关实例级分割任务中的性能，主要关注三个不同的场景：显著实例分割（SIS）[10]、隐形实例分割（CIS）[11]和阴影实例检测（SID）[12]。此外，作者还详细评估SAM2在高分辨率二分图像分割（DIS）基准测试[13]上，以分析其分割细粒度目标结构的能力。作者将SAM2与SAM和知名特定模型在多个基准测试上进行比较。根据大量实验结果，作者得出以下结论：

当SAM2使用边界框作为提示输入时，它在CIS和SIS任务上优于任务特异性方法。然而，如果没有边界框提示，SAM2的性能将急剧下降，特别是对于隐形实例。
SAM2在DIS任务上的表现无论是否使用边界框提示都无法很好。这表明SAM2在复杂物体的细粒度分割方面并不理想。
对于SID任务，SAM2在分割实例方面表现良好，但在阴影匹配方面存在困难。
当使用边界框作为提示时，具有更少参数的SAM2相对于SAM在四个任务上都取得了更好的结果。相反，在无边界框提示的情况下，SAM2在SIS、CIS和SID任务上的表现均不如SAM。

2 Experiments

本节提供了作者基本和扩充实验的指导原则和详细内容，即数据集、评估协议、实现设置以及SAM2在四个任务上的定量与定性结果。

Datasets

[14, 21]一致，作者利用ILSO[10]，SOCK[15]，SIS10K[14]和SIP[16]数据集进行SIS任务。对于CIS任务，作者使用COD10K[22]和NC4K[23]来评估性能。对于SID任务，作者使用SOBA-challenge和SOBA-test数据集[12]。对于DIS，作者在DIS5K[13]上进行实验，包括DIS-VD和DIS-TE。DIS-TE进一步分为四个子集，即DIS-TE1，DIS-TE2，DIS-TE3和DIS-TE4，分别代表四个测试难度的水平。每个任务的数据集中的测试样本数量如下：

SIS： ILSO: 300; SOCK: 600; SIS10K: 1,170; SIP: 929.
CIS： COD10K: 2,026; NC4K: 4,121.
SID： SOBA-challenge: 100; SOBA-test: 160.
DIS： DIS-VD: 470; DIS-TE1: 500; DIS-TE2: 500; DIS-TE3: 500; DIS-TE4: 500; 总体DIS-TE: 2,000.

Evaluation Protocol

为了评估伪装实例分割的精度，作者采用了COCO风格的评估指标，包括AP50，AP75和AP值。对于显著实例分割，作者使用了AP70指标（通常在相关文献[17, 19]中使用），而不是AP75指标。在阴影实例分割中，虽然针对任务的特定方法使用SOAP指标来评估目标和阴影匹配，但SAM2并未涉及这种匹配机制。在这方面，作者仅关注实例AP指标上的性能。

为了评估高超精度DIS，作者采用了六个评估指标来评估SAM2，SAM和DIS-specific模型，包括最大F-measure（）[24]，加权F-measure（）[25]，平均绝对误差（MAE，）[26]，结构度度量（S-measure，）[27]，平均增强对齐度量（E-measure，）[28]和人类更正努力（HCE）[13]。

Implementation Details

为了确保公平的比较，作者使用SAM2和SAM的原版官方代码在不同的数据集上进行测试。SAM2和SAM都处于两种设置下进行评估：自动模式（auto mode）和事实边界框（GT-Bbox）模式。在自动模式下，作者使用默认设置的32×32点提示，对于SAM和SAM2都是一样的。在GT-Bbox模式下，真实的边界框作为边界框提示输入。所有参数保持默认设置，输入图像被重新缩放到1024×1024。此外，作者对SAM和SAM2使用了不同的 Backbone 网络。对于SAM，作者使用了ViT-Base，ViT-Large和ViT-Huge。对于SAM2，作者使用了Hiera-Tiny，Hiera-Base+和Hiera-Large。所有实验都在一个使用单个Tesla A40 GPU的系统中实现。

Results

Salient Instance Segmentation

定量结果 。突出实例分割的定量结果见表1。在ILSO和SIS10K数据集上，SAM2模型在GT-Bbox设置中通常优于其他模型。例如，SAM2-L在ILSO上获得82.2的AP分数，比SAM-H的79.2略高。

picture.image

然而，在自动设置中，SAM2-L得分较低，与SAM-H的72.2相比为49.1。在SIS10K上也观察到类似趋势，SAM2-L相比SAM-H达到45.2，而SAM-H达到68.4。

在SOC和SIP数据集上，SAM2模型在GT-Bbox设置中也表现出色，SAM2-L在SOC上获得83.1的AP分数，在SIP上达到93.4。与特定方法相比，如SCNet、S4Net、RDPNet和QQTR，SAM2模型在GT-Bbox设置中通常获得更高的AP分数。

这表明在某些场景中，SAM2模型在具有真实边界框的情况下实现了显著改进，超过了传统方法。

定性结果 。如图1所示，在突出实例分割的定性分析中，SAM-Auto和SAM2-Auto均进行全局分割，因为他们没有指定要分割的具体目标。SAM的分割质量略好一些，可能归因于SAM使用了比SAM2更大的版本（huge）。这种模型大小的差异可能解释了SAM分割 Mask 的细微差别，尽管它们仍然显得有点碎片化。然而，当采用边界框提示时，SAM-bbox和SAM2-bbox的分割取得了显著改善和精确度，突显了引导分割的价值。

picture.image

2.4.2 Camouflaged Instance Segmentation

定量结果。 表2显示了SAM2在伪装实例上的分割性能，这些实例比表1中的醒目实例更难分割。在自动模式下，SAM2的表现与特定任务的算法自监督方法相当，而SAM2的表现低于SAM，这很可能是因为参数数量的不同。

然而，在带有框提示的情况下，SAM2的表现显著提高。具体来说，在COD10K测试集上，大型 Backbone 使得AP从10.6跳到68.8，超越了所有其他模型。这表明SAM2在CIS中的主要挑战是定位目标，但一旦确定了位置，它就可以产生精确的分割。

picture.image

定性结果。 如图2所示，对于CIS任务的定性分析，SAM-Auto可以部分地分割某些轻量级隐藏目标，例如鱼和长颈鹿，而SAM2-T、SAM2-B+和SAM2-L在AP上取得最佳和次佳结果。

picture.image

2.4.3 Shadow Instance Segmentation

Quantitative Results 请注意，在阴影实例检测任务中，需要测量阴影与目标的匹配程度。但是SAM2缺乏这种功能，因此作者的比较不涉及测量这个方面。在实验中，作者将实例和阴影视为单独实体，而不是实例与对应阴影的配对。根据表3，SAM2模型在Ground-Truth Bbox设置中表现出色，SAM2-T在SOBA-challenge和SOBA-test上获得了51.9的AP分数，超过了所有SAM模型和特定任务的方法。然而，观察到一个有趣的现象：使用不同的后端结构SAM2不会导致显著的性能差异。事实上，具有较大后端结构的SAM2可能会降低分割性能，同样现象存在于SAM模型。切换到自动模式导致SAM2和SAM的性能显着下降，但是后端参数大小变化对分割结果影响不大。因此，为了提高SAM2在SID任务上的性能，仅增加模型的深度和参数大小并不恰当。

picture.image

Dichotomous Image Segmentation

二分图像分割关注于在自然场景中识别无类别的前景物体。在自动预测模式下，SAM为每个样本生成多个二进制 Mask 。为了选择最适合的前景 Mask ，作者使用最大交并比（IoU）策略，选择具有最高IoU分数的 Mask 。

定量结果。 Tab. IV和Tab. V分别呈现了SAM和SAM2与特定任务方法之间的定性比较结果。在自动设置中，SAM2模型，特别是SAM2-T，在所有指标上都显示了显著的提高，SAM-B为0.306的，而SAM2-T的为0.215。SAM2-B+和SAM2-L进一步提升了性能，SAM2-B+在DIS-VD上的达到了0.428，超过了所有SAM变体。这些改进表明分割质量和对齐有更好的表现，体现在更高的和值。在GT-Bbox设置中，SAM2模型在所有指标上都取得了显著的改进，除了HCE。例如，SAM2-B+在DIS-VD上的达到了0.765，超过了SAM-L的0.739，尽管HCE指标增加了100点。总的来说，SAM2模型在所有数据集的大部分指标上与SAM相比取得了显著的改进，几乎接近全监督方法IS-Net的性能。然而，HCE分数表明SAM和SAM2在识别主导区域方面仍存在局限性。

在[41]中，作者提出了用于端到端目标检测的BiRefNet-S-B模型。该模型使用了一种新的卷积网络架构，能够同时学习语义信息和高阶结构。作者在表2中展示了该模型在四个不同数据集上的性能，并与最新的 Baseline 进行了比较。与这些SOTA模型相比，作者的模型在所有数据集上都取得了优异的性能。此外，作者在作者的新数据集上的结果揭示了模型在表示详细结构方面的潜力。

在定性分析方面，作者对SAM和SAM2在自动模式和带有边界框提示的情况下的质量进行了一项更深入的分析，特别是在图4中。结果表明，无论是在自动模式下还是在带有边界框提示的情况下，SAM和SAM2都面临着识别前景物体的困难。特别是，当接收到边界框提示时，SAM可以大致勾勒出物体的主体部分，而SAM2通过改进分割完整性增强了这一能力。例如，SAM在带有边界框提示的帮助下可以分割出帆船的机体（见图4的第七列），但是它往往错过了一些较小的细节，如桅杆和细线。

picture.image

因此，尽管SAM2在自然场景中定位前景物体的准确性有所提高，但在准确捕捉目标的 dominant 区域和呈现复杂的结构细节方面仍存在不足。

3 Discussion

作者在各种类无监督实例级分割基准测试上对SAM2进行了广泛的定量和定性评估。在CIS、SIS和SID任务中，SAM2在GT-Bbox模式下超越了特定任务的方法。对于比较简单的SIS任务，SAM2在SIP测试集上取得了令人印象深刻93.4的AP分数。对于更具有挑战性的CIS任务，SAM2在NC4K测试集上取得了显著93.5的AP分数，远远超过了特定方法的表现。在SID任务中，SAM2有效地分割实例，但与阴影匹配存在问题。如定性比较所观察到的，没有GT-Bbox的SAM2几乎无法分割出阴影。在DIS任务中，SAM2表现不佳，即使在带有框提示的情况下，也无法实现复杂结构目标的细粒度分割。总的来说，具有GT-Bbox的SAM2在显著度和非显著度目标上都取得了更好的结果，尤其是显著度实例。然而，处理非常脆弱的目标的能力需要改进。

与SAM相比，作者发现SAM2在CIS、SIS和SID任务上的自动模式下表现不如SAM。值得注意的是，在GT-Bbox模式下，SAM2显著优于SAM。此外，作者还观察到，具有更大 Backbone 网络的SAM2模型并不总是增强性能，甚至降低性能，这在自动模式下尤其明显。这些发现为SAM2在实例级分割任务上的未来应用提供了有价值的洞察。

4 Conclusion

在本研究中，作者在四个无类别实例分割任务场景下评估了SAM2的零样本性能：显著实例分割（SIS）、隐蔽实例分割（CIS）、阴影实例检测（SID）和二分图像分割（DIS）。

在自动化设置中，与SAM和特定任务方法相比，SAM2在SIS、CIS和SID任务中的表现较差。当提供边界框提示时，特别是在DIS任务中，SAM2展示其生成更精细分割图的能力。

实验结果表明，当受到提示指导时，SAM2在无类别实例分割方面的表现突出，同时也展示了在不同场景中的潜在能力。

在未来的工作中，作者的目标是对SAM2进行微调并开发 Adapter 以提高其在不同实例分割任务上的性能。

参考

[1].Evaluation Study on SAM 2 for Class-agnostic Instance-level Segmentation.

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image

点击下方“ 阅读原文 ”，

了解更多AI学习路上的「武功秘籍」

基于SAM2的Adapter在类无无关例分割中的应用 ！

1 Introduction

2 Experiments

Datasets

Evaluation Protocol

Implementation Details

Results

Salient Instance Segmentation

2.4.2 Camouflaged Instance Segmentation

2.4.3 Shadow Instance Segmentation

Dichotomous Image Segmentation

3 Discussion

4 Conclusion

参考