SAM 与 SAM-2究竟下游任务效果如何 ?

火山方舟向量数据库智能语音交互

点击下方卡片,关注 「AI视界引擎」 公众号

( 添加时备注:方向+学校/公司+昵称/姓名 )

picture.image

picture.image

Segment Anything Model(SAM),由Meta AI研究团队推出的一种通用目标分割模型,迅速引起了广泛关注,并对学术界产生了重大影响。为了将其应用扩展到视频领域,Meta进一步开发了Segment Anything Model 2(SAM2),这是一个统一模型,能够进行视频和图像分割。

与前辈相比,SAM2在适用领域、分割准确度以及运行速度方面都有显著提升。然而,本报告显示,在没有提示的情况下,SAM2在自动模式下识别图像中不同目标的能力与SAM相比有所下降。

具体来说,作者通过一项具有挑战性的伪装目标检测任务来评估这种性能下降,希望激励研究行人对SAM模型家族进行更深入的探索。本文的结果可以在https://github.com/luckybird1994/SAMCOD获取。

1 Introduction

近年来,大型语言模型(LLM)[4, 30, 34]在自然语言处理(NLP)领域引发了一场革命。这些基础模型展现出了卓越的迁移能力,远远超出了它们最初的训练目标。LLM在多种开放世界语言任务中表现出强大的泛化能力,包括语言理解、生成、交互和推理等。受到LLM成功的启发,视觉基础模型如CLIP [24]、DINOv2 [22]、BLIP [16]和SAM [13]也应运而生。这些基础模型的引入持续推动着计算机视觉领域的研究探索。

在这些基础模型中,SAM在图像分割领域的影响力尤为突出。自其推出以来,迅速受到了广泛关注,并在多个领域得到应用。为了进一步扩展SAM的适用性,推出了SAM2 [25],旨在通过统一架构处理图像和视频分割任务。与SAM相比,SAM2在可提示分割精度和运行速度方面有了显著提升,进一步增强了SAM模型家族的能力。

在本技术报告中,作者以伪装目标检测(COD)任务为例,分析从SAM过渡到SAM2所涉及的发展和妥协。作者观察到以下两点:

1)当为SAM2模型提供分割提示时,其性能相较于SAM有了显著提升。

2)然而,在自动模式下,即SAM2和SAM都需要在没有提示的情况下感知图像中的所有目标时,SAM2的性能显著下降。

作者希望作者的发现能够进一步激励研究行人探索SAM和SAM2。

2 Experiments

Datasets and Metrics

为了验证SAM和SAM2的性能,作者在三个基准数据集上评估了它们的表现,这些数据集包括CAMO [14]、COD10K [7]、NC4K [19]和MoCA-Mask [3]。作者使用了六种广泛应用的指标:结构度量()[5],平均E度量()[8],F度量(),加权F度量(),最大F度量()[20],以及平均绝对误差(MAE)。

Progress

视频任务。相较于SAM,SAM2最大的进步之一是其在视频任务中的应用。因此,作者首先在VCOD任务中测试SAM2的潜力,选择MoCA-Mask作为评估数据集。具体来说,对于每个视频序列的第一帧,作者基于其对应的真实值随机选择三个提示点来识别分割的目标目标。然后将视频序列输入到SAM2中,得到如表1所示的分割结果。SAM2显著超过了最先进的VCOD方法SLTNet [3]和TSP-SAM [9]。

picture.image

picture.image

提示式分割。作者进一步评估了SAM和SAM2在提示式分割上的性能。受到最近研究[28]的启发,作者使用MLLMs、Shikra [2]和LLaVA [17]为图像中伪装的目标生成坐标。这些坐标随后被输入到SAM和SAM2中,以产生相应的 Mask 结果。性能如表2所示。很明显,SAM2的性能显著超过了SAM。此外,通过这种方法,零样本CoD方法的性能有潜力与全监督方法相匹配或超越。这些发现突显了SAM2的进步。

picture.image

自动模式。在自动模式下,作者评估了SAM2和SAM的性能。评估方法与技术报告[29]中描述的相似,比较包括22种CoD方法:SINet [7]、C2FNet [26]、LSR [19]、PFNet [21]、MGL [32]、JCOD [15]、TANet [38]、BGNet [27]、FDCOD [35]、SegMaR [12]、ZoomNet [23]、BSANet [37]、SINetV2 [6]、FAPNet [36]、C2FNet的扩展版本[1]、DGNet [10]、CubeNet [40]、ERRNet [11]、VST [18]、UGTR [31]、ICON [39]和TPRNet [33]。性能如表3所示。从表中可以看出,在自动模式下,SAM2似乎无法分割潜在的伪装目标。为了进一步说明这一点,作者统计了SAM和SAM2在每个数据集中预测的 Mask 数量,如表4所示。作者可以看到,SAM预测的 Mask 数量是SAM2的六到十倍。如图1所示,对于特定图像的 Mask 预测,SAM2不仅在数量上显著落后于SAM,而且在质量上也落后。

picture.image

picture.image

3 Conclusion

本技术报告对从SAM到SAM2的过渡进行了探讨,展示了显著的进步和值得注意的局限性。

作为从基础模型SAM演变而来的SAM2,在涉及提示驱动的分割任务中表现出色,其准确性和速度超越了SAM,尤其是在处理视频和图像分割方面。这些改进凸显了SAM2在视觉模型不断发展的领域中作为多功能工具的潜力。

然而,作者的评估,特别是通过伪装目标检测的视角,指出了一个SAM2落后于其前代的临界领域:

在无需提示的自动模式下运行。在这种模式下,SAM2的性能显著下降,表明其对提示的依赖可能会限制在要求自主物体识别的场景中的实用性。

因此,作者希望对SAM系列进行持续的探索和改进,旨在保留SAM的优势的同时克服在SAM2中观察到的局限性。通过解决这些挑战,作者可以推动基础模型在计算机视觉领域所能实现的范围。

参考

[1].Evaluating SAM2's Role in Camouflaged Object Detection: From SAM to SAM2.

点击上方卡片,关注 「AI视界引擎」 公众号

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 NoSQL 的实践与探索
随着 NoSQL 的蓬勃发展越来越多的数据存储在了 NoSQL 系统中,并且 NoSQL 和 RDBMS 的界限越来越模糊,各种不同的专用 NoSQL 系统不停涌现,各具特色,形态不一。本次主要分享字节跳动内部和火山引擎 NoSQL 的实践,希望能够给大家一定的启发。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论