结合 SAM2 与多模态语言模型,提升视频伪装目标分割能力 ! - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

本研究调查了Segment Anything Model 2（SAM2）在具有挑战性的视频伪装目标分割（VCOS）任务中的应用和性能。

VCOS涉及检测在视频中与周围环境无缝融合的目标，由于颜色和纹理相似，光线条件不佳等。与正常场景中的目标相比，伪装目标检测起来更为困难。

SAM2，作为视频基础模型，在各种任务中均显示出潜力。但其在动态伪装场景中的有效性仍待探索。

本研究对SAM2在VCOS中的能力进行了全面研究。

首先，作者使用不同的模型和 Prompt （点击、框、和 Mask ）评估SAM2在伪装视频数据集上的性能。

其次，作者探索将SAM2与现有多模态大型语言模型（MLMs）和VCOS方法相结合。

第三，作者通过微调SAM2在视频伪装数据集上进行特定适应。作者的全面实验表明，SAM2在视频中检测伪装目标的零样本能力非常出色。

作者还表明，这种能力可以通过专门调整SAM2的参数以适应VCOS得到进一步提高。

代码：github.com/zhoustan/SAM2-VCOS

1 Introduction

伪装物体分割，旨在识别那些融入其周围环境的物体，这是计算机视觉中的基本任务。与传统的分割任务不同，通常物体具有明显的边界，而伪装物体往往具有与背景相似的颜色或纹理，使其难以被感知。对于视频序列而言，这一任务变得更加复杂，因为物体和背景都可以随时间动态变化。

传统的分割方法，如全卷积网络（FCNs）[23]和 Mask 卷积神经网络，在目标检测和分割普通场景中取得了显著的贡献。然而，这些模型在伪装场景中往往表现不佳。最近的一些技术，如SINet[10]，SLT-Net[6]和ZoomNeXt[29]，专门针对伪装目标检测的挑战进行了设计。最近，先进的基于大规模基础模型的分割系统SAM2[35]在处理复杂视频分割任务方面显示出前景。它采用了基于 Prompt 的分割，使用用户定义的特定 Prompt ，如边界框、点击或 Mask 来指导分割过程。这使得在分割目标物体时具有更大的灵活性，尤其是在伪装检测场景中，物体边界不一定总是清晰可见。

在这项工作中，作者对SAM2在视频伪装物体分割（VCOS）中的性能进行全面评估，重点关注其零样本能力、与现有最先进方法的集成以及适应性。作者的研究分为三个部分，每个部分针对这个复杂问题的一个特定方面：

评估SAM2在VCOS上的零样本能力：作者对SAM2在分割伪装目标方面的性能进行了深入评估，这是一个固有具有挑战性的任务，因为目标和其背景之间的相似性很高。SAM2在两种模式下进行了评估：_自动模式_和_半监督模式_。在自动模式下，作者利用SAM2内置的自动分割生成器产生初始分割 Mask ，然后将其用作后续帧的 Mask Prompt 。在半监督模式下，作者研究了手动交互（通过点击、框和 Mask Prompt ）以及 Prompt 时间如何影响分割质量。这一分析为作者提供了SAM2在伪装视频分割领域行为的首个详细探索，这是一个传统分割模型通常难以处理的领域。

增强SAM2与最先进的MLLMs和VCOS方法：作者进一步探讨了当SAM2与先进的MLLMs和VCOS技术相结合时，其有效性。对于MLLMs，作者设计了特定的 Prompt 来生成潜在伪装区域的边界框，这些边界框随后被SAM2用作分割的边界框 Prompt 。对于VCOS，作者通过利用SAM2的强大细化能力，对VCOS方法生成的初始 Mask 进行细化，从而提高分割质量。作者的贡献在于将SAM2与MLLMs和VCOS方法相结合，证明了驱动式细化如何提高在高度复杂的视觉场景中的分割准确性。

在最大规模的VCOS基准上微调SAM2：作者探讨了任务特定的微调如何提高SAM2在VCOS上的分割性能。通过在MoCA-Mask数据集上微调SAM2，作者扩展了SAM2的效用，超越了其初始设计，展示了它如何适应专门的数据集以提高性能。

作者对SAM2在具有挑战性的视频 Mask 物体分割任务中的性能进行了首次全面评估和深入分析，实验了自动和半监督两种模式。
作者提出了一种新颖的混合方法，将SAM2与现有MLLMs和VCOS方法相结合，通过基于 Prompt 的优化显著提高了分割精度。
作者通过在著名的MoCA-Mask数据集上调整SAM2的参数，使其更好地适应视觉注意力模型（VCOS），从而实现了最先进的结果。

2 Related Work

Camouflaged Object Detection

伪装场景理解（CSU）旨在感知那些难以与背景区分的场景，这些场景通常存在于自然环境中，如森林、海洋和沙漠等。在各种CSU任务中[10, 25, 30, 37]，伪装目标检测（COD）吸引了大量的研究关注，即识别那些与环境融为一体、对传统感知技术构成巨大挑战的物体。

传统的目标检测方法，依赖于强烈的边缘特征、颜色对比和纹理变化，在应用于伪装物体时往往失效。这促使人们开发出专门的COD模型，这些模型融合了独特的特征提取技术，关注于纹理、边缘不规则和颜色或阴影的微小变化，这些变化表明隐藏着物体[11, 32]。

已经提出了几种创新的COD模型。HGINet [48] 利用分层图交互 Transformer （with dynamic token clustering）来捕捉多尺度特征，从而实现更好的目标检测。AGLNet [5] 通过使用自适应引导学习（adaptive guidance learning）来提升COD性能，该方法根据物体的外观和上下文来调整特征提取。

PAD [43] 利用多任务学习方法，预先在多个数据集上进行训练，并通过任务特定的适应性进行微调。DQNet [38] 专注于跨模型细节 Query （cross-model detail querying），使用多个模型来增强伪装物体中细微特征的检测。R2CNet [52] 整合语言线索与视觉数据来提高检测效果，特别是通过使用参照表达式来定位特定的伪装物体。ZoomNeXt [29] 提出了一种统一的协作金字塔网络（collaborative pyramid network），以增强多个尺度上的特征提取。

WSSCOD [50] 通过学习噪声伪标签（weak supervision）来改进COD，而CamoTeacher [18] 应用双重旋转一致性学习（dual-rotation consistency learning）进行半监督检测，利用有限的 Token 数据。

这些高级COD模型的开发展示了通过集成多尺度特征提取、自适应学习和新型监督技术，在检测伪装物体方面取得了显著的进步，为在具有挑战性的环境中实现更强大、更精确的目标检测奠定了基础。

Video Camouflaged Object Segmentation

视频伪装物体分割（VCOS）是计算机视觉领域（CSU）的一个重要任务，旨在在动态和视频环境中检测伪装物体。为了处理VCOS，模型需要考虑物体运动、时间连续性和变化背景，这为目标检测（COD）增加了额外的复杂性。为了解决这些挑战，已经引入了一些先进的模型，通过集成运动学习和时间-空间注意力机制来应对。

IMEX [15] 引入了隐式-显式运动学习，通过结合隐式和显式运动特征，使得通过整合隐式和显式运动特征来更健壮地检测伪装物体成为可能。时间-空间注意力也是许多VCOS模型的关键，就像TSP-SAM [16]所展示的那样，它通过关注时间-空间 Prompt 学习来识别微妙的物体运动。SAM-PM [28] 进一步扩展了这种方法，通过应用空间-时间注意力来在跟踪运动和背景的微小变化来提高视频序列的准确性。

较早的方法[6]专注于隐式运动处理，以改进视频目标检测，尤其是在运动微弱或难以检测的场景中。OCLR [19] 提出了一种三分数的方法来自动评估伪装的有效性，通过测量背景-前景相似度和边界可见性，并使用这些分数来改进伪装数据集，并将它们集成到生成模型中。MG [46] 引入了一种基于光学流的自监督Transformer-based模型用于运动分割，证明了在VCOS中，运动线索在视觉外观之上具有有效性。

这些模型说明了将运动分析与传统目标检测技术相结合以增强VCOS在实际应用中的性能的重要性。

Segment Anything Model 2

SAM2 [35] 是一个跨图像和视频分割物体的视觉基础模型。SAM2 在医学视频和3D分割等任务上表现出色，包括多发性息肉检测、手术视频分割等医学图像分割。此外，SAM2 还被应用于3D网格和点云的分割 [39]，遥感 [34] 和图像伪装目标检测。

尽管取得了这些进展，据作者所知，尚无针对SAM2在VCOS任务上的具体研究。本研究通过系统地检查SAM2在VCOS任务上的性能，并提出策略进一步改进SAM2的能力，从而填补这一空白。

3 Methods

Datasets

作者使用了两个视频COD数据集：MoCA-Mask [6]和CAD [2]。MoCA-Mask是一个密集标注的数据集，来源于移动伪装动物（MoCA）数据集[20]。它包括71个序列，每个序列有19,313帧用于训练，以及16个序列，每个序列有3,626帧用于推理。伪装动物数据集（CAD）包括总共9个短视频序列，每个序列在每隔第5帧都有一个手标注的 Mask 。由于CAD测试集存在一些缺失的 GT 值，作者只评估有效的视频序列。

Metrics

作者使用了七个常用的评价指标进行评估，包括S-measure () [7]，加权F-measure () [27]，平均绝对误差（MAE）[31]，F-measure () [1]，E-measure () [8]，平均Dice (mDice)和平均IoU (mIoU)。

Prompting Strategies

作者分别使用自动 Mask 生成器和交互式 Prompt 在自动和半监督模式下评估SAM2的性能。这两种模式使作者能够全面评估SAM2的灵活性和有效性。

3.3.1 Automatic Mode.

作者在自动模式下使用SAM2内置的自动分割 Mask 生成器评估SAM2。在这种设置中，根据参考文献[51]，SAM2在第一帧视频上自动生成多个分割 Mask ，作者选择与相应真实值对比最高的IoU值的 Mask 。

最高IoU的 Mask m^{*}由以下公式选择：

选定的 Mask 被用作 Mask Prompt ，无需任何手动修改。这确保了SAM2以无监督方式运行，依靠其自动 Mask 生成能力在视频中跟踪和分割伪装物体。

该评估旨在评估SAM2在无需用户指导的情况下分割视频中的伪装动物的有效性，并探索SAM2在这种场景下的潜力。

3.3.2 Semi-supervised Mode.

在半监督模式下，作者采用了三种不同的 Prompt 策略：点击式 Prompt 、框式 Prompt 和 Mask 式 Prompt 。每种策略在不同帧中进行评估，以研究 Prompt 类型和时间如何影响SAM2的分割性能。对于点击式 Prompt ，从相应的真实 Mask 中随机选择1、3和5个前景点击（伪装的动物）。对于框式和 Mask 式 Prompt ，作者直接使用数据集中的目标的边界框或 Mask 作为 Prompt 。

论文标题：时间和帧选择

在AI领域，时间和帧选择是一个重要的研究方向。本文旨在探讨这一主题，以期为相关研究提供一些参考。

首先，作者需要明确时间和帧选择的定义。在AI领域，时间是指训练神经网络时所需的时间。帧选择则是指在计算机视觉任务中，选择合适的图像帧以提高模型性能。

在实际应用中，时间和帧选择对于AI系统的性能至关重要。因此，如何合理地选择时间和帧，以提高模型性能，是AI领域的一个热门话题。

本文首先介绍了时间和帧选择的重要性，然后探讨了在AI领域中如何选择合适的训练时间和帧选择。本文还提供了一些实际应用案例，以帮助读者更好地理解时间和帧选择在AI领域的重要性。

总之，时间和帧选择在AI领域是一个重要的话题。通过合理地选择时间和帧，可以提高AI系统的性能。本文旨在为相关研究提供一些参考，以期在AI领域取得更好的成果。

作者通过在视频序列的不同时间点应用 Prompt 符，将分析扩展到第一帧之外。在本实验中，选择的 Prompt 帧分别为第0帧、第5帧、第10帧、-11帧、-6帧、-1帧以及中间帧。在这里，帧索引遵循Python列表的索引规则，即-1帧表示最后一帧。这些帧是有意选择的，从开始到结束，以便作者分析 Prompt 时间如何影响SAM2的性能。

早期的帧（如第0帧、第5帧和第10帧）可以洞察模型如何从开始跟踪和分割目标，而靠近结尾的帧（-11帧、-6帧和-1帧）有助于评估SAM2处理时间反向传播的能力。中间帧有助于评估在视频序列关键时刻提供信息时，SAM2的表现如何。这种全面的帧选择使作者能够分析 Prompt 时间如何影响在处理视频时，SAM2的分割精度和鲁棒性。

Refine MLLMs and VCOS Methods with SAM2

在本实验中，作者探索使用SAM2来优化现有MLLMs和VCOS方法生成的结果。

3.4.1 Refine MLLMs with SAM2.

MLLMs（多模态大型语言模型）与SAM2的结合使用，是由于大多数现有MLLM只能输出边界框，而无法输出分割 Mask 的局限性。如果使用MLLM生成的边界框作为SAM2的 Prompt ，证明有效的话，这将实现目标的自动化识别和分割，无需手动 Prompt 。

具体来说，作者在零样本设置中使用两个大型多模态LLM模型LLaMA-1.5-7b [22]和Shikra-7b-delta-v1 [3]，来检测视频的第一帧中的伪装物体。作者设计了一些 Prompt ，让MLLMs根据[40]中的 Prompt 生成边界框，并最终选择了 Prompt “请提供图片中动物伪装的边界框坐标”。

模型输入包括这个问题 Prompt 和第一帧的视频输入。模型处理这个输入，并输出一个假设包含伪装物体的边界框的坐标。MLLMs生成的边界框坐标作为SAM2的框 Prompt 。SAM2利用这些坐标在整个视频中引导分割过程。通过利用框 Prompt ，SAM2预计在存在复杂背景和低对比度的情况下，能够有效地分割伪装物体。

3.4.2 Refine VCOS with SAM2.

在本次实验中，作者专注于使用SAM2优化现有VCOS模型生成的伪装目标 Mask 。由于VCOS模型已经输出目标 Mask ，作者探索SAM2如何通过其先进的分割能力来提高这些 Mask 的质量。

具体而言，作者使用由VCOS模型生成的目标 Mask 作为SAM2的 Prompt 。这些 Mask 作为初始粗糙分割，SAM2利用它们进一步优化细节。通过利用SAM2强大的 Mask 跟踪能力，作者旨在改进现有VCOS方法的生成结果。作者使用中间帧的预测 Mask 作为 Prompt 。

Fine-tune SAM2 on MoCA-Mask

SAM2在大型SA-V[35]数据集[35]上进行训练，该数据集通常包含来自常见场景的视频。为了提高在伪装场景上的检测能力，作者提出了一种微调策略，以调整SAM2在流行的MoCA-Mask[6]数据集上的参数。具体而言，作者微调图像编码器、 Mask 解码器以及两者，同时冻结其他参数，以保持泛化能力，因为SAM2最初在一个更大的数据集上进行训练。

这种选择性微调主要针对适应伪装目标检测的特定挑战，其中精确的特征编码和解码至关重要。作者使用AdamW[24]优化器，结合Dice损失和Binary Cross-Entropy（BCE）损失来实现伪装物体的精确分割。

作者使用学习率（）和权重衰减（）。总体损失函数计算为分割损失和BCE损失的总和：

4 Results

Comparison with State-of-the-art VCOS Methods

作者将使用1-click、 Box 和 Mask 在第一个视频帧上 Prompt SAM2的结果，与现有的最先进方法进行了比较，结果分别列在表1和表2中。

值得注意的是，在VCOS任务中，SAM2的半监督模式超过了当前的最优模型，因为在该任务中， Prompt 引导分割过程。

这使得SAM2具有优势，因为使用交互式 Prompt 比完全自动的模型更能适应。这些结果突显了将基于 Prompt 的策略集成到伪装视频分割中的有效性。

picture.image

Effect of Prompting Strategies

作者将各种 Prompt 策略（如SS3.3中提到的）得到的结果进行比较。从结果中，作者观察到三个观察结果：（1）基于 Mask 的 Prompt 产生了最佳的分割结果，与点击和边界 Prompt 相比；

（2）增加点击次数显著提高了分割结果；

（3）在视频中间 Prompt 通常比在其他帧中 Prompt 表现更好，不同时间点的 Prompt 结果差异很大。

4.2.2 Comparisons among different prompting strategies.

表2在MoCA-Mask和CAD数据集上，使用不同的 Prompt 策略（1-click、box和mask）对SAM2在不同模型大小上的性能进行全面比较。

结果明显表明，基于mask的 Prompt 优于1-click和box-based策略。这一结果与作者直觉相符：Prompt 越详细，分割效果越好。

例如，在CAD数据集中，使用mask Prompt 的SAM2在大模型（Hiera-L）上实现了0.804的最高mIoU，超过了1-click Prompt （mIoU 0.612）和box-based Prompt （mIoU 0.781）。

在其他模型大小（如Hiera-B+）上，也观察到类似趋势，mask Prompt 在mIoU上达到0.791，而1-click Prompt 为0.604，box-based Prompt 为0.768。

4.2.3 Impact of the number of clicks for point prompting.

作者研究了在中间帧使用不同点击数（1, 3和5）作为 Prompt 对分割性能的影响，横跨各种模型大小。在MoCA-Mask数据集上的结果如表3所示。

点击数增加时，性能通常会提高，对于5-点击 Prompt ，最高mIoU和mDice分数出现。例如，当使用大型模型时，5-点击 Prompt 达到最佳性能，为0.827，mDice为0.733，mIoU为0.639，超过1-点击和3-点击 Prompt 。

对于B+和小型模型，5-点击 Prompt 始终提供更好的分割结果。然而，当从3-点击 Prompt 转移到5-点击 Prompt 时，小型模型表现略有提升，指标间差异不大。

实际上，3-点击 Prompt 相对于5-点击 Prompt 具有更高的和分数。这表明尽管点击数增加通常会导致更好的分割，但对于非常小的模型，可能存在递减收益。

picture.image

4.2.4 Impact of prompt timing.

作者评估了 Prompt 时机对性能的影响，使用基于点击的、基于框的以及基于 Mask 的 Prompt 在SAM2的小版本上对MoCA-Mask数据集进行评估。表4呈现了所有三种 Prompt 策略下不同 Prompt 时机的结果。总体而言，结果表明在所有策略下，中间帧应用 Prompt 获得最佳的分割性能。

例如，在中间帧使用基于点击的 Prompt ，获得0.561的mIoU，高于其他时间点的 Prompt 。同样，对于基于框和基于 Mask 的 Prompt ，中间帧在大多数评估指标上提供了最佳结果。这一趋势对于基于 Mask 的 Prompt 尤为明显，其中中间帧实现了0.718的mIoU，是所有实验中最高的。这些结果表明， Prompt 时机是实现最佳分割性能的关键因素。

picture.image

Chapter 10

Automatic Mode Results

表5显示了在MoCA-Mask数据集上使用SAM2自动模式的结果。可以看出，与带有引导 Prompt 的半监督模式相比，性能显著降低。这表明SAM2在完全无监督的伪装场景中进行分割时，很难在没有指导的情况下清晰地检测到物体边界。

picture.image

Refine MLLMs and VCOS with SAM2

4.4.1 Refine MLLMs with SAM2.

在作者的实验中，作者使用了两款大型多模态LLM模型，即LLaVA-1.5-7b [22]和Shikra-7b-delta-v1 [3]，并结合SAM2进行视频分割。结果如表6所示。结果表明性能令人不满意。

例如，LLaVA+SAM2和Shikra+SAM2模型的mIoU和mDice得分相对较低，其中小型模型分别实现了0.272和0.1的mIoU值。性能不佳的原因可以归因于SAM2对MLLM在第一帧的准确边界框检测的高度依赖。当MLLM无法生成正确的边界框时，它严重影响了后续帧的分割，导致分割 Mask 质量较差。

这突显了初始帧中准确目标检测的重要性。

picture.image

优化基于SAM2的Refine VCOS。在本实验中，作者关注使用SAM2对TSP-SAM [16]模型生成的分割 Mask 进行优化。TSP-SAM生成的初始 Mask 被用作 Prompt ，用于引导SAM2进行细节优化。

TSP-SAM模型根据前几帧分割每一帧，逐步提高分割效果。因此，作者假设视频的最后帧包含最精细的分割结果，因此它是SAM2进行进一步优化的最佳候选者，因此作者 Prompt 视频序列的最后帧的 Mask 进行SAM2的优化。

表7呈现了在不同模型大小（大型、b+、小型和微型）下，该精炼过程的结果。与基准（TSP-SAM）相比，SAM2在大多数指标上明显取得了改进。例如，使用大型模型进行精炼，得到为0.698，mIoU 为0.408，表明在结构和分割质量方面都有所提升。

在其他模型上，也可以观察到类似的趋势，小型模型从0.689增加到0.694，mIoU 从0.388提高到0.401。这些结果表明，SAM2的先进功能可以明显提升VCOS模型的性能。

picture.image

Fine-tune SAM2 on MoCA-Mask

作者在单个V100-32GB GPU上，用MoCA-Mask数据集微调SAM2-Tiny模型50个epoch。评估时，作者使用第一帧的基于 Box 的 Prompt 作为输入，结果见表8。观察到显著的性能提升。mIoU增加了约0.0291，从0.6236提高到0.6527，提高了2.9%。同样，mDice得分也显著提高了0.0309，从0.7251提高到0.7560，提高了3.1%。

表进一步分解了不同的微调配置带来的改进。同时微调图像编码器和 Mask 解码器获得最佳结果。这些结果证明了在MoCA-Mask数据集上，对SAM2-Tiny的图像编码器和 Mask 解码器进行微调可以提高VCOS中的分割精度。

picture.image

Failure Cases Analysis

在作者的实验中，作者在SAM2对伪装动物的分割中识别出几个失败案例，这些失败案例出现在第一帧的1-click Prompt 中，如图1所示。

这些示例，包括铜头蛇、刺猬和蚂蚁，与成功案例（见图2）进行对比，揭示了处理复杂伪装场景时的挑战。在这里，作者分析了导致失败的几个关键因素：

picture.image

低对比度与背景：铜头蛇 blends 几乎与周围环境无缝衔接，导致 SAM2 难以将其与背景区分开来，从而产生了不完整的分割 Mask 。

遮挡物与干扰元素：刺猬案例凸显了SAM2在由密集环境（如分枝和叶子）导致的遮挡物方面的困难，从而导致不准确的物体分割。

瘦长和复杂结构: 然而，昆虫的细微结构并未得到很好的捕捉，特别是其细长的腿，这显示了在分割复杂结构方面的局限性。

这些失败案例突显了在将SAM2应用于VCOS的未来适应中，需要改进对低对比度、杂乱环境以及复杂结构的处理。

5 Conclusion

本研究对Segment Anything Model 2 (SAM2)在视频伪装物体分割两个流行数据集MoCA-Mask和CAD上的性能进行了系统评估。

作者的实验结果强调了几个关键发现：

基于 Prompt 的分割: SAM2在不同 Prompt 策略下（如点击、框和 Mask ）表现出显著的性能提升。基于框和 Mask 的 Prompt 在两个数据集上始终优于基于点击的 Prompt ，其中中间帧 Prompt 往往产生最佳结果。这表明在引导SAM2对伪装物体进行准确分割时，空间细节（框和 Mask ）的重要性。

自动模式性能：在自动模式下，SAM2在伪装场景中全无监督分割方面表现不佳，实现了不满意的mIoU和mDice分数。结果表明，用户指导或 Prompt 对于SAM2在动态环境中有效分割伪装物体至关重要。

使用SAM2进行微调：使用SAM2对VCOS模型的输出进行微调显著提高了分割性能。SAM2的先进 Mask 微调功能导致了更高的mIoU和mDice分数。然而，当将SAM2与多模态大型语言模型（MLLMs）相结合时，结果不理想，突显了MLLMs进行准确初始目标检测的重要性。这一发现与自动模式下的实验一致。

微调SAM2：在MoCA-Mask数据集上对SAM2进行微调，可以显著提高mIoU和mDice分数，这表明SAM2在提供特定训练数据的情况下，具有适应伪装分割的能力。对SAM2进行微调可以显著提高其在涉及复杂目标背景融合的任务（如伪装分割）上的性能。

点击上方卡片，关注「AI视界引擎」公众号