SAM 2机制拆解 | 逐阶段噪声过滤+复杂变换抗干扰,实战场景分割精度跃升

大模型向量数据库数据中台

点击下方卡片,关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

picture.image

picture.image

picture.image

picture.image

picture.image

导读

视频目标分割(Video Object Segmentation,VOs)是视频感知和理解开发中的关键任务。Meta AI发布的Segment-Anything Model 2(SAM 2)是目前端到端视频目标分割的最先进架构。SAM 2在干净视频数据和增强数据上均表现出色,而完全智能的视频感知需要理解该架构如何实现如此高质量的结果。为了更好地理解SAM 2架构中的每一步如何实现高质量的视频分割,作者通过该架构传递了各种复杂视频变换,并测量了每个阶段的影响。作者观察到,每个渐进阶段都能过滤复杂的变换噪声并强调感兴趣的目标。作者的贡献包括创建复杂变换视频数据集、分析SAM 2架构的每个阶段如何解释这些变换,以及通过每个阶段可视化分割目标。通过更好地理解每个模型结构对整体视频理解的影响,视频目标分割的开发可以致力于提高实际应用性和性能跟踪,即使在复杂杂乱的场景和遮挡中也能定位和分割目标。

1 引言

在评估VOS模型的质量时,基准测试和量化指标只能提供有限的信息。尽管使用这些指标,SAM 2的 Mask 预测质量很高,但它们对作者了解模型如何感知物体提供的信息很少。通过观察模型对输入变化的反应,作者可以确定SAM 2等VOS模型的感知过程。SAM 2架构中的每个阶段都会改变物体感知,通过一系列数据转换,作者可以明显看出模型是从场景导向感知过渡到物体导向感知的过程。

理解模型感知可以指导架构决策、损失函数决策以及潜在弱点的识别。SAM 2 存在一些缺陷,包括较弱的跟踪能力[9]。通过使用具有挑战性的数据对 SAM 2 进行检测,作者可以识别潜在问题并确定可以改进的地方。识别 SAM 2 的层对于开发未来视频目标分割模型的重要改进至关重要。

-term obscurations. 在引入旨在测试模型视觉感知的复杂数据集时,跟踪这些观察位置处的嵌入,将有助于深入了解解决为杂乱复杂场景和长期遮挡设计VOS模型时遇到的常见挑战。

贡献

作者的贡献如下。

    1. 创建包含复杂变换的多种视频数据集,包括物体遮挡、帧插入和物体移除。
    1. 对SAM 2架构的每个阶段如何解释这些复杂变换的分析。
    1. 每个观测位置的可视化展示,突出模型所关注的特征。
    1. 一种解码SAM 2目标指针到时空表示的新方法,首次展示了该表示如何被模型使用。

2 相关工作

1.2 图像分割

SAM 2 架构基于原始的图像分割模型 Segment Anything Model [6] (SAM)。当给定输入图像和 Prompt 时,该模型预测关联目标的分割 Mask ,提供可以基于用户输入或特定标准进行调整或细化的精确轮廓。它通过利用大量图像及其相应的分割 Mask 的大数据集,在标注和细化的迭代过程中学习各种物体形状和边界。SAM 采用基于 Transformer 的架构,使其能够以捕捉局部和全局上下文的方式处理图像。SAM 架构使用重型图像编码器和轻量级 Prompt 注意力机制来关注图像区域或自然语言 Prompt 。SAM 通过 Mask 解码器(图1)返回一组分割 Mask ,这些 Mask 是通过 Prompt 与图像嵌入的交叉注意力得到的。

picture.image

2.2 视频分割

直到最近,最先进的视觉目标分割(VOS)模型,包括XMem [3] 和Cutie [2],都依赖于当前帧和前一帧之间的关系来预测 Mask 之间的关系,这一过程被称为帧间亲和力。半监督VOS结构依赖于单个 Mask Prompt 及其之前的预测来生成完整的 Mask 预测列表。SAM 2 [8] 引入了一种不依赖于亲和力的架构,从根本上改变了VOS作为问题的探索方式。SAM 2不是使用帧间亲和力进行 Mask 预测,而是仅利用帧嵌入和记忆之间的注意力。在任何视频点都可以使用 Mask 、边界框和点作为输入, Prompt 编码用于解码 Mask 预测。SAM 2迭代地应用SAM,并将前一帧的注意力作为自我 Prompt 机制。

SAM 2 的简化架构图如图1 所示。首先,输入图像经过预处理并通过图像编码器找到图像嵌入。这些嵌入经过两个交叉注意力层,首先是与先前 Mask /帧关系的记忆进行交叉,其次是与 Prompt 输入(如 Mask 、边界框和点点击)进行交叉。 Mask 预测作为这些交叉注意力层的函数进行解码。一个 256 维度的目标指针代表目标相对于先前帧的状态。 Mask 预测和目标指针被编码到记忆中,用于未来的预测。

2.3 数据集

现有数据集探讨了部分或完全遮挡物体的分割问题。DAVIS [5] 是一个多目标视频数据集,其中的视频已经进行了 GT Mask 的分割。它是一个高度流行的基准数据集,模型可以在其上进行性能比较。尽管这些数据包含有限的物体遮挡,但它们为VOS提供了一个良好的 Baseline 。本文将使用DAVIS数据集生成所用的数据。

MOSE [4] 是一个类似于DAVIS的流行视频数据集,它强调物体遮挡。在许多样本中,遮挡物体将在视频的某个部分部分或完全被遮挡,以测试VOS模型的鲁棒性。最先进的模型,尤其是Cutie和SAM 2,在开发其架构时强调了该数据集,并在这些遮挡上表现出色。作者的数据集包含合成遮挡,当干净数据包含自然遮挡时,这些遮挡是不可靠的。因此,作者使用DAVIS创建了一个包含必要标注长期插入的视频数据集。

3 实验设计

本文在DAVIS数据集上使用了多种复杂的变换来收集数据。这些变换的影响在如图1所示的架构中的五个不同位置进行了观察。

3.1 数据转换

尽管DAVIS视频数据集被用作所有观测参数的 Baseline ,但为了创建新的500个视频数据集,作者应用了五种复杂的变换。DAVIS视频的随机重采样允许生成随机样本。作者将感兴趣的目标定义为将被分割的目标,遮挡目标定义为与感兴趣目标部分或全部重叠的不同目标,而上下文则是指不属于任一目标的帧背景。

3.1.1 四帧插入

从感兴趣的视频中选取一个目标,并在感兴趣视频的中间插入来自另一个无关视频的选定帧数[1],如图2所示。因此,在插入期间,感兴趣的目标并不存在。SAM 2在插入视频的三个阶段预计将执行以下操作:

picture.image

    1. 前缀:将初始 Mask 写入内存中的目标
    1. 惊叹词:识别目标缺失并避免错误阳性预测
    1. 后缀:重新识别目标并继续以与预训练期间相同的精度进行分割。该数据集使用12帧前缀和后缀,以便为模型提供充足的时间将感兴趣的目标写入记忆。如图2所示,使用4帧插入。该数据集测试了SAM 2对无关帧的鲁棒性。默认情况下,SAM 2每7帧写入一次记忆[8]。一个不良的分割模型可能会在做出错误预测的同时将插入帧写入记忆。这会降低后缀重新识别的性能,因为记忆被污染[1]。

3.1.2 目标移除

与四帧插值数据集类似,物体移除数据集也存在一个时间段,其中感兴趣的目标完全消失。然而,在这个数据集中,视频的背景上下文仍然保留。该数据集的结构如图3所示。在DAVIS视频的前缀和后缀中人工添加一个物体。这使得新添加的物体可以被分割并移除,而不会影响背景上下文。这个数据集将允许分析SAM 2的每个阶段如何将物体解释为与周围上下文分离。

picture.image

3.1.3 上下文去除

上下文移除数据集与目标移除相反。不是在周围上下文保持不变的情况下移除感兴趣的物体,而是移除周围上下文。这种结构在图4中展示。与之前的数据集不同,由于物体从未消失,因此不需要进行目标再识别。相反,模型必须知道如何在整个视频中跟踪物体。这个数据集可以测试SAM 2如何解释一个理想情况下不应影响分割 Mask 预测的大规模上下文变化。由于随着上下文的移除,帧与帧之间的像素相似度(以及因此的亲和度)很小,这为基于亲和度的算法[1]提出了潜在的失败点。

picture.image

3.1.4 Mask

遮挡数据集探讨了人工引入的遮挡物体的影响。图5展示了这种人工遮挡的示例以及原始未遮挡的DAVIS视频。对感兴趣物体的遮挡可能导致分割区域不连续的问题,以及从一帧到另一帧的 Mask 形状快速变化。该数据集将测试对于SAM 2来说,感兴趣物体需要有多少部分可见才能理解物体的位置和形状。

picture.image

3.1.5 三目标叠加

3目标叠加数据集探讨了在分割目标之上引入多个视觉上相似目标的效果。图5展示了这种人工叠加的示例以及原始未被遮挡的DAVIS视频。该数据集将测试SAM 2架构的每个阶段在区分多个视觉上相似目标方面的表现。

3.2 观察位置

SAM 2架构中存在五个不同的观测位置,用于探索数据转换的影响。这些位置如图1所示。在本文中,位置O指的是最初输入到模型中的 Reshape 帧。

3.2.1 位置 1:图像嵌入

与所有VOS模型一样,SAM 2图像编码器创建了一个嵌入表示的输入帧,该表示可以在后续阶段使用。图像编码器的输出是一个[32, 256, 256]张量。作为SAM 2架构的第一步,对这一观测位置的解析将展示初始帧嵌入对整体分离感兴趣目标与周围环境的有益之处。

3.2.2 位置2:像素/内存特征

图像嵌入与嵌入到记忆中的先前帧/ Mask 关系进行交叉注意力。此阶段用于在 Mask 预测中建立时间一致性,并确保新的预测遵循从帧到帧的相同类型目标。从记忆交叉注意力层输出的像素/记忆特征是一个[256, 64, 64]张量。与先前最先进的VOS模型的主要区别在于,对记忆交叉注意力的分析将展示亲和力无关算法如何解释当前 Mask 预测中的过去帧。

3.2.3 位置3:像素/ Prompt 嵌入

在建立时间一致性之后,特征通过与输入 Prompt (如 Mask 、边界框或点 Prompt )进行交叉注意力,实现空间一致性。这个过程与原始SAM模型进行图像分割的过程相同。生成的像素/ Prompt 嵌入是一个[256, 64, 64]的张量。这一阶段将展示 Prompt 嵌入如何影响模型对物体定位的理解。

3.2.4 位置 4:目标指针

SAM 2 Mask 解码器的输出是一个二值 Mask 预测以及一个[1, 256]的目标指针向量,该向量是目标当前位置的嵌入表示。目标指针在后续迭代中被用于确保每个预测之间目标位置的连续性。当目标指针嵌入到内存中时,它也被直接用于第一个交叉注意力层,以提供对先前目标位置的洞察。对目标指针的分析将揭示目标位置相对于上下文的空间理解。

3.2.5 位置 5:记忆特征

Mask 预测的目标指针在存储到内存之前会通过一个内存编码器。这些内存特征是SAM 2如何记住每一帧以供未来使用的有用表示。内存特征是一个[64, 64, 64]的张量。理解嵌入到内存中的内容可以提供关于SAM 2认为对未来 Mask 预测重要性的有用信息。

4 结果

4.1 模糊数据集

通过可视化SAM 2过程的每个阶段,可以明显看出在每一步中哪些框架元素被突出显示。为了创建这些可视化,执行了通道操作,仅留下图像空间的二维表示。探索了通道均值和方差。然后,将每个可视化缩放到相同的尺寸并粘贴在一起。

4.1.1 Mask

picture.image

图7展示了单个帧中位置0(原始图像)、位置1(图像嵌入)、位置2(记忆注意力之后)、位置3( Prompt 注意力之后)和位置5(记忆特征)的可视化,针对的是清晰的DAVIS视频。图8展示了同一视频的模糊版本。每张图的顶部行使用通道均值创建二维可视化,底部行则显示通道方差。在这两个视频中,汽车是感兴趣的目标,而山羊是遮挡物体。

picture.image

位置1的图像嵌入明显代表某种边缘检测。这一阶段在具有 Mask 历史的注意力之前。因此,如图所示,没有物体位置或形状的指示,而只是整个画面的表示。在两种情况下,与嵌入的其他位置相比,边缘在通道维度上的均值较小,方差较大。

位置2的内存注意力嵌入考虑了前一帧的内存嵌入和前一帧的目标指针。在干净视频中,汽车目标与其周围环境相比,具有较小的均值和较大的方差,这表明模型能够在此阶段识别出该目标。然而,在遮挡视频中,遮挡目标也具有较小的均值和较大的方差,这表明模型尚不能区分哪个目标是正确的目标,只能识别出目标的位置。

位置3的 Prompt 注意力嵌入是模型首次表现出对目标物体理解的第一点。在两个视频中,汽车具有极低的方差,边界像素具有较大的均值,围绕物体形成光环。遮挡物体的均值为非常低,方差高。属于物体的像素归属变得越来越明显。

最后,位置5处的记忆特征对整个图像的关注度高于对物体的关注。整个画面的细节清晰可见,感兴趣物体以低均值和低方差形成的暗光突出显示。对于模型来说,理解图像背景以及物体的位置是有用的,这一点在记忆特征的可视化中得到了体现。

由于位置4的目标指针是一个没有明确空间和通道维度的向量[1, 256],因此难以像其他位置一样进行可视化。因此,它使用二维PCA降维分析在图9中进行可视化。两个视频的所有帧的目标指针均以星号表示第一帧。

picture.image

在模糊的视频中,感兴趣的目标(汽车)最初被遮挡。在视频的大部分时间里,遮挡物(山羊)覆盖了汽车的一部分,而视频的结尾显示汽车再次未被遮挡。主成分分析(PCA)的可视化显示了类似的模式,当目标未被遮挡时,同一帧中的目标指针看起来更靠近,而当目标被遮挡时,它们则更远。

为了测试这种相关性,图10展示了两个视频中目标指针之间的L2距离与被遮挡目标百分比的函数关系。这两个变量明显显示出正相关关系。图中用红色圆圈圈出的点显示出一种有趣的模式。所有这些帧都是

被遮挡,但目标指针之间的距离并不恒定。这表明目标指针不仅仅是一个嵌入目标的位置和形状。即使在感兴趣的物体仍然完全可见的情况下,帧中的遮挡物体也会改变目标指针。

picture.image

4.1.2 三目标叠加

图12和图11展示了三个目标数据集样本及其对应的清洁DAVIS样本的相同可视化。与遮挡样本类似,位置1的图像嵌入是一个简单的边缘检测器,其中边缘在通道维度上以低平均值和高方差表示。位置2的记忆注意力特征显示出对物体形状的理解,但不是位置。在三个目标的视觉化中,所有重叠的目标都被突出显示,尽管它们代表不同的目标。位置3的 Prompt -注意力嵌入允许进行目标定位。只有感兴趣的目标,而不是重叠的目标,以低方差突出显示,这表明 Prompt 注意力集强制执行空间一致性。最后,位置5的记忆特征在原始和转换的视觉化中非常相似。在两个样本中,都将整个帧的表示以及目标上的高亮嵌入到记忆中。

picture.image

picture.image

4.2 目标指针分析

如SAM 2论文[8]所述,目标指针是一个[1,256]向量,模型使用它来回忆之前帧中目标的位置。它作为目标位置的嵌入被创建,并在与记忆的交叉注意力过程中进行反馈。这引发了关于目标指针究竟代表什么以及模型如何感知它的疑问。为了确定目标指针与原始帧中目标之间是否存在空间关系,作者探索了基本的模型来解码目标位置。一个基本的多层感知器(MLP)模型在包含[1,256]目标指针输入和[1,4]目标边界框输出(代表[xmin, ymin, xmax, ymax])的整个DAVIS数据集上进行了训练。这个训练好的模型被用来仅使用目标指针预测当前帧中的目标位置。图14显示了目标指针的投影,分别对应图7、8、11和12中所示的帧。

picture.image

尽管生成的边界框可视化并不完美,但确实与物体在帧中的位置和大小存在相关性。这种表示方法允许正确地可视化SAM 2的观察方向。图15展示了从同一视频中几个帧的物体指针投影到边界框上,从而表明物体指针随着时间的推移突出显示了汽车的位置。

picture.image

这些目标指针可能与帧内目标的速度有关,因为结果投影的中心往往位于目标运动的前方。这种运动对于感知至关重要,并允许模型专注于注意目标[7]。

4.3 惊叹词数据集

感叹词数据集是指包含四个帧的感叹词时期(四个帧的感叹词、目标移除和上下文移除)以及作为 Baseline 的干净DAVIS数据集。需要注意的是,干净的DAVIS和上下文移除数据集在整个视频中保持目标的存在,而四个帧的感叹词和目标移除数据集在第12-15帧没有目标存在。理想情况下,附录A.1中定义的探索特征在显示目标的帧中应相对保持不变。对于四个帧的感叹词和目标移除数据集,特征应在感叹词时期(第12-15帧)显著增加。

4.3.1 位置 1 - 图像嵌入

在所有三个特征图中,预期的 Baseline 清洁DAVIS数据集相对恒定。作者应用于四帧插叙数据集(红线)的指标在插叙期间(帧12-15)显著增加,因为每个插叙帧都与前缀帧(帧0-11)进行比较。平均而言,每个插叙帧与包含该目标的最后一个已知帧的距离,比同一视频中的两个帧之间的距离更远。

作者对去除上下文数据集(绿色线)应用的指标在图像嵌入空间中呈现出一个有趣的模式。理想情况下,这些图将保持恒定,就像干净的DAVIS图1样。因为在插入期间去除了上下文,帧与早期帧之间的距离非常远。第12帧特征值的大跳跃反映了这一帧的不相似性。然而,物体仍然存在。因此,后续帧正在与去除上下文的帧进行比较,导致插入期间剩余部分的距离较低。短期距离和比率图显示,当上下文返回时,在第16帧出现了额外的跳跃。

作者对物体去除数据集(橙色线)应用的指标产生了相反的效果。这些图表应与四帧插值期间的插值图表相匹配,在插值期间出现大幅跳跃。因为插值期间的帧的背景上下文仍然存在,所以在此期间帧通常相似。这通过插值期间没有大幅增加来体现。相反,特征值略有增加,代表去除物体导致的帧的小幅变化。

4.3.2 位置4 - 目标指针

虽然前述位置是整个图像的表示,但目标指针是目标的直接表示。因此,目标特征的结果是最干净的。如图17所示,目标去除数据集几乎与四帧插入数据集的图表相同,尽管幅度可能不同。这意味着目标指针完全连接到感兴趣的目标,而不是无关的背景细节。尽管上下文去除数据集的图表仍然包含两个峰值,但这些峰值的最大幅度在插入期间低于目标去除数据集。

picture.image

时间比较至最后已知非插入帧在目标指针空间(位置4)

目标指针空间是分离于其周围环境的目标理想表示。对目标指针的分析可以创建一个几乎完整的分割目标图像。对于所有位置的观察特征进一步分析和附加图示请见附录A.2。

5 结论

SAM 2,当前最先进的视频目标分割模型,采用了一种独特的架构,该架构仅依赖于具有记忆功能的交叉注意力。为了提高跟踪、定位和分割模型在现实世界中的应用性,尤其是在复杂场景中,有必要了解SAM 2架构的每个阶段如何解释视频。在本文中,作者提出了五个具有复杂变换的新数据集,每个数据集都测试了SAM 2在不同挑战下的鲁棒性。作者分析了模型中每个主要阶段的五个不同观测位置,并确定了模型在哪个阶段能够从遮挡物体和周围环境中区分出感兴趣的目标。首先,目标指针提供了独特的见解,说明了模型在写入记忆时在空间上的关注点,以及后续帧执行记忆交叉注意力时的情况。通过可视化每个架构结构如何影响整体视频理解,VOS(视频目标分割)的发展可以在复杂杂乱场景和视频变换的情况下提高其现实世界的应用性。

参考

[1]. An Analysis of Segment Anything 2

picture.image

扫码加入👉「集智书童」交流群

(备注:方向+学校/公司+昵称)

picture.image

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论