点击下方卡片,关注「AI视界引擎」公众号
( 添加时备注:方向+学校/公司+昵称/姓名 )
运动目标分割是实现High-Level视觉场景理解的关键任务,并具有众多下游应用。人类能够毫不费力地在视频中分割运动目标。以往的研究主要依赖光流来提供运动线索;
然而,由于部分运动、复杂形变、运动模糊和背景干扰等挑战,这种方法通常导致预测结果不完美。
作者提出了一种结合长程轨迹运动线索与基于DINO的语义特征的运动目标分割新方法,并利用SAM2通过迭代 Prompt 策略进行像素级 Mask 密集化。
yinqing-Segment-Any-Motion_2503采用时空轨迹注意力和运动语义解耦嵌入,在整合语义支持的同时优先考虑运动。在多样化数据集上的大量测试表明,yinqing-Segment-Any-Motion_2503达到了最先进的性能,在具有挑战性的场景和多目标细粒度分割方面表现出色。
unsetunset1. 引言unsetunset
视频中移动物体的分割对于多种应用至关重要,包括动作识别、自动驾驶[10, 22, 66]和四维重建[58]。许多先前工作在视频目标分割(VOs)或运动分割等术语下解决这个问题。在本文中,作者将作者的任务定义为移动物体分割(MOS)——分割视频中表现出可观察运动的物体。此定义与视频目标分割不同,后者包括那些即使静止在视频中也具有潜在运动可能的物体,也与运动分割不同,后者还可能捕捉到背景运动,如 Stream 的水。这项任务具有挑战性,因为它隐含要求区分相机运动和物体运动,在物体发生变形、遮挡、快速或瞬时运动的情况下稳健地跟踪物体,并用精确、干净的 Mask 将它们分割出来。
近期,可 Prompt 视觉分割技术取得了显著进展。
SAM2 [51] 在使用点、 Mask 或边界框作为 Prompt 的情况下,能够有效分割和跟踪视频中相关的物体,取得了显著进展。然而,SAM2 无法原生处理 MOS,因为它缺乏检测哪些物体在移动的机制。
作者提出了一种创新性的长程轨迹与SAM2结合的方法,用于运动目标分割,以充分发挥SAM2的能力。首先,点跟踪捕获了宝贵的长程像素运动信息,该信息对形变和遮挡具有鲁棒性,如图2所示。同时,作者结合了DINO特征[12, 45],作为补充信息源,为基于运动的分割提供语义上下文。与传统MOS方法不同,作者在大量数据集上训练模型,以在高 Level 有效结合运动和语义信息。给定一组长程2D轨迹,yinqing-Segment-Any-Motion_2503旨在识别那些对应于运动目标的轨迹。一旦这些动态轨迹被识别,作者应用Sparse到密集的 Mask 密集化策略,该策略结合迭代 Prompt 方法[51]与SAM2,将Sparse、点级的 Mask 转换为像素级分割。由于主要目标是运动目标分割,作者在使用语义信息作为次要支持时,强调运动线索。为了有效平衡这两种类型的信息,作者提出了两个专用模块。(1)时空轨迹注意力。鉴于输入轨迹的长期性,yinqing-Segment-Any-Motion_2503结合了空间注意力来捕获不同轨迹之间的关系,以及时间注意力来监控单个轨迹随时间的变化。(2)运动语义解耦嵌入。作者实现了特殊的注意力机制,以优先考虑运动模式,并在辅助路径中处理语义特征。
作者在包含合成数据[19, 28]和真实世界数据的广泛数据集上训练了yinqing-Segment-Any-Motion_2503[36]。由于DINO特征[45]的自监督特性,即使主要在合成数据上训练,yinqing-Segment-Any-Motion_2503也表现出强大的泛化能力。作者在不属于训练数据集的基准测试[34, 43, 47, 48]上评估了yinqing-Segment-Any-Motion_2503,结果表明yinqing-Segment-Any-Motion_2503在多样化任务中显著优于 Baseline 模型。
尽管现有的MOS方法利用光流[6, 8, 9]来捕捉运动信息,无论是通过识别不同的运动组[6, 46, 53, 59],还是使用基于学习的模型[8, 9, 18, 40, 49]从光流中推导像素 Mask 。然而,光流仅限于短程运动,在长时间内可能会丢失追踪。其他方法[3, 7, 14, 42]依赖于点轨迹作为运动线索,但传统上在亲和矩阵上使用谱聚类,难以处理复杂运动。尽管一些方法也尝试利用外观线索[24, 61]来更好地理解运动,但它们通常在不同的独立阶段处理不同的模态,限制了其互补信息的有效整合。针对这些局限性,作者的统一框架实现了三重整合:长程轨迹、DINO特征和SAM2。该设计解释了模型在处理关节运动和反射表面等挑战性案例时的卓越能力(如图1所示),以及在多物体细粒度分割方面的优异性能。
总之,作者做出了以下贡献:
作者介绍了一种创新的长程轨迹与SAM2的组合方法,该方法能够实现跨帧的高效 Mask 密集化和跟踪。
为了获取轨迹的运动标签,作者提出了一种与传统基于亲和矩阵的方法不同的方法,并引入了运动语义解耦嵌入,该方法能够更有效地融合运动和语义信息,通过平衡这些线索来增强轨迹 Level 的分割。
在多个基准数据集上的大量实验结果证明了yinqing-Segment-Any-Motion_2503的有效性,特别是在细粒度移动物体分割方面。
unsetunset2. 相关工作unsetunset
基于流体的移动物体分割。传统上,基于光流的方法[6, 46, 53, 59]通过将运动线索分组来创建移动物体 Mask ,从而分割移动物体。这些方法通常采用迭代优化或统计推理技术来同时估计运动模型并识别运动区域。近年来,许多基于深度学习的方法、使用CNN编码器或Transformer从光流中提取运动线索,然后通过解码器生成最终分割结果。这些方法的主要区别在于模型架构;例如,编码语义信息的方法通常使用多个CNN编码器分别处理不同的数据模态。一般来说,基于光流的方法难以区分独立物体运动与由深度差异引起的视错觉运动。此外,强烈的亮度变化也会对这些方法产生不利影响。此外,基于光流的方法仅限于短时序序列;当物体运动缓慢或被遮挡时,这些方法的表现较差。
基于轨迹的移动物体分割。基于轨迹的方法通常可分为两类:双帧方法和多帧方法。双帧方法[3, 14, 25]通常通过求解迭代能量最小化问题来估计运动参数,这些方法近年来得到了各种卷积神经网络(CNN)模型[54, 75]的赋能。相比之下,多帧方法通常利用基于亲和矩阵的谱聚类。这些矩阵通过几何模型拟合[2, 23, 32, 64]、子空间拟合[17, 50, 55, 57]或整合运动和外观信息的成对运动亲和性[7, 24, 30, 42]等技术推导而来。近期研究集中于寻找更有效的运动模型。
例如,[1]使用三重张量分析点轨迹,认为它在三张图像上提供的匹配比基础矩阵在两张图像上更可靠。然而,三重张量也带来了挑战:优化难度大,当三个相机位置近乎共线时容易失败[44]。其他研究[27, 65]提出了几何模型融合技术来组合不同模型。近期一些工作探索了整合多种运动线索[21, 41]。
例如,[24]研究了结合点轨迹和光流,利用精心设计的几何运动模型通过协同正则化的多视图谱聚类融合这两种亲和矩阵。然而,这些方法仍因依赖亲和矩阵而面临固有问题。它们倾向于仅捕捉局部相似性,导致全局一致性差,从而产生不一致的分割。此外,亲和矩阵难以捕捉运动特征(如速度和方向)随时间的动态变化。相比之下,作者解决了跨不同运动类型捕捉运动相似性的挑战。
无监督视频目标分割。无监督视频目标分割(VOs)旨在自动识别和跟踪原始视频片段中的显著目标,而半监督VOs则依赖首帧的真实标注来分割后续帧中的目标[47, 48]。在本工作中,作者专注于无监督VOs,简称“VOs”。近年来,许多方法[69, 72]结合了运动和外观信息。
例如,MATNet[74]引入了一种运动注意力转换模型用于无监督VOs,利用运动线索以外观为主要关注点来指导分割。RTNet[52]提出了一种基于互易变换的方法,利用连续帧间目标外观和运动的连续性来实现分割。FSNet[26]采用全双工策略,使用双路径网络联合建模外观和运动。总体而言,VOs通常针对视频中的显著目标,无论目标是否运动。尽管许多VOs方法包含了运动信息,但这通常不是它们的主要关注点。
unsetunset3. 方法unsetunset
作者的目标是在给定视频的情况下识别运动物体并生成像素级的动态 Mask 。图3概述了作者的流程。核心思想在于长程轨迹不仅捕捉了有助于视频理解的运动模式,还提供了对 Prompt 式视觉分割至关重要的长程 Prompt 。因此,作者使用长程点轨迹作为运动线索,将其作为3.1节中的主要输入,在该节中作者应用时空注意力机制来捕获上下文感知特征。在3.2节中,作者进一步结合并解耦语义信息与运动线索的使用,以解码特征,帮助模型预测最终的动态标签。在识别动态轨迹后,作者利用这些长程轨迹迭代地 Prompt SAM2[51],具体描述见3.3节。
3.1. 运动模式编码
点轨迹包含理解运动的重要信息,相关的MOS方法通常可分为两类:双帧方法和多帧方法。然而,如第2节所述,双帧方法[3, 14, 25]常存在显著的时间不一致性,且当输入流为噪声时性能会下降。相比之下,多帧方法通常基于亲和矩阵利用谱聚类。但它们仍然对噪声高度敏感,难以有效处理全局、动态和复杂的运动模式。
为解决这些局限性,并受ParticleSFM [73]的启发,作者提出了一种利用长程点轨迹[15],通过专门的轨迹处理模型进行处理,以预测每条轨迹的运动标签的方法。如图3所示,作者提出的网络采用编码器-解码器架构。编码器直接处理长程轨迹数据,并在轨迹之间应用时空轨迹注意力机制。该机制结合了空间和时间线索,捕捉时间和空间上的局部和全局信息,以嵌入每条轨迹的运动模式。
鉴于长程轨迹的准确性和质量对模型性能有显著影响,作者采用BootsTAP [15]生成轨迹,该算法为每个轨迹在每时间步提供置信度评分,使作者能够屏蔽低置信度点。此外,由于动态物体运动和相机运动,长程轨迹的可见性可能随时间变化,它们可能被遮挡或移出画面。这种可见性和置信度的变化使得每个轨迹数据高度不规则,这促使作者借鉴自然语言处理中的序列建模方法 [56, 73],采用Transformer模型来有效处理数据。
作者的输入数据包含长程轨迹,每条轨迹由归一化像素坐标
、可见性
和置信度分数
组成,其中
。 Mask
用于 Token 像素坐标不可见或置信度低的点。此外,作者整合了由 Depth-Anything [67] 估计的单目深度图
,尽管存在一些噪声,但这些深度图为底层3D场景结构提供了有价值的洞察,增强了空间布局和遮挡的理解。为了进一步丰富输入数据并强化时序运动线索,作者计算了相邻帧之间轨迹坐标
和深度
的帧间差异。
由于坐标中相邻采样点可能导致空间上邻近特征的过度平滑,作者借鉴了NeRF [39] 的方法来解决这个问题。具体而言,作者对位置编码应用频率变换,以更好地捕捉细粒度的空间细节。
最终增强轨迹通过两个多层感知机(MLP)生成中间特征,这些特征随后被输入到Transformer编码器中。鉴于输入数据的长期特性,作者为编码器
提出了一种时空轨迹注意力机制,该机制交替在轨迹维度和时间维度上操作注意力层[4, 29]。这种设计使模型能够捕捉每个轨迹内的时序动态以及不同轨迹间的空间关系。最后,为了获得每个整个轨迹的特征表示而非单个点的表示,作者沿时间维度进行最大池化,遵循[73]的方法。这个过程为每个轨迹生成一个单一特征向量,自然地形成了一个高维特征轨迹,该轨迹隐式地捕捉了每个轨迹的独特运动模式。
3.2. 轨迹级运动预测
尽管作者在第3.1节中编码了运动模式,但仅凭运动线索来区分运动物体仍然具有挑战性,因为模型从高度抽象的运动轨迹中学习区分物体运动和相机运动是困难的。通过提供纹理、外观和语义信息,可以帮助模型理解哪些物体可能移动或被移动,从而简化这一任务。一些方法直接应用语义分割模型[5, 20, 68, 71],根据语义标签识别潜在的移动像素。虽然这些方法在特定场景中可能有效,但它们对于通用的运动物体分割具有固有的局限性,因为它们完全依赖于预定义的语义类别。最近,许多MOS[61, 70]和VOS[11, 33, 35]方法结合了外观信息和运动线索,但它们是在两个独立的阶段中进行的,通常使用RGB图像来细化 Mask 。然而,依赖原始RGB数据可能无法捕捉到High-Level信息,而将两种模态分阶段应用限制了它们互补信息的有效整合。
为解决这些局限性,作者引入了由自监督模型DINO v2 [45]预测的DINO特征,这有助于泛化外观信息的包含。然而,作者观察到仅将DINO特征作为输入会使模型过度依赖语义,如图8和第4.5节所述,降低了模型区分同一语义类别内运动和静态目标的能力。为克服这一问题,作者提出了运动语义解耦嵌入,使transformer解码器
能够优先考虑运动信息,同时仍考虑语义线索。
作者通过第3.1节中描述的过程获得最终的嵌入特征轨迹
:
作者随后设计了一个基于transformer的解码器,其中编码器层仅对包含运动信息的嵌入特征轨道进行注意力处理。
在计算完注意力加权的特征后,作者将DINO特征与该加权特征进行拼接,并将拼接后的特征传递给前馈层。在解码器层中,自注意力机制仍然仅应用于运动特征;然而,作者使用多头注意力机制来关注包含语义信息的记忆。最后,作者应用Sigmoid激活函数生成最终输出,从而为每个轨迹预测标签。
作者接着使用加权二元交叉熵损失[73]计算这些预测标签与每条轨迹的真实标签之间的损失。作者通过检查采样点的坐标是否位于真实动态 Mask 内,为每条轨迹分配真实标签。如果一个点位于 Mask 内,则被 Token 为动态。
3.3. SAM2迭代 Prompt
如图3所示,在获取每条轨迹的预测标签并过滤动态轨迹后,作者使用这些轨迹作为SAM2[51]的点 Prompt ,并采用迭代的两阶段 Prompt 策略。第一阶段专注于将属于同一目标的轨迹进行分组,并将每个不同目标的轨迹存储在内存中。在第二阶段,使用该内存作为SAM2 [51]的 Prompt 来生成动态 Mask 。
这种方法的动机有两个方面。首先,这是必要的,因为SAM2需要目标ID作为输入。然而,如果作者对所有动态目标分配相同的目标ID(例如,分配1来表示所有动态目标),SAM2将难以同时分割具有相同ID的多个目标。其次,这种方法提供了实现更细粒度分割的好处。
在第一阶段,作者选择包含最多可见点的时段,并定位该时段中所有可见点中最密集的点。该点作为SAM2 [51]的初始 Prompt ,随后生成该时段的初始 Mask 。生成该 Mask 后,作者对边界进行膨胀处理,将膨胀 Mask 区域内的所有点排除,以去除边缘点并假设这些点属于同一物体。接着,作者处理包含最多可见点的下一个时段,并重复此过程,直到所有时段剩余的可见点数量过少而无法处理。被识别为属于同一物体的轨迹存储在内存中,并为每个物体分配唯一的物体ID。作者仅保存每个物体未膨胀 Mask 内的点。
在第二阶段,作者利用该记忆来优化 Prompt 选择,通过定位存储轨迹中的最密集点和与此点距离最远的两点。借助轨迹的长程特性,作者定期 Prompt SAM2,以防止其因距离过远而丢失对物体的追踪。由于SAM2可能生成部分物体 Mask (例如,人体的衣物部分),作者对所有 Mask 进行后处理,以合并内部重叠或出现在相同 Mask 边界内的 Mask 。最终得到每个独立物体的完整 Mask 。
unsetunset4. 实验unsetunset
4.1. 实现细节
训练数据集。作者使用三个数据集训练模型:Kubric[19]、Dynamic Replica[28]和HOI4D [36],分别按35%、35%和30%的比例进行采样。Kubric [19]是一个合成数据集,由展示在重力作用下下落并弹跳的24帧3D刚体序列组成。作者根据单个物体的运动标签为每个序列生成动态 Mask 。Dynamic Replica [28]是另一个用于3D重建的合成数据集,包含长期跟踪标注和物体 Mask ,具有人类和动物的关节模型。作者通过分析3D轨迹来确定每个物体是否在运动,从而计算动态 Mask ,为该数据集提供精确的运动分割。HOI4D [36]是一个第一人称视角的真实世界数据集,包含人类-物体交互中的常见物体。该数据集提供官方运动分割 Mask ,非常适合模型的实际世界训练。数据采样。在训练过程中,作者随机采样可变数量的跟踪点,增强模型对不同轨迹数量的鲁棒性。对于包含300帧的Dynamic Replica数据集[28],作者通过随机间隔采样1/4的帧来加速训练。这种方法保留了数据集的大相机运动特征。作者发现包含Dynamic Replica数据集对于帮助模型有效理解相机运动至关重要。
4.2. 基准测试和指标
作者使用多个用于移动物体视频分割的已建立数据集评估yinqing-Segment-Any-Motion_2503。DAVIS17-Moving[13]是DAVIS2017数据集[48]的子集,专门设计用于移动目标检测和分割。在DAVIS17-Moving中,每个视频序列中的所有移动物体实例都被 Token ,而静态物体则被排除。遵循相同的标准,作者创建了DAVIS16-Moving作为DAVIS2016数据集[47]的子集。此外,作者还报告了在其他流行的视频目标分割基准上的性能,包括DAVIS2016[47]、SegTrackv2[34]和FBMS-59 [43]。
为了评估,作者使用区域相似度(J)和轮廓相似度(F)指标,参照[35, 38, 61]中的方法,对移动目标视频分割性能进行基准测试。
4.3. 移动目标分割
作者选择了专门针对移动物体分割的方法作为 Baseline [35, 38, 60, 61, 70]。对于
OCLR [60]中,作者报告了两个版本的结果:OCLR-flow,仅使用流输入;以及第二个版本OCLRTTA,在OCLR-flow基础上集成了测试时自适应。对于RCF [35],第一阶段RCF-stage 1专注于运动信息,而第二阶段RCF-All进一步优化了第一阶段的结果。作者报告了两个阶段的结果。对于所有 Baseline ,作者应用全连接条件随机场(CRF)[31]来细化 Mask ,以获得最佳可能结果。
值得注意的是,在多目标场景中,作者遵循[16, 60, 61, 70]的常见做法,将所有前景目标进行分组以进行评估,作者将其称为MOS。尽管yinqing-Segment-Any-Motion_2503能够生成高度精确的细粒度逐目标 Mask ,如第4.4节所述,作者将这种第二种评估方法称为细粒度MOs。表1比较了yinqing-Segment-Any-Motion_2503与几种 Baseline 方法在MOS任务上的性能。yinqing-Segment-Any-Motion_2503在所有数据集上均实现了最先进的F分数,并且作者的区域相似度(J)分数在多个数据集上均为最佳或次佳,进一步验证了yinqing-Segment-Any-Motion_2503的有效性。图4展示了作者在DAVIS16-Moving数据集上的视觉结果,其中yinqing-Segment-Any-Motion_2503能够准确识别目标边界,而不会错误 Token 运动背景。此外,作者的 Mask 表现出强大的几何结构,特别是在具有显著相机运动的挑战性场景中。图5和图6分别展示了作者在FBMS59和SegTrack v2基准上的定性结果。yinqing-Segment-Any-Motion_2503在保持 Mask 几何结构方面表现优异,即使在RGB图像模糊或质量较低的情况下,作者依赖长程轨迹也能准确识别运动目标。
4.4. 细粒度移动物体分割
在初始MOS任务的基础上,本任务不仅识别移动物体,还在其运动上下文中对其进行分类,以生成细粒度的、逐目标的 Mask 。作者专门在DAVIS2017-Moving数据集上评估了yinqing-Segment-Any-Motion_2503在多移动物体分割方面的表现。为了进行公平比较,作者仅包含声称能够执行此任务的方法。表2显示,yinqing-Segment-Any-Motion_2503显著优于 Baseline 方法,证明了其在生成准确逐目标 Mask 方面的优越能力。此外,图7说明,首先,yinqing-Segment-Any-Motion_2503准确识别每个物体,有效区分具有相似运动模式的物体。其次,它确保每个物体 Mask 的完整性,处理关节式人体结构和被遮挡物体等挑战性情况,同时保持 Mask 的完整性。
4.5. 消融实验
作者研究了yinqing-Segment-Any-Motion_2503及其各个组件在DAVIS17-Moving和DAVIS16-Moving数据集上的有效性。前者用于细粒度运动视频分割(MOS),后者则专注于运动视频分割(MOS)。所有模型均训练了完整的轮数。
作者进行了多项实验以评估每个组件的重要性。w/o DINO配置在训练过程中完全排除DINO特征,而w/o MOE(仅运动编码)在运动编码器之前将DINO特征与运动线索连接,使编码器和解码器层在整个过程中都能整合DINO信息。w/o MSDE(运动语义解耦嵌入)从运动编码器中排除DINO特征,但将其与编码器输出的嵌入特征轨迹连接,通过轨迹解码器中的自注意力机制引入语义信息。作者还测试了w/o深度和w/o轨迹的配置,移除特定输入以观察其对性能的影响。此外,w/o PE(位置嵌入)在运动编码器中省略了类似NeRF的位置嵌入,而w/o STATT(时空注意力)用常规注意力替换了时空注意力。
剧烈相机运动。作者观察到在高度挑战性的场景中,例如那些具有剧烈相机运动或快速物体运动的场景,仅依赖运动信息是不够的。如图8的上半部分所示,彩色点表示模型预测的动态点,而空心点表示当前时刻不可见的点。在这个例子中,由于缺乏DINO特征信息,模型错误地将静止的路面分类为动态,尽管路面没有移动的能力。通过结合DINO特征,可以有效地补充这些信息。此外,作者发现,在运动编码器中添加时空注意力机制在这些困难场景中特别有益,因为它为模型提供了更丰富的运动信息,以捕捉轨迹的长程运动模式,如图8所示。
区分同类动态与静态物体。结果表明完全排除DINO特征会导致性能下降,而这些特征集成的方式显著影响模型的输出。仅在运动编码阶段将DINO作为输入会导致模型过度依赖语义信息,通常使其假设同类物体共享相同的运动状态。相比之下,作者的运动语义解耦嵌入架构有效减少了这种对语义的过度依赖,使模型能够区分同类中的动态与静态物体,如图8下部所示。
unsetunset5. 结论unsetunset
在这项工作中,作者提出了一种利用长程轨迹的新方法,该方法与传统基于亲和矩阵的方法有所不同。yinqing-Segment-Any-Motion_2503在大量数据集上进行训练,能够准确识别动态轨迹,当与SAM2结合时,可生成精确的移动物体 Mask 。
作者精心设计的模型架构能够处理长程运动信息,同时有效平衡运动和外观线索。实验表明,yinqing-Segment-Any-Motion_2503在多个基准测试中取得了最先进的结果,特别是在逐物体 Level 的分割方面表现出色。
点击上方卡片,关注「AI视界引擎」公众号