点击下方卡片,关注「集智书童」公众号
想要了解更多:
前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF」
行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」
AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」
欢迎扫描上方二维码,加入「 集智书童-知识星球 」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!
免责声明
凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。
点跟踪是计算机视觉中的一个基本问题,在AR和机器人领域有诸多应用。在长期点跟踪中,一种常见的失效模式是预测的点离开其所属的目标,落在了背景或其他目标上。
作者将此归因于在追踪学习过程中未能正确捕捉物体属性的错误。
为了克服先前的技术局限,作者提出了一种新颖的物体属性的正则化方法,该方法通过强迫点留在目标实例的边界内来使点意识到目标先验。通过在训练时间内捕获物体属性的线索,作者避免了在测试过程中计算物体 Mask 的需要。
此外,作者还利用上下文注意力来提高在特征 Level 更有效地捕捉物体属性的特征表示。
因此,作者的方法在三个点跟踪基准测试上达到了最先进的性能,并通过消融研究进一步验证了作者的组成部分的有效性。
1 Introduction
点跟踪是计算机视觉中的一个基本问题,即在一段视频序列中,估计多帧中点之间的对应关系。在很多任务中,如增强现实/虚拟现实(AR/VR)、场景与光照模型(SfM/SLAM)和自动驾驶(自主驾驶)中,估计点之间的对应关系都是非常重要的。通过准确跟踪特定目标实例的点在不同帧之间的变化,作者可以具体地理解这些实例行为的变化,从而可以利用这些变化在机器人领域中涉及物体操作的应用中。在扩展视频序列中的点跟踪难度非常大,原因有两个:
1)点的出现特征由于视点、光线和形状的变化可能发生剧烈变化;
2)点可能会随着时间的推移被遮挡或看到。
为了解决这些挑战,最近的一些粒子视频风格的方法,如PIPS++,利用多帧时间上下文窗口来提高外观建模的鲁棒性,并利用跟踪单个目标点的运动时间连续性。然而,基于光流的基于方法 估计每对帧之间所有像素的运动向量,并逐帧链接流动向量来建立点跟踪。这种方法由于遮挡导致错误积累和跟踪失败。
本文的核心 thesis 是,通过在跟踪器中包含目标显著度先验,利用空间连续性显著提高粒子视频风格点跟踪器的性能,实现实例级意识。此外,作者证明了这种实现需要通过在训练时引入目标显著度损失,而不是在测试时通过目标分割来实现。这种方法允许作者在许多应用程序中直接利用空间连续性,而无需在运行时承担昂贵的计算成本。本文的主要贡献如下:
- 提出了一种目标显著度规范化方案,使每个被跟踪的点都意识到它所属的目标属性。通过惩罚不在目标内的预测,作者的方法鼓励点停留在目标的边界内,从而实现有效和高效的长期跟踪。
- 作者利用上下文注意来增强点跟踪的特征表示,使每个区域特征都能意识到其周围的上下文环境。这使模型能够在特征 Level 更清楚地识别物体。
- 作者的方法在三个基准测试中超过了现有最先进的算法:PointOdyssey [57]、TAP-Vid-DAVIS [9] 和 CroHD [50]。此外,作者的方法因为提出的目标显著度规范化方案在推理时不需要任何计算成本,所以具有很高的效率。
2 Related Works
Optical Flow
光学流动力求精确估算每一像素在连续两帧图像之间的运动,提供整个场景运动情况的精细地图。此领域的前期工作可分为两个主要分支:基于经典的变分方法和最近基于深度学习的技术。经典的假设如色不变和局部像素的运动平滑,但面对类似于孔径问题和处理场景内大位移的困难。相比之下,Teed等人[46]引入了RAFT,这是一种深度学习范式用于光学流估计。RAFT利用一个四维相关体积计算帧间像素特征相似性,然后进行迭代更新过程来估计流动。由RAFT首创的四维成本体积方法已被许多后续工作采用,不仅在光学流估计而是在跟踪领域。GMFlowNet [55]和GAFlow [30]表明,构建注意力机制以捕捉邻居信息有助于匹配。Semantic Optical Flow [39]利用不同目标移动方式不同且图像光学流随目标类别而变化的观念。
然而,光学流动可以用于点跟踪,通过将各帧估计连接在一起。然而,缺乏时间先验知识,通常限制在最多两个帧,可能会导致巨大的错误累计。尽管存在多帧光学流估计方法[35,40,6],但它们不适合长期跟踪,因为它们没有考虑到长时间被遮挡的点。此外,利用目标属性的光学流工作[39]需要推理时分割 Mask 和进一步的目标类别,而作者的方法不需要。作者的方法只需要在训练时目标 Mask ,不需要任何类别信息。
Point Tracking
由于视频级跟踪中光学流所面临的一系列问题,需要开发专门的点跟踪方法。在这个背景下,点跟踪方法 最近受到学术界和工业领域的大量关注。Tomasi等人 [47] 开发了点跟踪的早期方法之一,通过匹配前帧和当前帧中固定大小的特征窗口,作为窗口内像素强度差平方和的和。Doersch等人 [9] 提出了TAP-Vid,解决在任何视频中跟踪任意一点的问题,随后是TAPIR,他们在匹配阶段使用了一个匹配阶段,然后在进一步的细化阶段估计点位置的重要性。Harley等人 [13] 提出了PIPs,它利用基于粒子-视频 [36] 的方法进行点跟踪,能够在指定的时间窗口内通过遮挡维持跟踪。PIPs++ [57] 是通过适应目标的外观变化的多步 Query 特征来改进PIPs。上述方法分别跟踪每个点,但相邻点的运动经常相关。Karaev等人 [22] 引入了CoTracker,一种基于transformer的方法,它通过利用不同跟踪之间的相关性来联合跟踪点。
尽管作者与PIPs++共享多步 Query 特征的使用,并像CoTracker一样利用邻居信息,但作者的方法与这些方法不同,作者考虑每个点所属的目标属性。作者提出目标性正则化,通过惩罚不属于其关联目标的特征点来提高目标的感知。此外,作者还引入了上下文关注,使模型能够通过考虑邻居上下文有效地在特征 Level 区分个体目标。
3 Method
视频点跟踪问题的表述为:给定一个输入视频 ,其中包含 帧,以及第一帧上的初始点 ,作者的目标是预测整个视频的相应点轨迹 。在本节中,作者首先解决了作者基于的持久独立粒子(PIPs)[13, 57]的初步框架,然后提出了作者的新目标检测正则化方案,该方案鼓励点停留在物体边界上,并跟随一个上下文注意力模块,以提高特征水平的目标意识,从而改进跟踪。图2显示了作者提出的办法概览。
Preliminary
持续独立粒子(PIPs)框架[13, 57] 旨在解决视频序列中估计密集点轨迹的问题。关键思想是利用学习的时序先验和迭代推理机制独立地跟踪每个点,以提高轨迹估计的准确性。作者的工作主要基于 PIPs++,它包含两个阶段:初始化和迭代更新。
在初始化阶段,使用2D CNN解码器提取每个帧I_t的特征图。通过从第一帧的特征图中使用双线性插值,从对应点的位置获得初始目标点p_1的特征f_1。后续T-1帧的所有点位置和特征都以(p_1, f_1)为单位初始化,其中p_1为初始目标点的位置,f_1为初始目标点的特征。
Objectness Regularization
每一点要么属于特定目标,要么属于背景。与同一目标相关的点通常表现出相似的运动模式,并且应该始终保持在目标 Mask 内部。因此,作者提出将这种底层目标属性集成到模型中,以减轻点漂移到不同目标或背景,同时错过目标目标的问题。如图1所示,尽管两种预测都离 GT 点位置相等距离,但Pred1由于置于目标边界内,能够得到更好的预测。将预测点固定在正确目标上有助于避免漂移到无关目标,从而实现更有效的长期跟踪。
为了实现这一目的,作者在模型中通过一种新颖的目标性正则化方法,即训练损失来实现目标性正则化,从而增强实例感知点跟踪。作者使用来自[57]的真实目标 Mask 进行训练。在目标 Mask 图中,不同的目标被表示为不同的值。具体而言,当预测点不属于与 GT 点相同目标 Mask 时,作者惩罚模型。目标性正则化损失的公式为:
其中 和 分别表示预测点(在第K次迭代时的最后K个迭代)和 GT 点。 和 分别表示预测点 和 所属的目标 Mask 的值。通过指示函数 ,作者可以判断预测点 是否位于目标目标内部。因此,作者可以进一步通过最小化 将超出目标的外部点移至相应的目标目标。除了 ,作者还采用迭代距离损失函数 [13],其中 表示权重参数,它会为每个迭代步骤分配不同的权重:
其中 是超参数,用于平衡损失。
Contextual Attention
用于目标匹配中的运动估计任务的特征图(如光流和点跟踪)需要展示两个关键特性:首先,它们应该是局部判别性的;其次,它们应该促进局部运动平滑性,这是因为物体上的相邻点往往表现出相似的运动。经典光流方法[29]失败的主要原因是对有限上下文信息的依赖,这经常导致诸如孔径问题的挑战[32]。基于CNN的特征提取器[42, 14]使用标准的池化层来降低空间维度可能会无法有效地捕获局部物体边界。
为了同时增强目标性表示并伴随着目标性正则化,作者利用光学流工作中[55]的启发,采用了一种上下文注意力模块。上下文注意力为局部特征区域编码邻域上下文。因此,增强的特征图在对应匹配中产生更尖锐的峰值,即使具有相似视觉模式的目标也能区分出来。
作者首先从具有通道的2D CNN解码器中提取特征图,并将其划分为大小为的非重叠块(模块图2中的红色正方形表示块)。每个特征块然后关注邻域3x3块,包括自己。对于每个注意力头,作者使用可学习的线性投影层将特征块和周围3x3向量化特征块映射到维度,得到和。然后,作者计算注意力,其中作为 Query ,作为键和值。个注意力头的输出然后被catenate并通过线性投影层处理,最终得到特征向量,其中。这些过程如下:
然后,替换对应的特征块区域。通过以滑动窗口方式应用此过程,作者最终得到一个意识到邻域上下文的改进特征图。通过结合上下文注意力模块,作者的方法增强了特征表示,使基于上下文信息区分个体目标更加有效。
4 Experiments
Datasets
作者使用PointOdyssey训练集中的视频来训练作者的模型,并根据PIPs++ [57]的实验设置在PointOdyssey测试集、TAP-Vid-DAVIS和CroHD数据集上评估模型。下面是关于作者使用的点跟踪数据集的更多详细信息:
4.1.1 PointOdyssey.
点谱[57]数据集是一个合成跟踪基准,适用于长期跟踪。这个数据集包含了大约100个视频,每个视频包括带有相机和物体运动的场景,总共有几万个帧。测试集由12个视频组成,每个视频持续时长从884帧到4325帧不等。
4.1.2 TAP-Vid-DAVIS.
TAP-Vid-DAVIS [9] 是一个实际的 AI 视频数据集,包含约30个长度约为 100 帧的视频,每个视频中的点在随机的时间和评估过程中被 Query 。TAP-Vid-DAVIS 使用两种评估协议,即 "先 Query " 和 " Query 步进"。在 "先 Query " 协议中,每个点只 Query 一次,即在它们变得可见的第一帧上。在 " Query 步进" 协议中,点每隔五帧 Query 一次,跟踪双向。作者在 [57] 中遵循 " Query 优先" 协议评估作者的方法。
4.1.3 CroHD.
CroHD [50] 是一个真实的实时数据集,它包括具有所有人类 Head 标注的监控人群视频,这些视频的长度在500帧到几千元帧之间变化。对于评估,超过1千帧的视频被分成了千帧序列,总共得到了12个序列。
Implementation
表2:在PointOdyssey[57]数据集上与特定指标的性能比较。作者的方法在和上均优于CoTracker[22]。由于CoTracker在追踪时预测遮挡,所以在更新上略优于作者的方法。position更新由1个卷积层(具有64个核) followed by 8个1D ResNet模块和最后1个全连接层组成。
模型架构 。作者使用与PIPs++[57]相同的2D CNN编码器和解码器来估计位置更新。2D CNN编码器基于一个包含一个卷积层(具有64个核)和4个层(每个层包含2个残差模块),其中每个层有64、96、128、128核。这些残差层的输出被连接并经过两个更多卷积层(具有256和128个核),从而产生具有128个通道和下采样因子8的特征图。在作者的编码器中,作者使用ReLU激活和Instance normalization[48]。卷积编码器的特征图经过6个contextual attention模块,每个模块有8个注意力头,使用7x7的patch。为了计算特征相似度的相关图,作者在每个时间步将参考特征和特征图的点积与其他四个不同尺度(粗略到精细)的点关联起来。最后,为了得到每个点的相关向量,作者在估计的点位置的3x3邻域中采样相关图。1D ResNet模块用于计算位置更新,第4.2.2节训练详情。
作者在从PointOdyssey[57]训练数据集生成的140K剪辑(每个剪辑有384 x 512的分辨率,包含128个点跟踪)上训练作者的模型,300K次迭代,批量大小为2,使用AdamW[27]优化器和0.005的学习率,采用1cycle学习率策略[43]。作者在[43]中使用与[57]相同的和训练时的来训练作者的目标性规范化权重。在两个RTX 4090 GPU上训练模型大约需要2.5天。
Performance Evaluation
4.3.1 Evaluation metrics.
Table 4: 性能比较在CroHD [50]数据集上。作者的方法在和生存指标上超过了以前的方法。
Table 3: 性能比较在TAP-Vid-DAVIS [9]数据集上。作者的方法在生存和MTE指标上超过了以前的方法,显示出在复杂实时场景上进行长期跟踪的有效性。
作者使用与Zheng等人[57]使用的相同的评估指标,即平均位置准确性,生存和 median 轨迹误差(MTE)。是在TAP-Vid [9]中提出的,并被定义为在归一化分辨率为256 x 256时,有1,2,4,8,16像素误差至地面的轨迹的平均百分比,用于计算。生存是视频长度内平均故障帧数与平均长时间段的比值,当预测轨迹和 GT 轨迹之间的 L2 距离在归一化分辨率为256 x 256时超过50像素时,则发生故障。MTE 指标量度估计轨迹和真实轨迹之间的距离的中位数。作者对PointOdyssey数据集 [57]和Tap-Vid-DAVIS数据集 [9]中的视频在512 x 896分辨率下进行评估,并对CroHD数据集[50]使用768 x 1280分辨率进行评估。
4.3.2 Compared Methods.
作者使用了一些跟踪器,如 PIPS [13],TAP-Net [9],PIPs++ [57],CoTracker [22] 以及基于光流的 RAFT [46](其中,连续帧之间的跟踪通过将估计流链在一起来生成)和特征匹配方法 DINO [5] 来与作者的方法进行比较。在 RAFT 和 DINO 中,使用预训练权重进行评估,而其他所有方法则使用 PointOdyssey 训练分片的剪辑进行训练。作者从 PointOdyssey [57] 论文中获得了 PIPS,RAFT 和 DINO 的不同指标的数据,而从 CoTracker 的相应论文中获得了其数据。为了进行公平比较,作者参照 CoTracker,通过使用他们公开发布的官方权重和代码得到了 PIPs++ 的数据。
4.3.3 Performance comparisons.
表1、3和4分别展示了在PointOdyssey、TAP-Vid-DAVIS和CroHD数据集上的跟踪性能比较,使用、生存率和MTE指标。作者的方法总体上优于现有先前的方法,显示了作者提出的设计的有效性。表2显示了与特定指标(即、和)的比较结果,其中后两者与相似,但只具有可见或被遮挡的点。作者在前两个指标上超过两种方法,并在上达到了有竞争力的性能。
Qualitative Results
如图3所示,作者和PIPs++的定性结果对比。首先两行图像显示,由PIPs++预测的动画人形(用蓝色圈出)在第一帧被与其实色相同的高墙遮挡,使得情况变得非常具有挑战性。接下来的帧中,PIPs++预测的点无法保持在目标人形内,而是漂移到墙边。相比之下,作者的方法可以避免这种漂移,并保持对所属基础目标的跟踪。例如,作者的方法可以很好地跟踪单只鞋(用红色圈出)的点,而PIPs++则无法做到这一点。对于PIPs++来说,许多点离开了物体(也就是说,鞋子)并未能返回正确的目标物体。
图4展示了在TAP-Vid-DAVIS [9]数据集上的可视化结果,该数据集包括真实世界的视频样本。作者的方法在行人orientation突然变化时(图4(a))仍然可以有效地跟踪paraglider(滑翔伞)上的点,甚至可以跟踪非常细的绳子上的单个点。图4(b)和(c)展示了在快速运动和完全改变视角的情况下,作者方法的有效跟踪。图4(d)展示了即使在运动模糊和越过树的树叉时,作者的模型也可以持续跟踪点,克服了遮挡。这些示例显示了在多样运动的真实世界视频中跟踪点的有效性。
Effect of Proposed Designs
表5显示了作者的"Objectness Regularization"和"Contextual Attention"与基准模型PIPs++的性能对比。如表所示,物体识别正则化和情景注意力的各个组件都合理地贡献了目标跟踪性能(即,生存率,MTE)。因此,作者最终的模型在考虑到物体识别正则化和情景注意力的情况下,在所有评估指标上都获得了最佳的性能。值得注意的是,物体识别正则化不需要任何计算开销。它只在训练时应用。另外,情景注意力的模块只需要少量网络参数。因此,作者的基准模型参数数量为17.6M,而作者的 Proposal 方法参数数量为18.6M。这个差距相当微小,但通过 Proposal 的设计,性能得到了显著提升。
Effect of Regularization Weight
表6显示了根据权重α进行作者的物属性正则化(请参见第3.2节的公式(3))的生存性能表现。请注意,α调整了与典型距离损失相比物属性正则化的权重。如表格所示,当任何α值时,作者都可以获得比现有方法更高的性能。尤其是,当使用α=0.15时,作者达到了最佳结果。
5 讨论
作者的工作通过利用合成环境中的 readily available物属性 Mask ,展示了在点跟踪中学习物属性 Mask 的有效性。由于获取点对应关系标签的方便性,实践中较多使用合成数据进行点跟踪方法的训练。
然而,合成数据和实际数据之间可能存在域间隙,进一步使用实际数据进行训练可能对于实际世界应用更有利。未来的工作可以探索使用Segment Anything等基础模型生成的物属性 Mask 来扩大作者的方法到实际数据训练,可能有助于弥合这个域间隙。
6 Conclusion
在这项工作中,作者提出了一种新的目标感知的目标跟踪方法,该方法鼓励跟踪点保持在目标实例的边界内。
作者的关键想法包括一种目标性正则化方案,该方案在训练期间惩罚点脱离其相关目标,以及一种上下文注意力模块,该模块增强特征表示,以更好地区分单个目标。
在PointOdyssey,TAP-Vid-DAVIS和CroHD基准测试上的广泛实验证明了作者方法的有效性,实现了跨多个评价指标的最先进性能。消融研究证实了目标性正则化和上下文注意力组件的互补优势。作者的方法在提高跟踪的鲁棒性和准确性的同时,不牺牲效率。
参考
[1].Leveraging Object Priors for Point Tracking.
扫码加入👉「集智书童」交流群
(备注: 方向+学校/公司+昵称 )
点击下方“ 阅读原文 ”,
了解更多AI学习路上的 「武功秘籍」
