基于 SAM2 的视觉对象跟踪感知提取器存储器！

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

基于记忆的追踪器是视频目标分割方法，它们通过将最近追踪的帧 ConCat 到记忆缓冲区来构建目标模型，并通过关注当前图像与缓冲帧进行定位。尽管已经在许多基准测试上实现了最优秀的性能，但SAM2的发布使内存追踪器成为了视觉目标追踪领域关注的焦点。

然而，现代追踪器在存在干扰器时仍存在问题。作者认为需要一个更复杂的记忆模型，并提出了一个用于SAM2和一种基于内省的更新策略，该策略共同解决了分割精度和跟踪鲁棒性。得到的追踪器称为SAM2.1++。

作者还提出了一种新的干扰器提取的DiDi数据集，以更好地研究干扰器问题。SAM2.1++在七个基准测试上超过了SAM2.1和相关SAM内存扩展，并在六个数据集上设定了一个坚实的基础的新最先进水平。

代码和新的数据集将在这里提供：

https://github.com/jovanavidenovic/DAM4SAM。

1 Introduction

总体视觉目标跟踪是计算机视觉中的一个经典问题，它考虑在第一帧给定一个单监督训练示例的情况下，任意目标在视频中的局部化。跟踪失败的主要来源所谓干扰项，即在可用目标模型（见图1）中，与跟踪目标难以区分的图像区域。这些可以是与跟踪目标相似的附近物体（外部干扰项）或者在仅跟踪物体的一部分时，物体上的相似区域（内部干扰项）。当目标离开并重新进入视野范围时，外部干扰项变得特别具有挑战性。

picture.image

为了减少分心物引起的视觉歧义，已经提出了各种方法。这些方法包括学习判别特征或通过专门的模块显式建模前景-背景。一种新兴范式已经位于主要基准测试的顶部，即基于记忆的框架，通过与过去跟踪帧的像素关联来定位目标。

基于记忆的方法通过将整个图像的序列与分割的目标图像拼接，从而隐式编码当前的干扰项。 [51] 他们认为，由于交叉注意力的大规模记忆中的视觉冗余，导致局部化能力降低。他们证明，将记忆限制在最 recent 帧上，并按时间戳对它们进行时间戳实际上可以改善跟踪。这种范例最近由跟踪基础模型 SAM2 [36] 进一步验证，该模型在多个视频分割和跟踪基准测试中实现了最先进的性能。

作者认为，虽然需要近期目标在内存中的准确出现来进行准确分割，但另一种类型的记忆是区分目标与具有挑战性干扰物的必要条件。为了支持这一主张，作者提出了一个新型的干扰物感知记忆（DAM）和更新机制，用于SAM2。

新的记忆被其跟踪功能分为两部分：近期出现记忆（RAM）和干扰物解析记忆（DRM）。尽管RAM包含在定期间隔内采样的近期目标出现，但DRM包含 Anchor 点帧，有助于将目标与关键干扰物区分开。作者提出了一种新的DRM更新机制，该机制利用SAM2的输出信息，这些信息到目前为止已经被跟踪研究所忽视。

此外，作者观察到标准基准包含许多序列，这些序列已不再被现代标准认为具有挑战性。在这些序列上的高性能压倒了总得分，耗尽了基准，并未恰当地暴露跟踪进步。为了解决这个问题，作者半自动地将几个基准转化为干扰-消融跟踪数据集（DiDi）。

总之，作者的主要贡献是针对SAM2和更新策略提出的新去分心记忆DAM（DAM-aware Memory）以及SAM2++。据作者所知，这是首个根据跟踪功能对记忆进行划分和更新的记忆公式。作者的次要贡献是提出新的DiDi数据集，更清晰地暴露出在分心条件下跟踪技术的进步。

无需额外训练，SAM2.1++在多个标准边界框和分割跟踪基准测试（包括新的DiDi数据集）上的鲁棒性显著优于SAM2.1++，并在视觉目标跟踪领域创下新的最先进水平。

2 Related Work

当前，Transformer 是视觉物体跟踪的主导方法，可以大致分为分类和回归基础的 [5]、角预测基础的 [43] 和序列学习基础的跟踪器 [6]。

近年来表现优异的跟踪框架受到了基于记忆网络的视频目标分割方法的启发。这些方法将来自过去帧的预测嵌入到内存中，因此将上下文信息扩展到仅仅初始帧或上一帧之外。通常使用注意力机制将内存中存储的帧表示与当前帧提取的特征进行关联。在最初的类似 [47] 的方法中，新到达的帧不断添加到内存中。这导致了理论上无穷大的计算复杂度和GPU内存。

在[8, 9]中，通过使用多个内存存储和高效的压缩方案来捕捉不同的时间上下文，从而在长期视频中提高了性能。另一方面，[51]提出了将内存限制在最 recent frames 上的方法，并使用时间戳进行限制，从而提高了局部化效果。限制内存的原则遵循了SAM2 [36]的基础模型，该模型在内存中存储了最后6帧和初始帧。最近，SAM2Long [14]提出了一种无需训练的方法，通过使用受限树搜索从多个分割路径确定最优轨迹，从而在长期序列中增强SAM2 [36]的性能。

大多数现有的跟踪方法在存在干扰器时并没有明确地解决跟踪问题，尽管干扰器是跟踪失败的主要来源。判别性（深度）相关滤波器[12, 33]在理论上适合处理干扰器，但在实践中却被现代基于Transformer的跟踪器超越。然而，最近有一些尝试去解决干扰器问题。KeepTrack [32] 将问题视为多目标跟踪设置，在这种设置中，它识别目标候选者和潜在的干扰器，然后使用一个学习的关联网络将它们与之前传播的身份关联起来。然而，该方法依赖于精确的检测，在实践中无法解决内部干扰器问题。在[29]中，目标定位的准确性和鲁棒性被看作是两个不同的任务，这在存在干扰器的情况下被证明是有益的。尽管有明确的干扰器处理机制，但这些方法导致了复杂的架构，无法充分利用现代框架的学习潜力。相反，基于记忆的方法以优雅的方式隐式地处理干扰器，因为它们存储整个图像并应用可学习的分割定位。然而，现有的内存管理方法并不设计用于有效地处理干扰器。

3 Distractor-aware memory for SAM2

本文节描述了SAM2的新DAM内存模型。第3.1节简要概述了SAM2架构，而新模型在第3.2节中进行描述。

SAM2 preliminaries

SAM2 扩展了用于交互式无类别图像分割的 Segment Anything Model (SAM) [20]，并将其应用于视频分割。它主要由四个主要组件组成：(i) 图像编码器，(ii) Prompt 编码器，(iii) 内存库，(iv) Mask 解码器。

图像编码器使用ViT Hiera1 Backbone 网络[37]对输入图像进行嵌入。交互式输入（例如，正面/负面的点击）被 Prompt 编码器吸收，并用于输出 Mask 精炼，然而，请注意，在通用目标跟踪设置中这些不适用。内存库由编码的初始帧（带有用户提供的分割 Mask ）和由跟踪输出生成的六个最近帧（带有分割 Mask ）组成。对六个最近帧应用时间编码以编码帧顺序，而对初始帧不进行这样的编码，以表示其独特的单一监督训练示例属性，从而充当了一种目标先验模型。

内存库通过关注当前帧中的特征，将像素级标签传输到当前图像，从而产生记忆条件下的特征。这些特征随后由 Mask 解码器解码，同时预测三个输出 Mask 及其对应的IoU预测。选择具有最高IoU的 Mask 作为跟踪输出。

SAM2 应用了文献[51]中提出的内存管理的一种变体。初始帧始终保存在内存中，而六个最近帧则通过先进先出（FIFO）协议在每一帧更新。内存和管理机制在图2中得到可视化，读者可以参考[36]了解其他细节。

Distractor-aware memory - DAM

相关研究[8, 36, 47, 51]明确表明，最新帧的重要性，这些帧是解决目标外观变化并确保准确分割所必需的。然而，在存在关键干扰的情况下，需要另一种类型的帧来防止漂移，并实现可靠的目标重新检测。

作者提出了一种将记忆组合为其在跟踪过程中的功能（i）最近出现记忆（RAM）和（ii）干扰器解析记忆（DRM）。RAM和DRM共同构成了干扰感知记忆（DAM），如图2所示。RAM的功能是确保所考虑帧的分割精度，因此作者将其设计为类似于当前SAM2 [36]内存。它由一个FIFO缓冲区组成，其中包含个槽，包含最新的目标出现，并应用时间编码以识别对任务更相关的帧。

另一方面，DRM旨在确保跟踪鲁棒性和再检测。它应包含准确分割的帧以及关键的近期干扰器，包括初始化帧。因此，DRM由一个用于初始化帧的槽和一个FIFO缓冲区组成，该缓冲区在跟踪过程中更新了个 Anchor 帧。由于DRM的目的是编码用于解决干扰器的关键信息，因此不应用时间编码。需要注意的是，预训练的SAM2已经包含了实现所 Proposal 记忆结构的构建模块。

3.2.1 RAM management protocol

基于记忆的方法的一个关键要素是内存管理协议。为了有效利用可用的内存槽，内存不应在每个帧上都进行更新，因为连续帧之间具有高度相关性。实际上，[51] 认为在基于注意的定位中应避免内存中的视觉冗余。因此，RAM每5帧更新一次，并包括最新的帧，因为它对于考虑帧中的精确目标分割最为相关。

SAM2 [36] 在每一帧都更新内存，包括目标不存在的时刻。然而，对于非常短的无目标遮挡，没有目标的帧会很快填充内存，这会降低模型中目标的出现多样性，导致目标重新出现时的分割精度降低。此外，未能重新检测到目标会导致通过空 Mask 错误地更新内存，这可能导致错误累积并最终导致重新检测失败。因此，作者提出在目标不存在时不要更新RAM，即在预测的目标 Mask 为空时不要更新。

3.2.2 DRM management protocol

DRM继承了RAM的初始更新规则，即只在目标出现时且自上次更新以来至少经过5帧时才进行更新。它还考虑了一个额外的规则来识别包含关键干扰物的 Anchor 帧。特别是，通过将一个时间上最近的具有该干扰物的背景帧准确分割为背景，可以避免漂移到干扰物。记得SAM2预测了三个输出 Mask ，并选择预测IoU最高的那个（见第3.1节），这意味着作者可以将其视为多假设预测模型。作者初步的研究表明，在发生故障的帧之前，SAM2实际上在两个预测的输出 Mask 中检测到了这些干扰物（见图1）。因此，作者提出了一种简单的 Anchor 帧检测机制，该机制基于确定输出和替代 Mask 之间的假设差异。

边界框被拟合到输出 Mask 以及输出 Mask 与最大连通组件的并集。如果两个边界框的面积比低于，则当前帧被认为是一个潜在的候选项，用于更新DRM。需要注意的是，使用明显错误的分割目标进行更新会导致内存损坏，并最终导致跟踪失败。因此，作者只在足够稳定的跟踪期间触发DRM更新，即当来自SAM2的预测IoU得分超过阈值，并且 Mask 面积在最后一个帧的中位数面积的以内时。请注意，SAM2.1++对这些参数的值不敏感。

4 A distractor-distilled dataset

虽然基准在最近视觉物体跟踪突破中发挥了重要作用，但作者注意到，其中许多序列已经不再被现代标准认为是具有挑战性的。事实上，大多数现代跟踪器在这些序列上获得了高性能，这使得总分失衡，而且无法充分反映在具有挑战性的情况下取得的改进。为了便于本文提出的设计方案的跟踪性能分析，作者半自动地将几个基准转化为一个分心-分心跟踪数据集（DiDi）。

作者考虑了主要跟踪基准测试的验证和测试序列，这些序列以高质量的标注而闻名，例如GoT-10k [19]，LaSOT [15]，UTB180 [1]，VOT-ST2020和VOT-LT2020 [22]，以及VOT-ST2022和VOT-LT2022 [23]。这给作者提供了一个808个序列的池。如果至少有三分之一的帧通过了以下描述的干扰存在标准，作者将选择一个序列作为Didi数据集。

一名专业的AI学术论文翻译助手，我的任务是将您提供的英文AI学术论文翻译成准确、流畅的简体中文。确保翻译后的内容忠实于原文，同时保持学术论文的专业性和格式。请不要输出原文内容，仅提供翻译后的结果。

具体的输入内容为： A帧被分类为包含非可忽略的干扰项，如果它包含一个足够大的视觉上与目标相似的区域。这个标准应该与跟踪器定位方法无关，但应反映出现代 Backbone 网络的力量。因此，作者通过DINO2 [34]对图像进行编码，并在特征空间中为每个像素计算干扰项得分，即与地面目标区域内的特征的平均余弦距离。然后，作者计算了超出目标区域内的得分平均值的像素数量与超出目标区域外的像素数量的比值。如果这个比值超过0.5，作者认为该帧包含非可忽略的干扰项。

利用上述协议，作者最终得到了180个序列，每个序列的平均长度为1.5k帧（总共274,882帧）。每个序列都包含一个由轴对齐边界框标注的目标。此外，作者还手动分割了初始帧，以便初始化基于分割的跟踪器。图3显示了提出的DiDi数据集的帧。请参阅附加材料以获取更多信息。

picture.image

5 Experiments

针对SAM2内存模型的提出的DAM进行了严格的分析。第5.1节报告了一系列实验以证明设计选择。第5.2节将SAM2.1扩展与DAM内存与DiDi数据集的最新技术进行了比较。第5.3节对具有挑战性的VOT跟踪-分割基准进行了详细分析，而第5.4节对标准边界框跟踪基准进行了比较。

Architecture justification

所提出的干扰 aware 记忆和协议的管理选择在第四部分的数据集DiDi上进行了验证。作者计算了VOTS [24]指标，因为它们同时考虑了短期和长期跟踪性能。性能通过跟踪质量Q分数和两个辅助指标进行总结：鲁棒性（即成功跟踪帧的比例）和准确性（即成功跟踪期间预测与真实值之间的平均IoU）。结果见表1和图4的AR图。

picture.image

作者首先验证了第3.2.1节中的论点，即在没有目标帧的情况下更新会导致内存降级。因此，作者扩展了SAM2.1，只在预测 Mask 不为空时进行更新（表示为SAM2.1）。SAM2.1通过提高鲁棒性，使跟踪质量Q提高了2.5%，从而证实了作者的说法。

接下来，作者验证了假设（该假设也出现在文献[51]中），即频繁更新会降低跟踪鲁棒性，因为内存中存储了高度相关的信息。作者将SAM2.1的更新频率降低到每5帧（SAM2.1）。这几乎不会提高Q，但确实提高了1.2%的鲁棒性，支持了这一主张。作者没有观察到随着的增加进一步性能的提升。

最后，作者关注于第3.2.1节中提出的记忆的干扰消除（DRM）部分，作者认为这是在存在干扰时跟踪鲁棒性的原因。回想起DRM是在检测到干扰并确保跟踪可靠时更新的，作者首先单独测试这两种条件的影响。因此，作者将SAM2.1扩展为新的DAM记忆，并在可靠的跟踪期间仅更新DRM部分（SAM2.1）。跟踪精度略有提高，鲁棒性增加2%。另外，作者将更新规则改为仅在检测到干扰时更新（SAM2.1）。与SAM2.1相比，SAM2.1的准确性实际上降低了。这是预期的，因为干扰检测可能会由目标分割的错误触发，该错误在更新后被放大。为了验证这一点，作者接下来应用作者提出的更新DRM规则，得到SAM2.1（SAM2.1++，简称SAM2.1++）。与SAM2.1相比，作者观察到跟踪质量Q（4%）有了显著改善，主要归因于3.3%的鲁棒性提升和1.3%的准确性提升，在所有变体中占据了AR图（图4）的顶部右位置。这确实验证了DRM应该仅在跟踪足够可靠时与干扰检测同时更新。

在第3.2.1节中，作者主张DRM部分不应时间戳，因为当前帧中干扰器解扰不应受到时间相邻的影响，而应作为无时间先验。为了测试这一主张，作者对SAM2.1++进行了修改，使用DRM中的时间编码（除初始帧外）-作者将其称为DRM。跟踪质量下降了3.6%，证实了作者的主张。作者进一步检查了RAM中的更新模式，它总是包括最新的帧，但每5帧更新一次内存槽。将SAM2.1++修改为在每5帧更新所有RAM槽（RAM）。这导致跟踪质量略有下降（1.3%），表明在RAM中包括最新帧的确有益，但并非至关重要。

SoTa comparison on DiDi

SAM2.1++ 在 DiDi 数据集上与最近的 state-of-the-art 跟踪器 TransT [5], SeqTrack [6], AQA-Track [40] 和 AOT [47] 进行了比较，以及具有显式干扰处理机制的跟踪器： KeepTrack [32], Cutie [9] 和 ODTrack [50]。为了完整起见，作者还包括了一个最新的、但尚未发布的具有改进的 SAM2 长短期记忆更新的跟踪器，名为 SAM2.1Long [14]。

表2中的结果揭示了具有明确干扰器处理机制的追踪器相对于其他追踪器的优势。考虑两个同样复杂的最近追踪器SeqTrack和ODTrack，它们都基于ViT-L Backbone 网络。在经典基准测试如LaSoT、LaSoT和GoT10k上，ODTrack分别比SeqTrack快2%、6%和4%（见表6）。然而，在DiDi（表2）上的性能差距增加到15%，这证实了干扰器确实是现代追踪器的一个主要挑战，并且DiDi在这类条件下具有强调追踪能力并揭示追踪器设计弱点的独特能力。

picture.image

关注于提出的跟踪器SAM2.1++的评估，该跟踪器在所有跟踪器（包括标准最先进的跟踪器以及具有显式干扰处理机制的跟踪器）中表现优异。特别是，SAM2.1++在分别以14%和21%的优势超过了最先进的干扰感知跟踪器ODTrack和Cutie。

作者将提出的SAM2.1++与同时进行的未发表的工作SAMURAI [45]进行了比较。SAMURAI也基于SAM2.1 [36]构建，专注于处理干扰项，并通过将运动线索集成到记忆选择和 Mask 细化过程中来改善记忆管理。在这方面，这项工作与作者密切相关。结果表明，SAM2.1++在DiDi上的跟踪质量比SAMURAI提高了2%，这主要是由于SAM2.1++的更高鲁棒性（即，SAM2.1++的跟踪时间比SAMURAI更长）。这一结果证明了作者的新型DAM记忆和干扰项处理管理协议的优势，同时它也比SAMURAI中同时提出的复杂度较低。

与另一个未发布的具有替代式内存设计的跟踪器SAM2.1Long [14]相比，SAM2.1++在跟踪质量上提高了7%，表明作者提出的内存具有优势。结果表明，性能提升的主要原因是SAM2.1++的跟踪鲁棒性，这意味着它较少出错，从而更好地处理干扰项。事实上，对结果的仔细检查表明，SAM2.1Long的表现与 Baseline SAM2.1相当，这表明[14]中提出的长期记忆更新机制在存在干扰项时并未提高性能。最后，将SAM2.1++与 Baseline SAM2.1进行比较，跟踪质量提高了7%，这主要归因于改进的鲁棒性（6%）。

这些结果验证了所提出的DAM内存及其管理协议在处理具有挑战性的干扰器时的益处。SAM2.1++在DiDi上的跟踪和分割的定性结果进一步证明了在存在具有挑战性的干扰器时，具有显著的跟踪能力。

SoTa comparison on VOT benchmarks

VOT 倡议 [21] 是主要的跟踪倡议，为每年的挑战提供具有挑战性的数据集。与大多数跟踪基准测试不同，目标由分割 Mask 标注，这使得分割跟踪器的评估更加准确，与经典的边界框基准测试相比。在本论文中，作者包括了两个最近的目标单一挑战：VOT2020 [22] 和 VOT2022 [23]，以及最新的多目标挑战 VOTS2024 [25]。

VOT2020 基准测试[22]包含60个具有挑战性的序列，而跟踪器使用基于 Anchor 点的协议[22]来最大限度地利用每个序列。跟踪性能通过准确率和鲁棒性进行测量，简述为主要的度量指标，即预期平均重叠（EAO）。**

表3展示了VOT2020上的结果。所提出的SAM2.1++在所有比较跟踪器中表现最佳。特别是，它比最近发布的MixViT [11]提高了25%的EAO，从而在准确性和鲁棒性方面都有所提高。SAM2.1++在EAO方面的优势也明显超过VOT2020挑战赛获胜者RPT [31]，优势达37.5%（EAO）。将SAM2.1++与原始的SAM2.1进行比较，EAO提高了7%，而准确性和鲁棒性分别提高了2.7%和2.1%。

picture.image

VOT2022 基准测试使用了更新后的数据集，包含62个序列（去除了最简单的序列，增加了更具挑战性的序列）。表4包括了挑战中的顶级表现者，包括获胜者MS_AOT[47]，以及最近发布的最先进跟踪器：DiffusionTrack[30]，MixFormer[10]，OSTrack[48]和D3Sv2[28]。提出的SAM2.1++在EAO方面明显优于VOT2022获胜者MS_AOT，提高了12%。请注意，性能改进是由于与MS_AOT相比提高了准确度（2%）和鲁棒度（3%）。除了实现最先进性能外，SAM2.1++在EAO方面也明显优于 Baseline SAM2.1，提高了9%。

picture.image

结果显示，在VOT2020和VOT2022上，SAM2.1++ 明显优于所有跟踪器，包括顶级挑战者和最近发布的跟踪器，在这些基准测试上取得了新的最先进水平。尽管其简单性，所提出的无训练的内存管理是实现出色跟踪性能的关键要素。

VOTS2024基准。为了在VOT上进行全面评估，作者在最新的VOTS2024基准上报告了性能。与VOT2020和VOT2022相比，VOTS2024基准引入了一个新的、更大的数据集，该数据集在同一场景中跟踪多个目标（GT被隔离在评估服务器上），并引入了一种新的性能度量，旨在解决短期、长期、单目标跟踪和多目标跟踪场景。目前，VOTS2024被认为是跟踪基准中最具挑战性的。

表5报告了结果。值得注意的是，顶级表现者主要是未经发表（未经同行评审）的跟踪器，针对比赛进行了调整，通常是由多个方法的复杂临时组合。例如，VOTS2024竞赛的获胜者S3-Track结合了视觉和（单）深度特征，使用了几个巨大的 Backbone ，比SAM2.1++复杂得多。尽管如此，在与其他实验相同参数的情况下，SAM2.1++在具有挑战性的VOTS2024竞赛中获得了第二名。特别是，它比最近发表的跟踪器LORAT[27]，Cutie[9]和VOT2022的获胜者AOT[47]的表现都要好。此外，SAM2.1++提出的内存管理机制在跟踪质量方面比 Baseline SAM2.1提高了8%，主要原因是其9%更高的鲁棒性。

picture.image

SoTa comparison on bounding box benchmarks

对于完整的评估，作者将SAM2.1++在以下三个标准边界框跟踪数据集上进行比较：LaSoT [15]，LaSoText [16]和GoT10k [19]。由于帧被边界框标注，SAM2需要第一帧提供分割 Mask ，因此作者使用相同的SAM2模型来估计初始分割 Mask 。对预测 Mask 进行min-max操作，以获得评估所需的轴对齐边界框。在LaSoT [15]和LaSoT[16]中使用成功率曲线下的面积（AUC）计算跟踪性能，在Got10k中使用平均重叠（AO）。

LaSoT[15] 是一个大规模的跟踪数据集，包含1400个视频序列，其中280个是评估序列，其余用于训练。这些序列被平均分为70个类别，每个类别由20个序列表示（其中16个用于训练，4个用于评估）。该数据集涵盖了短期和长期跟踪的各种场景。结果如表6所示。提出的SAM2.1++在SAM2.1[36]的基础上取得了7.3%的性能提升，这表明在边界框跟踪设置中，提出的内存管理同样重要。此外，SAM2.1++的性能与表现最好的跟踪器LORAT[27]相当，LORAT[27]在LaSoT训练集上进行了调整，即评估集包含的类别。值得注意的是，LORAT[27]比SAM2.1++有大约50%的更多训练参数，使得模型显著更复杂。

LaSoT[16] 是 LaSoT [15] 数据集的一个扩展，增加了150个测试序列，分为15个新的类别，这些类别在训练数据集中不存在。表6的结果显示，SAM2.1++ 在 AUC 方面明显优于 Baseline 版本，优势达到7%。此外，它还比第二好的跟踪器 LORAT [27] 快7.6%。这表明，SAM2.1++ 在各种目标类别上都能很好地泛化，而现有的跟踪器则遭受了更大的性能下降。

19] 是一个广泛使用的海量跟踪数据集，包括大约10000个视频序列，其中180个序列用于跟踪评估。作者观察到在GoT10k测试集上表现优秀的跟踪器实现了卓越的跟踪性能，例如平均重叠度超过78%，这为潜在的改进留下了很小的一片空间。然而，与顶级表现LORAT [27]和ODTrack [50]相比，SAM2.1++在跟踪性能上实现了3.7%的显著提升。仔细观察SAM2.1++的结果，作者发现超过99%的帧成功跟踪（即重叠度不为零），这表明GoT10k [19]的难度等级确实正在降低，对现代跟踪器来说。

6 Conclusion

作者提出了一个新的干扰-感知记忆模型DAM和内存跟踪器的管理体制。新的模型将内存根据其跟踪功能划分为最近出现记忆（RAM）和干扰器解析记忆（DRM），分别负责跟踪的准确性和鲁棒性。作者还提出了高效的更新规则，这些规则也利用跟踪器输出检测具有关键干扰器的帧，这些帧有助于更新DRM。此外，作者还提出了一个干扰-精炼数据集DiDi，以方便在具有挑战性的场景中研究跟踪。

提出的DAM内存实现了SAM2.1 [36]，形成了SAM2.1++。经过广泛的分析确认了设计决策。在没有进行任何再训练且使用固定参数的情况下，SAM2.1++在六个基准测试上实现了最先进的状态，速度降低了（20%，即11 fps vs 13.3 fps）相对于SAM2.1（即，11 fps vs 13.3 fps）。

这使得基于内存的框架的局部化架构可能比当前的跟踪最先进水平更简单。此外，这些结果表明应该更多地关注高效的内存设计，可能的学习管理策略。作者认为这些方向在未来的工作中具有强大的潜力，可以进一步提高性能。

参考文献

[0]. A Distractor-Aware Memory for Visual Object Tracking with SAM2.

点击上方卡片，关注「AI视界引擎」公众号

基于 SAM2 的视觉对象跟踪感知提取器存储器 ！

1 Introduction

2 Related Work

3 Distractor-aware memory for SAM2

4 A distractor-distilled dataset

5 Experiments

6 Conclusion