东南大学提出 LAID，基于检测和查询的多目标跟踪: 一种高效的端到端方式！

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

想要了解更多：

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」

行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码，加入「 集智书童-知识星球 」，日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑，期待交流！

免责声明

凡本公众号注明“来源：XXX（非集智书童）”的作品，均转载自其它媒体，版权归原作者所有，如有侵权请联系我们删除，谢谢。

picture.image

多目标跟踪正在经历两个主导范式：传统基于检测的跟踪和新兴基于 Query 的跟踪。在本工作中，作者将这两种范式融合在一起，提出了一种名为“L-学习关联器”的跟踪范式。

具体来说，作者提出了一个用于在目标 Query 之间进行充分信息交互的基本信息交互模块和一个用于内容位置对齐的内容-位置对齐模块。跟踪结果直接从这些 Query 解码得到。

因此，作者将该方法命名为LAID。与基于 Query 的跟踪模型相比，LAID在跟踪准确率方面具有明显更高的训练效率。对于基于检测的方法，在DanceTrack上的实验结果表明，LAID在HOTA指标上显著优于最先进的启发式方法，提高了3.9%，在IDF1指标上提高了6.1%。

在SportsMOT上，LAID在HOTA指标上同样取得了最佳成绩。

由于LAID同时具备低成本、强大跟踪能力和优雅的端到端方法，它为该领域提供了前瞻性的方向。

Introduction

目标检测与关联（MOT）是计算机视觉中的一个关键任务。给定一个带有跟踪类别的视频，MOT的目标是识别、定位并随着时间的推移为目标分配一致的识别号。本质上，它可以分为检测任务和关联任务。如何管理这两个任务之间的关系一直是该领域发展的核心主题。目前，该领域由两种主导范式推动，即传统的检测驱动跟踪[14, 15, 16]和新兴的 Query 驱动跟踪[16, 17]，它们正在并行发展。

跟踪检测范式将两个基本任务分开。首先在空间上检测物体，然后根据时间关联它们。这是一个明确且模块化框架，其中关联阶段成为重点。外观信息和运动模式是两种需要考虑的内在跟踪线索。在将两种线索整合时，还存在一些问题。在 appearance 信息方面，通常利用特定的模型或分支来提取外观特征以进行重识别（ReID）。

然而，ReID 模型需要额外的训练和努力，其特征可能在 MOT 设置中不如理想 [11]。同时，分支会在主要模型中提高检测和关联任务之间的竞争。关于运动模式，运动模型需要假设来预测物体位置。然而，它们的有效性受到限制，因为它们过于简化，无法真正表示实际运动信息。最后，将两种线索转换为亲和矩阵，根据该矩阵将物体分组到轨迹中。这是一种启发式过程，需要精心设计的复杂超参数。该属性导致了在处理包含多种运动模式、重度遮挡等复杂场景时的弱点。此外，尽管跟踪检测范式关注关联阶段，但复杂的多步设置使范式分散到许多单元中。因此，它缺乏优雅和整体一致性。

Query 跟踪范式同时执行两个基本任务。其模型从基于Transformer的检测器[1]修改而来，并借助 Query 机制保持一致。与检测跟踪方法相比，它们具有显著的关联能力。但它们放弃了良好的模块化框架，将两个任务结合在一起，导致内部冲突且操作繁琐。尽管有工作[16, 17, 18]缓解了冲突问题，但由于它们之间的差异，将这两个任务整体训练仍然低效。具体而言，检测任务关注单个图像，而关联任务需要连续帧来学习时间线索，此时空间信息丰富用于检测。此外，检测器可以轻易地参考像Mosaic，Mixup等强数据增强来提高检测性能，这在跟踪器的训练中是不容易的。最后，耦合特征使其在检测器在跟踪场景中具有令人满意的检测性能时，与便利性相隔离。

根据前面的分析，作者不禁要问：作者是否能在保持跟踪检测方法显然的结构框架的同时，实现跟踪 Query 模型的优秀关联能力和优雅的端到端方法？这是一个开放的问题。在这项工作中，作者通过在预训练检测器上添加可学习的关联器，保持了跟踪检测范式。同时，关联器处理的目标 Query 以直接解码为预测，遵循跟踪 Query 范式。在上述两个前提下，其他问题由关联器解决。具体来说，作者通过交互和解码步骤来解决这些问题。

首先，作者提出了一个用于提供检测 Query 和跟踪 Query 之间交互的基本信息交互（BII）模块。由于BII模块主要关注 Query 的内容部分，因此作者建议后续使用内容位置对齐（CPA）模块更新位置方面，以促进两个部分的协调。在经历BII和CPA模块后，完全交互的目标 Query 通过Transformer解码层解码为预测结果。总之，具有可学习关联器的跟踪器可以通过交互和解码过程捕获复杂的跟踪线索，并实现出色的性能，这被称为LAID。

LAID代表了一种新颖的跟踪-检测- Query 范式。如图1所示，作者将LAID与先前的范式进行了展示和比较。作者在大规模数据集DanceTrack和SportsMOT上评估了LAID，采用简单而有效的方法，LAID在HOTA指标上超过了最先进的启发式跟踪-检测方法Hybrid-SORT [24] by 3.9%，在IDF1指标上超过了6.1%。与当前的端到端方法相比，LAID以更高效的方式实现了竞争力的性能。SportsMOT的结果也证明了LAID的有效性。

picture.image 总的来说，本工作的贡献可以概括如下。

作者提出了LAID方法，通过一种新颖的跟踪-检测- Query 范式实现MOT，结合了低成本的训练、强大的关联能力和优雅的端到端设计。
作者提出了BII模块和CPA模块，确保了LAID的有效性。
作者在跟踪准确性与训练成本之间取得了令人印象深刻的重心平衡，相较于主流的MOT方法。

Related Works

检测跟踪。这一范式在MOT领域长期占据主导地位。围绕运动模式和外观信息开发了各种方法。SORT [1]采用卡尔曼滤波器预测位置。预测位置与检测框的交点与匈牙利算法相结合来确定匹配结果。基于SORT，Deep SORT [20]引入外观信息以提高对丢失和遮挡的鲁棒性。源于这两种方法，检测跟踪范式逐渐形成。OC-SORT [1]更新了SORT的运动模型并打破了线性运动假设的限制。Deep OC-SORT [1]将外观信息自适应地集成到OC-SORT的运动模型中。JDE [22]，FairMOT [23]和Track-RCNN [24]提出共同学习检测器和外观嵌入。CenterTrack [10]同时定位物体并预测其在下一帧中的偏移量。ByteTrack [23]考虑更多的低分检测框以提高关联能力。GHOST [1]研究了在MOT设置中如何更好地利用ReID模型，而FineTrack [12]探索使用多样化的细粒度表示。PuTR [13]将启发式关联策略升级为可学习的Transformer模块。尽管这些方法已经取得了显著的进步，但在复杂情况下它们仍然表现不佳。

Query 跟踪（Tracking by query）是近年来出现的一种方法。这些方法在MOT（多目标跟踪）中应用 Query 机制，其中新目标通过检测 Query 进行识别，现有目标通过跟踪 Query 进行连接。基于该机制，TrackFormer [14]探索了端到端可训练的流水线。但是，它仍然需要额外的操作，如非极大值抑制（NMS）操作和重识别特征。MOTR [15]首先通过伴随的技术（如集体平均损失和时间聚合网络）实现了端到端的完全MOT。然后，MeMOT [16]和MeMOTR [17]通过增强时间信息的利用率得到了改进。CO-MOT [18]和MOTRv3 [19]通过在检测 Query 上注入更多的监督来解决MOTR的冲突问题。虽然缓解了冲突问题，但由于检测和关联任务固有的耦合，它们在训练上仍然不高效。MOTRv2 [15]使用YOLOX [12]的预测作为先验知识，使模型更专注于关联步骤。但是，它将整个MOTR模型作为关联器，这既不高效又浪费。

Method

在本节中，作者明确了LAID的组成部分。首先，遵循开始时提出的跟踪- Query 范式，基本信息交互（BII）模块、内容位置对齐（CPA）模块和关联解码器依次展示。同时，也阐述了训练和推理的详细信息。

Preliminary

给定帧，预训练检测器产生物体嵌入和边界框，构成作者的检测 Query 。受Conditional-DETR [15]和DAB-DETR [14]启发，作者将物体嵌入作为内容部分，边界框作为位置部分。类似地，包含这两个方面的跟踪 Query 由关联器生成并连接到现有物体。这两种物体 Query 仅在关联器中交互，并直接解码为跟踪结果。该范式的概述如图2所示。关键成分是可训练的关联器，通过其获得高跟踪性能并实现端到端。关联器的结构如图3所示。考虑到关联器基于Transformer块，将基于CNN的检测器集成到框架中与基于Transformer的检测器略有不同，这在附录中详细描述。

picture.image ### Basic Information Interaction Module

提出了基本信息交互模块，以促进目标 Query 内容部分之间的信息交流。简单直观地，通过缩放点积注意力实现：

在方程（1）中，和分别表示可变 Query 和键。作者对值进行修改并将其分为和，是这些变量的维度。在方程（1）的顶部，作者通过设置： picture.image

虽然对于轨迹 Query ，作者有：

picture.image

在这些方程中，、和分别表示检测 Query 、跟踪 Query 和历史跟踪 Query 的内容部分。、和表示 Query 的完整版本，包括内容部分和位置部分：

picture.image

相应的边界框和它们的位置编码构成了 Query 的位置部分。

两种类型的 Query 更新有不同的考虑因素，因此，BII 通过不同的参数实现了方程（2）和（3）。为了降低交互过程中背景噪声的影响，作者在BII模块之前设置阈值τq以过滤低质量的检测 Query 。此外，有两个需要注意的关键点。在更新检测 Query 时，的第二项被特别设置为噪声 Query ，有助于破坏具有跟踪 Query 高关注度的检测 Query 。

因为这些检测 Query 很可能与现有目标相关，这些目标由跟踪 Query 负责。为了增强模型的学习能力，由最差的负样本形成。它们是最差的检测 Query ，具有最高的M分数。M是来自最后一个时刻的传播的跟踪 Query 的数量。在更新跟踪 Query 时，作者收集历史跟踪 Query 来应对缺失的目标。

通过BII模块，当相关目标暂时消失时，跟踪 Query 可以通过增强。通过指数移动平均法收集：

picture.image

其中表示新信息的更新权重。与共享相同的位置分量，以便更好地计算注意力权重。

Content-Position Alignment module

内容位置对齐（CPA）模块被提出，用于更新目标 Query 中的位置部分并将其对齐到内容部分。考虑到类似DETR的检测器的交叉注意力模块可以根据嵌入信息进行位置信息的细化并同时更新嵌入，CPA模块可以由这些交叉注意力模块直接构成。在本工作中，作者利用DAB-DETR的调制交叉注意力作为CPA模块。最后，引入了一组辅助损失，在训练期间监督CPA模块。它们与计算最终损失的标签分配相同。

Association Decoder

通过上述两个模块的交互，物体 Query 直接解码为预测，这是由DAB-DETR的解码层实现的。与将物体根据相似度矩阵分组到轨迹上的匹配策略相比，这种方法形成了完全端到端的形式。另一个好处是更强的关联能力，这在实验部分得到了展示。

Training and Inference

在训练过程中，作者遵循MOTR来分配标签并计算最终损失。新生物体通过二分匹配分配到检测 Query 的输出。现有物体与它们关联的跟踪 Query 的预测进行匹配。在推理模式下，作者将阈值设置为丢弃负预测。对于置信度大于的检测 Query ，其预测被视为新生物体，并添加到跟踪集，分配一个新的ID号。对于置信度低于的跟踪 Query 的结果，相关物体被 Token 为无效状态。连续帧仍然处于无效状态的目标将被从跟踪集中移除。

Discussions

MOT方法的多样性为它们提供了多个视角。为了突出LAID的差异，作者从三个逐步的角度将相关工作进行 Token ，这些方面在表1中列出。

除了基本的TBDA和TBDA之外，作者进一步将方法分类为启发式（H）和可学习（L），根据跟踪线索是启发式整合还是适应性学习。除了跟踪线索之外，方法可以根据最终结果是通过亲和匹配还是直接解码来表示为M/D。

picture.image 为了与其他跟踪检测方法进行比较，本文列举了H/L和M/D组合在图4中。H+M是该家族中普及且简单的方案，并一直得到了不断的改进和发展。基于此，L+M方法采用可学习策略计算检测结果与轨迹之间的相似性，以获得稳健的跟踪线索。

然而，在复杂情况下，他们仍需要单独匹配算法，跟踪质量无法令人满意。相比之下，LAID引入了跟踪 Query 范式中的H+D方法，并获得了强大的跟踪能力，这体现了MOT领域的一种新方向。

picture.image 有一项先前的研究工作，MOTIP [14]，也采用了TBD+L+D方案。但仍然存在差异。MOTIP将关联阶段改写为ID预测任务。获取检测结果后，它简单地将六个解码层堆叠起来，根据历史轨迹将它们分类为ID标签。

相比之下，LAID提出了一种在目标 Query 之间交互的具体设计，这更有效。此外，LAID证明了现有的基于 Query 的跟踪范式可以通过一个简单而有效的可学习关联模块直接解耦。

Experiments

Datasets

LAID主要在两个大规模数据集上进行评估，即DanceTrack [23]和SportsMOT [20]。DanceTrack在MOT领域得到广泛应用，因为它提供了足够的数据和高质量的标注。它包含类似的外观，但具有非线性运动模式，严重的遮挡和频繁的聚类，这些都在关联任务中带来了巨大的挑战。SportsMOT是一个最近提出的数据集，它专注于体育分析的应用。体育场上快速和变速运动是其挑战的体现。在统计上，DanceTrack包括100个视频序列。每个序列平均包含1058帧。SportsMOT总共包括240个视频序列。每个序列的平均帧数为439。

Comparison with other methods

作者首先比较了LAID与代表性的L+D模型在初期的效率。在DanceTrack上，作者根据表1中列出的类别将LAID与其他方法进行比较。SportsMOT上的结果也进行了报告。

效率。 得益于检测器跟踪的解耦性质和提出的关联器，LAID在与其他L+D方法的训练效率方面具有显著优势。在表2中，作者列出了在几个代表性模型中需要训练的参数数量。由于LAID从公共来源获取预训练检测器并在TB框架中冻结它们，LAID的总可训练参数数量显著低于其他方法。尽管MOTIP也遵循TB框架，但为了获得竞争性能，它需要同时训练检测器和其ID预测器。此外，在所有关联模块中，LAID的可训练参数数量也是最低的，这是关联器的有效设计的结果。相比之下，其他方法只是堆叠多个解码层来实现关联。由于上述原因，在DanceTrack上训练LAID的成本在这些方法中最低。

picture.image 与T&D+L+D方法相比。保留L+D范式，与这些方法的比较严格地测试将TBD转换为T&D的效果。从表3可以看出，LAID在这些方法中实现了竞争力的性能，表明所提出的可学习关联器有效地将端到端框架解耦为跟踪检测。作为好处，LAID在解耦后取得了显著更高的训练效率，如表2所示。值得注意的是，MOTRv2并没有改变MOTR的基本结构。它利用YOLOX的检测先验知识，使繁琐的MOTR专注于关联任务，导致更高的训练成本。

picture.image 与其他TBD+H+M方法相比，随着目标检测技术的快速发展，这些方法可以轻松获得优越的检测性能。但是，启发式算法探索的跟踪线索使它们在关联性方面缺乏能力，特别是在复杂情况下。为了消除基本检测质量的影响，作者采用与前方法相同的预训练检测器。从表3可以看出，LAID在HOTA上比最佳模型Hybrid-SORT-ReID提高了3.9%。值得注意的是，LAID在检测性能略有牺牲的情况下，将AssA提高了超过10%，IDF1提高了至少6%。

与 TBD+L+M 方法相比，LAID 在 PuTR 上取得了很大的优势。尽管 PuTR 使用可学习模块来捕捉跟踪线索。但作者推理，原因在于跟踪结果的生成。在匹配策略中，跟踪线索融合在相似度矩阵中。而在 LAID 中，它们被捕捉在交互模块中。LAID 中的额外解码过程有助于模型更好地理解场景，从而捕捉更强的跟踪线索。然而，它们之间的严格研究和比较超出了本工作的范围。

在各种方法中，SportsMOT上的差距不如DanceTrack明显。从表4可以看出，LAID在训练设置中实现了竞争力的性能。然而，当训练数据量增加时，LAID获得了最高的HOTA分数。同时，从训练设置到训练+验证设置，LAID在HOTA上实现了最大的改进。这表明充足的训练数据可以使LAID学习更好的跟踪线索，这是LAID的一个特点。

picture.image ### Ablation studies

LAID Components. 作者在表5中展示了BII模块和CPA模块的贡献。可以看出，当两个模块共同工作时，可以获得最佳分数。鉴于BII模块在通用Transformer模型中的自注意力块内非常相似，作者进行替换测试其性能。从表5中可以看出，两种设置之间在HOTA上的差距为1.3%，这表明BII模块的具体设计对MOT任务有效。

picture.image 检测 Query 上的交互 如上所述，方程（2）中的第二项被设置为噪声 Query ，以减轻检测 Query 和跟踪 Query 之间的冲突。作者在表6中尝试了不同的选择。第一设置不使用噪声 Query ，而是使用正常跟踪 Query 。与硬噪声 Query 的设置相比，它获得了1%的较低HOTA分数，表明该解决方案具有说服力。作者还尝试了其他的替代方案，如容易的噪声 Query 、所有零或所有一，但它们的表现较差。此外，在这些设置中，波动主要反映在AssA指标上，而DetA分数大致保持相同水平。因为设置不当可能导致跟踪 Query 通过方程（2）被检测 Query 打断，从而降低关联性能。

picture.image 与轨道 Query 的交互 作者研究了等式3中的和的各种配置，以研究轨道 Query 由不同信息来源更新时的影响。作为轨道 Query 的主要信息来源，检测 Query 始终包含在每个配置中。表7的结果表明，仅包含轨道 Query 和历史轨道 Query 的组合实现性能较差。可以得出，当仅包含轨道 Query 时，过去时刻的信息将被忽略。但是，将它们与历史轨道 Query 结合在一起，将带来冗余的当前信息。更新历史轨道 Query （等式5）时，的适当设置对最佳性能有指导作用。为了进一步分析的影响，作者将从0.9变到0.6进行测试。结果与作者的直觉相同，即旧信息有助于关联，而当前信息有助于检测。

Conclusion

在本研究中，作者提出了一种名为LAID的算法，用于建立一个新颖的跟踪-检测- Query 范式（Tracking-by-Detection-and-Query，简称MOT）。

LAID展示了低训练成本、强大的关联能力和优雅的端到端方法等显著优势。然而，它仍存在一定的局限性。

首先，它需要足够的数据才能发挥有效作用。当数据稀缺时，性能会下降。

其次，LAID与不同检测器的兼容性值得未来进一步研究。尽管如此，作者认为LAID为该领域呈现了一个有前景和创新性的方向。

参考文献

[0]. Multi-object Tracking by Detection and Query: an efficient end-to-end manner.

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image

点击下方“ 阅读原文 ”，

了解更多AI学习路上的「武功秘籍」

东南大学提出 LAID，基于检测和查询的多目标跟踪: 一种高效的端到端方式 ！

Introduction

Related Works

Method

Preliminary

Content-Position Alignment module

Association Decoder

Training and Inference

Discussions

Experiments

Datasets

Comparison with other methods

Conclusion