CAMELTrack破局在线跟踪 | 双Transformer架构颠覆SORT与端到端范式，实现轻量化精准追踪 - 文章 - 开发者社区

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

精简阅读版本

本文主要解决了什么问题

1. 在线多目标跟踪（MOT）领域中，基于检测的跟踪（TbD）方法虽然模块化设计灵活且能够集成专用模型，但其依赖大量人工设计的启发式规则进行时间关联，导致无法充分捕捉各种跟踪线索之间的复杂相互作用。
1. 现有的端到端（E2E）方法虽然可以学习数据驱动的关联策略，但存在训练计算量大、缺乏模块化能力以及需要大量训练数据和计算资源的问题。
1. 针对上述问题，作者提出了一种全新的在线多目标跟踪框架CAMELTrack，旨在通过可训练的上下文感知多线索利用模块CAMEL来解决传统TbD方法中的局限性。

本文的核心创新是什么

CAMEL模块 ：提出了一种名为CAMEL的全新关联模块，该模块用统一的可训练架构替代了传统的手工设计规则（轨迹表示、特征融合和多阶段匹配），从而直接从数据中学习弹性关联策略，摆脱了手工设计的启发式方法。

高效的关联中心训练方案 ：设计了一种以关联为中心的训练方法（ACT），该方法将关联与检测及线索提取解耦，通过预生成的特征集进行轻量级处理，能够在大时间窗口上高效建模，同时利用数据增强技术生成更具挑战性和多样性的关联场景。

紧凑的Transformer架构 ：CAMEL采用两个基于Transformer的模块（时间编码器TE和组感知特征融合编码器GAFFE），有效建模被跟踪目标和其各种关联线索之间的复杂交互，同时保持了TbD方法的模块化设计。

结果相较于以前的方法有哪些提升

性能提升 ：CAMELTrack在多个基准测试（DanceTrack、SportsMOT、MOT17等）上实现了最先进的性能，特别是在DanceTrack和SportsMOT上分别提升了HOTA指标3.2%和8.3%。

训练效率提升 ：与端到端方法相比，CAMELTrack的训练过程更加高效，仅需单块GPU不到一小时即可完成，而端到端方法通常需要多块GPU数天时间。

模块化优势 ：CAMELTrack保持了TbD方法的模块化设计，能够轻松集成外部现成模型（如运动预测器和再识别模型），同时避免了传统TbD方法中复杂的启发式规则。

局限性总结

对输入特征质量的依赖 ：尽管CAMELTrack能够动态平衡多种关联线索，但其性能仍然受到输入特征（如检测器、重识别模型等）质量的影响。如果这些外部模型表现不佳，可能会限制整体跟踪效果。

特定场景适应性不足 ：CAMELTrack在某些特定场景（如远距离摄像机设置下的姿态估计）可能无法显著提升性能，这表明其对不同场景的适应性仍有待进一步优化。

训练数据需求 ：虽然CAMELTrack的训练效率较高，但仍需要足够的训练数据来确保模型能够学习到鲁棒的关联策略，尤其是在具有挑战性的场景中。

扩展性限制 ：尽管CAMELTrack在当前任务中表现出色，但其架构和训练方法是否能够直接应用于其他相关任务（如轨迹生命周期管理）仍需进一步验证。

通过以上总结可以看出，CAMELTrack为在线多目标跟踪提供了一种全新的解决方案，在性能、训练效率和模块化设计方面均取得了显著进步，同时也指出了未来研究方向和潜在改进空间。

深入阅读版本

在线多目标跟踪近年来主要被基于检测的跟踪（TbD）方法所主导，其中最近的进展依赖于日益复杂的启发式方法用于轨迹片段表示、特征融合和多阶段匹配。TbD的关键优势在于其模块化设计，能够集成专用现成模型如运动预测器和再识别。然而，大量使用人工设计的规则进行时间关联使得这些方法在捕捉各种跟踪线索之间复杂相互作用的能力上存在固有限制。在这项工作中，作者引入了CAMEL，即用于上下文感知多线索利用的新型关联模块，它直接从数据中学习弹性关联策略，摆脱手工设计的启发式方法，同时保持TbD宝贵的模块化。其核心，CAMEL采用两个基于transformer的模块，并依赖于一种新颖的以关联为中心的训练方案来有效地建模被跟踪目标和其各种关联线索之间的复杂交互。与端到端的检测跟踪方法不同，CAMELTrack保持轻量级且训练快速，同时能够利用外部现成模型。作者提出的在线跟踪流程CAMELTrack在多个跟踪基准上实现了最先进的性能。

代码：https://github.com/TrackingLaboratory/CAMELTrack

引言

多目标跟踪（MOT）旨在检测目标并在视频帧之间保持其身份识别，这对于从体育分析[16, 18, 25, 53]到自动驾驶[21, 67]等应用范围至关重要。在线MOT要求在每帧到达时立即做出决策，这使得它既具有挑战性又对实时处理至关重要。

该领域目前由两种范式主导：（i）基于SORT的方法，以及（ii）端到端（E2E）方法。

随着强大的目标检测器[10, 28]的出现，基于SORT[5, 61, 71]的方法，这些方法建立在检测跟踪（TbD）范式之上，产生了特别深远的影响。它们的成功源于模块化设计，其中专用组件——检测器[28]、再识别模型[51, 52]和运动预测器[8, 40]——被独立优化并通过算法关联规则组合。在基于SORT的TbD流程中的关联模块，负责将新的检测与现有的轨迹段进行匹配，通常包含三种启发式方法：(i)轨迹段表示，以在时间上聚合逐帧检测线索；(ii)特征融合，将多个跟踪线索组合成一个轨迹段检测代价矩阵；(iii)多阶段匹配，执行顺序二分图匹配操作，每个操作利用不同的线索或特征融合策略，并在特定的轨迹段和检测子集上运行。特征融合是关联模块中最关键的部分，通常依赖于运动和外观线索的静态组合[3, 24, 61, 65]。然而，正如[41, 49]所示，线索的可靠性随上下文波动——特别是在遮挡、长期关联或跟踪视觉相似目标时。虽然一些方法尝试上下文感知特征融合[41, 49]，但它们的启发式性质无法完全捕捉关联线索与跟踪目标之间复杂的相互作用，这表明需要一种更原则化、数据驱动的方法。

为了量化这些关联启发式方法的优势，作者在第4.4节进行了一项基于神谕的研究，该研究揭示了基于SORT的方法未能有效利用其强大的关联线索：当保持相同的线索但将关联启发式方法替换为最优神谕时，HOTA在DanceTrack和SportsMOT上分别提升了15.5%和8.3%。这表明在TbD范式内，关联方面仍有巨大的改进空间，而该范式因其能够利用提供强大关联线索的现成模型而具有吸引力。为了充分发挥TbD范式的优势，作者提出直接从数据中学习有效的上下文感知关联策略，而不是设计更复杂的启发式方法。然而，令人惊讶的是，在线TbD中的全学习关联模块仍基本未被探索。即使是基于transformer的TransMOT[15]，这一在该方向上取得初步进展的最相关先前工作，仍然高度依赖启发式方法（详见第2节）。

为了摆脱这些启发式方法，近期的多数研究转向了基于DETR的端到端（E2E）范式，其中MOTR [69]等方法为TbD方法提供了一种有前景的数据驱动替代方案。

尽管E2E方法在具有学习型关联的优雅设计上表现出色，但与SORT-based方法相比，它们面临若干局限性，详细内容见第2节。一个显著的缺点是E2E方法被设计为从头学习所有子任务（检测、重识别、关联），这迫使联合优化相互冲突的目标（一个有据可查的问题[27, 72]），同时阻止使用专门的外部模型。这些基本局限性因此需要大量的训练数据和计算资源，通常需要在8个GPU上进行数天的训练。

鉴于端到端方法和SORT类方法各自的局限性，作者通过提出CAMEL——一种用于上下文感知多线索利用的新型关联模块，来弥合这两种范式之间的差距。CAMEL用统一的可训练架构替代了传统的SORT类关联启发式算法。CAMEL的紧凑且极简架构由以下部分组成：（i）一组时间编码器（TE），将每个跟踪线索聚合为轨迹片段 Level 的表示；（ii）一个组感知特征融合编码器（GAFFE），将所有线索联合转换为每个轨迹片段和检测的统一解耦表示。如图1所示，尽管存在遮挡或外观相似的靶标，CAMEL通过动态平衡多个不完美的关联线索，能够正确区分匹配的轨迹片段和检测。这种能力源于其上下文感知处理，考虑了目标之间的交互以及每个线索的相对区分性。作者最终得到的无启发式在线TbD跟踪器CAMELTrack，在五个流行的MOT基准测试中达到了最先进的性能。

picture.image

总体而言，作者总结作者的贡献如下：

• 作者提出了CAMEL，据作者所知，这是首个为TbD（目标跟踪）流程设计的全学习型、 Prompt 无关的关联模块，且未添加任何花哨功能。CAMELTrack的运行速度为13 FPS，比基于transformer的先前跟踪器更快。
• 作者提出了一种高效的关联中心训练方法，仅需单块GPU不到一小时即可完成，而端到端方法通常需要多块GPU数天时间。
• 作者证明了与现成模型学习到的关联在五个具有挑战性的基准测试中均优于端到端和SORT方法，有效地结合了两种范式的优势。
• 作者发布了CAMELTrack和模型权重，以鼓励对学习到的TbD关联模块的进一步研究。

相关工作

作者回顾了与作者的工作相关的关键在线目标跟踪方法，其类别总结于表1。

picture.image

启发式SORT跟踪器。目标运动目标跟踪（MOT）中的主导范式是检测跟踪（TbD），许多方法基于SORT [5]构建。这些方法专注于开发复杂的关联启发式算法 [3, 24, 61, 71]，或更强的运动建模 [1, 2, 8, 29, 32, 40, 46, 62] 和再识别 [30, 47, 49, 59]。基于SORT的方法主要在三个关键组件的关联手工规则上有所不同：(i) 跟踪片段表示，使用检测特征的均值 [4] 或指数移动平均（EMA）[60, 70]，(ii) 特征融合，采用静态 [49] 或自适应 [41] 的加权平均运动和外观线索，或基于阈值的门控 [3, 24]，(iii) 多阶段匹配，采用单阶段 [3] 或级联匹配 [61]，根据置信度分数 [71] 或跟踪年龄 [61] 过滤候选目标。CAMELTrack采取了不同的方向，用统一的可训练架构替代了数据关联的这些启发式算法，该架构有效利用所有可用的跟踪线索，生成上下文感知的解耦表示，并在单阶段中进行匹配。

基于学习的关联的检测跟踪。虽然一些先前工作通过图网络[6, 11]或Transformer[76]探索了数据驱动的跟踪，但大多数工作是在离线模式下运行的，仅有少数开创性工作尝试将学习组件集成到在线TbD（检测跟踪）流程中[15, 45, 58, 63]。值得注意的是，TransMOT[15]引入了时空编码器用于轨迹片段表示，以及Transformer用于特征融合。然而，它依赖于手工设计的多阶段匹配流程，其中学习组件仅在第二阶段使用，而第一和第三阶段仍然完全基于IoU（IoU）和再识别（ReID）启发式方法。虽然这些工作代表了迈向学习关联的初步步骤，但它们仍然依赖于启发式方法。相比之下，CAMELTrack通过引入一个完全可训练的关联模块，彻底摆脱了手工设计的规则。

在线端到端。最近，遵循检测与跟踪（DbT）范式[4]的端到端（E2E）方法[13, 21, 26, 27, 42, 55, 64, 66, 69, 72]已成为TbD方法的一种有前景的、无需启发式规则的替代方案。基于DETR[10]架构，这些方法联合学习目标检测和关联，使用跟踪 Query 在帧间重新检测过去的目标。尽管它们的设计优雅，以数据驱动的方式学习关联，类似于CAMELTrack，但E2E方法面临一些局限性：(i)其以检测器为中心的多帧训练（使用短时间窗口）难以处理长期关联[7]，(ii)它们缺乏TbD利用专业外部模型（例如，ReID、运动等）的模块化能力[27]，(iii)在共享模型中检测和关联目标之间的固有冲突限制了它们的整体性能，以及(iv)它们需要大量的训练数据和计算资源才能达到有竞争力的性能（在8个GPU上需要几天时间[69]）。相比之下，CAMELTrack专注于学习关联策略，需要的训练计算量较少，并保持了TbD利用现成检测、运动和ReID模型的能力。

方法论

在本节中，作者详细介绍了CAMELTrack，即作者提出的在线跟踪方法。首先，作者在3.1节中概述了完整的跟踪流程。接着，在3.2节中，作者详细阐述了CAMEL，即作者提出的可训练的上下文感知多线索利用模块，该模块直接从数据中学习轨迹检测关联。最后，在3.3节中，作者描述了作者的关联中心训练方案，该方案旨在创建具有挑战性的关联场景。

3.1. CAMELTrack流程

作者的跟踪流程CAMELTrack遵循在线检测跟踪范式，通过四个连续步骤处理每个输入帧：(i)目标检测，(ii)线索提取，(iii)通过作者的CAMEL模块进行轨迹检测关联，以及(iv)轨迹生命周期管理。以下段落详细描述了该流程的一个完整迭代过程，如图2所示。

picture.image

检测。作者首先使用目标检测器对带有时间戳

的输入视频帧进行处理，以获得一组检测结果

，其中每个检测结果

由一个边界框及其置信度分数表示。

特征提取。对于

中的每个检测结果，作者提取多种互补特征以指导关联过程，因为单一特征通常不足以进行可靠的跟踪。边界框坐标和置信度得分构成第一个特征

，而

个额外的特征

则通过专门的现成模型提取。在本工作中，作者采用重识别特征和姿态关键点作为额外特征，以补充目标位置

。然而，作者的CAM关联模块可以接收任意类型和数量的输入特征，从而能够轻松集成额外的领域特定信息（例如，Yehiole反射的车牌号）。

特征关联与CAMEL。关联步骤的目标是将当前帧中的

个现有轨迹片段

与

个活跃检测结果

进行匹配。作者将所有考虑用于关联的轨迹片段和检测结果称为活跃目标集

。

中的每个轨迹片段代表1个唯一被跟踪的目标，并由一系列检测结果组成。

，其中

和

分别表示轨迹片段中第一个和最后一个检测结果的帧索引。

对于每个活跃轨迹片段，作者维护一个特征库，存储其

个最新检测结果的特征，使CAM能够利用丰富的特征历史来抵消单个检测结果中的潜在噪声或因关联错误导致的身份切换。CAMEL是作者工作的核心贡献。它以所有活跃轨迹片段

（

）和检测结果

（

）为输入，并在共享潜在空间中为每个活跃目标（检测结果和轨迹片段）输出一个单一的判别嵌入

，其中匹配/不匹配的对在空间中彼此靠近/远离。最后，CAMEL的解耦表示用于计算成本矩阵

，其中每个元素

测量轨迹片段

的归一化嵌入

与检测结果

的归一化嵌入

之间的欧几里得距离。最终分配通过匈牙利算法的双边匹配获得。任何成本超过指定阈值的对将保持不匹配。CAMEL的上下文感知架构在Sec. 3.2中详细描述，其训练过程在Sec. 3.3中描述。

生命周期管理。CAMELTrack通过标准方案管理轨迹片段的生命周期：首先，在关联之前过滤掉低置信度检测。接下来，每个匹配的检测通过向其特征库添加新线索来扩展分配的轨迹片段。未匹配的高置信度检测初始化新的轨迹片段，而未匹配的轨迹片段在一段时间内保持暂停状态，如果持续未匹配则最终终止。

3.2. CAMEL架构

在本节中，作者详细介绍了CAMEL，即用于上下文感知多线索利用的可训练关联模块，该模块的设计理念是简洁性。如第3.1节所述，CAMEL以所有活跃目标

的所有线索为输入，其中

包含现有的

个轨迹片段，

包含当前的

个检测，并输出其在解耦空间中的统一表示。因此，具有相同/不同身份的目标在嵌入空间中彼此靠近/远离。CAMEL用一种无花哨的统一可训练架构取代了SORT关联模块中传统使用的三个关键启发式方法：轨迹片段表示、特征融合和多阶段匹配。CAMEL基于两个Transformer组件：时间编码器（TE）和组感知特征融合编码器（GAFFE）。首先，TE执行目标内自注意力机制，将检测级线索聚合为鲁棒的轨迹片段级表示，从而有效地取代了轨迹片段表示启发式方法。接下来，GAFFE通过融合多个不完美但互补的线索，为每个目标生成统一表示。通过目标间自注意力机制，它通过最大化不同身份目标间的区分度，同时增强相同身份目标间的相似度，取代了特征融合启发式方法。这两个模块将在下文详细说明。最后，由于CAMEL一次性处理所有轨迹片段、检测和线索，以在单一统一的阶段中执行关联，因此多阶段匹配的需求自然消失。在附录A中，作者详细说明了CAMEL的架构与现有的基于Transformer的跟踪器（即MOTR类方法和TransMOT）的根本区别。

时间编码器（TE）。每个活跃目标由

个时间编码器处理，每个

处理特定的 Prompt 类型，并具有专用的权重集。对于给定的活跃目标

和 Prompt

，时间编码器

如下。首先，该序列中的每个 Prompt

经历线性变换以生成 Token

。这一关键步骤将低维 Prompt （如边界框）嵌入到高维特征空间中。接下来，每个 Token

增加正弦位置编码（PE），该编码编码其相对于当前帧时间戳

的相对时间位置，即年龄。

然后，一个学习到的[CLs] Token 被添加到 Token 序列h,i

的前面，所得序列由浅层多层Transformer编码器[20]进行处理。

最后，编码的CLS Token 作为TE的输出，为 Prompt k的目标i提供单一的时序表示

中的两个轨迹片段和

中的检测都经过时间编码——即使检测是长度为一的序列——以确保所有线索都嵌入到同一个潜在空间中，以便由GAFFE进行进一步处理。

组感知特征融合编码器（GAFFE）。该模块接收时间编码器生成的时序编码 Token

作为输入，其中每个 Token 对应于每个活跃目标

的不同线索。GAFFE通过两个阶段处理这些 Token ，为每个目标生成一个判别性嵌入。

在第一阶段，每个特定 Prompt 的 Token

被线性投影到更高维的空间中。然后，通过求和将投影的 Token 融合，为每个激活目标形成一个单一的多模态 Token

。

在第二阶段，由

个多模态 Token

组成的序列通过一个浅层多层Transformer编码器[20]进行处理，该编码器执行组感知的跨目标自注意力机制

这些结果嵌入

是每个活跃目标的最终、解耦表示，随后用于匹配，具体细节见第3.1节。

3.3. 以关联为中心的训练

现有的端到端（E2E）方法采用递归的多帧训练方案[27, 69]，其中模型逐帧处理短视频序列以联合学习检测与关联。相比之下，作者提出的以关联为中心的训练（ACT）策略将关联与检测及线索提取解耦，具体如下。首先，作者通过（i）在所有训练序列上运行现成检测器，（ii）为每个检测分配其IoU最近的真实标注，（iii）提取所有所需线索（如重识别、姿态）来生成无图像训练集。训练过程中，作者从预生成集中采样构建包含

个训练样本的批次。每个训练样本对应CAMEL的一个输入，并建模一个包含

个轨迹-检测对的单个关联场景。单个场景通过随机选择一帧，收集该帧的所有检测以及来自前一帧的轨迹来构建。作者重复此过程，从不同视频的帧中采样，直至获得

对。这种跨视频采样生成人工关联示例的方法增加了训练多样性，并经验性地实现了更稳定的训练和更快的收敛。作者进一步通过应用三种数据增强（i）检测身份交换，（ii）检测dropout，（iii）线索dropout（所有细节见附录E）来丰富训练，生成更具挑战性和多样性的关联场景。最后，作者采用InfoNCE损失[44]作为训练目标，以最小化/最大化相同/不同身份的检测-轨迹对之间的距离。

ACT相较于递归训练策略具有两个关键优势。首先，由于E2E方法具有密集的图像处理架构，其计算能力受限于短序列。相比之下，作者轻量级地处理预计算特征，能够在大时间窗口上进行高效建模，从而提升长期跟踪性能。其次，ACT的数据增强技术能够生成模拟多样化挑战场景的合成训练样本：遮挡、外观相似的靶标、场景重入、噪声特征以及检测错误。正如第4.4节所示，接触这些困难样本显著提升了模型性能。

实验

4.1. 数据集和指标

作者在五个数据集上评估了 CAMELTrack。DanceTrack [56] 特征复杂的舞蹈场景，而 SportsMOT [18] 专注于团队运动中的球员。这两个基准数据集提供了互补的跟踪挑战，并具有全面的训练/测试分割。MOT17 仍然是一个成熟的数据集，尽管最近的研究 [15, 26, 27, 69, 72] 指出了评估学习关联方法的局限性。在附录 B 中，作者在成熟的姿态跟踪基准数据集 PoseTrack21 [23] 和具有挑战性的 BEE24 [9] MOT 数据集上进行了评估。最后，作者使用 HOTA [39]、MOTA [36] 和 IDF1 [48] 进行评估。作者专注于关联相关指标（AssA & IDF1），因为它们直接评估了作者贡献的影响，且与检测质量无关。

4.2. 实现细节

作者使用DiffMOT [40]提供的YOLOX [28]检测器。在跟踪线索方面，作者利用数据集特定的BPBReID [51]模型进行外观特征提取，采用现成的RTMPose [34]进行姿态估计。作者的跟踪流程使用TrackLab [35]实现。CAMELTrack采用4层、8头的Transformer编码器，分别用于TE（Tracking Embedding）和GAFFE（Gated Appearance Matching Fusion Embedding），总参数量为42.6M。训练过程持续10个epoch。每个训练样本包含

个检测-轨迹对。作者首先独立预训练TE，然后再与GAFFE联合优化。在单个消费级GPU上，训练CAMEL耗时1小时。整个流程在MOT17数据集上的平均运行速度为13 FPS：YOLOX耗时24.4 ms，RTMPose耗时16.8 ms，BPBReID耗时16 ms，CAMELTrack耗时18 ms。作者采用包含

个特征的特征库。更多细节请参见附录D。

4.3. 与当前最佳技术的比较

CAMELTrack在大多数基准测试中建立了新的最先进性能，超越了传统上主导DanceTrack的端到端（E2E）方法[27, 69]，以及在对SportsMOT表现出色的基于SORT的方法[40, 65]。此外，CAMLETrack在MOT17上优于所有现有的学习方法[42, 69]，同时在与启发式方法[70, 75]的比较中取得了具有竞争力的性能。CAMLETrack还在PoseTrack21上以

HOTA和

的成绩超越了最先进水平。

DanceTrack。如表2所示，端到端方法[26, 27, 69]在该基准测试中占据主导地位，超越了现有的基于SORT的方法[8, 40, 41, 49, 65, 71]。这些基于SORT方法的性能不佳可归因于DanceTrack的挑战性场景——外观相似的舞者在频繁遮挡的情况下执行复杂动作，从而产生不可靠的运动和外观线索，正如作者在第4.4节基于或然性的研究中所展示的那样。基于启发式的关联对这类不可靠输入具有更高的敏感性：因此会出现错误的关联，逐步降低轨迹片段的表征质量，并引发更严重的跟踪错误。虽然HybridSORT[65]通过引入三个额外的线索尝试解决这些问题，但它仍然受限于静态特征融合。相比之下，作者的数据驱动关联通过学习利用每个线索的判别能力，缩小了与端到端方法的性能差距。类似于CAMELTrack，MeMOTR[26]和MOTIP[27]的成功可归因于其学习到的关联。

picture.image

最后，先前利用关键点的尝试[56]仅实现了微小的提升（HOTA提高0.4%），这可能是由于手工规则的局限性，无法充分利用这些丰富的信息。相比之下，CAMELTrack实现了显著的改进（HOTA提高3.2%），超越了端到端性能，同时保持了相似的推理速度，因为RTMPose非常快速。

SportsMOT. 如表3所示，基于SORT的方法[18, 33, 40, 46]在SportsMOT排行榜上占据主导地位，优于端到端解决方案[26, 27]。这一成功可归因于外观和运动线索在SportsMOT上比在DanceTrack上更可靠。例如，尽管运动员穿着相似的队服，作者在第4.4节的消融研究中表明，外观仍然是体育跟踪非常有效的线索。这些区分性线索的有效性尤其有利于TbD方法，因为它们的专用ReID模型比端到端跟踪 Query 更好地捕获物体外观。另一方面，作者同样优于基于SORT的方法，原因与DanceTrack类似。作者的关联中心训练使模型接触长期关联，从而提高了处理场景重入的能力。总体而言，CAMELTrack在现有最先进方法上取得了显著改进（HOTA提升3.2%）。然而，与DanceTrack不同，关键点在SportsMOT上会降低性能，这可能是由于更远的视角导致姿态估计产生噪声。

picture.image

MOT17. 测试集结果在表4中报告。端到端（E2E）方法联合学习检测和关联，需要大量的训练数据[27]。这些方法大多利用CrowdHuman[50]数据集进行联合训练以克服这一限制。尽管没有使用额外的训练数据，CAMEL仍然优于这些E2E方法。如第2节所述，TransMOT[15]和TADN[45]是首次尝试将学习组件集成到TbD流程中的方法。CAMELTrack在这两种方法上都取得了更好的性能。这归因于作者 fundamentally不同的架构以及与它们有限的5帧训练窗口相比，作者在更长的序列上进行训练。此外，CAMEL通过仅使用

目标中心化的token实现了更快的推理，避免了它们图结构中

边中心化token的二次复杂度（详情见附录A）。基于SORT的方法长期以来一直主导MOTChallenge基准。如附录C所述，数据集的结构本质上有利于这类手工设计的方法，因为它们只需要一个小的训练集来优化其超参数。尽管MOT17本质上偏向于这类方法，作者的学习型CAMELTrack实现了具有竞争力的性能。

picture.image

4.4. 消融实验

作者在表5的SportsMOT和DanceTrack验证集上进行了广泛的实验，以分析CAMEL的设计。作者的研究评估了三个方面：(i)时间编码器与标准轨迹表示启发式方法（实验1-5），(ii)作者的组感知特征融合编码器（实验6-8），以及(iii)作者的完整架构（实验9-10）。此外，作者设计了神谕实验（实验11-12）以建立性能上限。

picture.image

时间编码器与启发式方法。这些实验将作者的时间编码器TE与使用不同线索的标准启发式方法进行了比较。在重识别特征方面，TE始终表现优于

形成了指数移动平均（EMA）（实验1-2）。这一改进尤其值得注意，因为外观在DanceTrack上是一个弱信号，但在SportsMOT上具有高度区分性。对于边界框信号，TE在DanceTrack的随机运动和频繁遮挡（实验3-4）中表现优于卡尔曼滤波器（KF）的预测。另一方面，KF有效地捕捉了SportsMOT中更可预测的玩家轨迹。姿态关键点提供补充信息，特别是在遮挡时区分舞者，但在SportsMOT上边界框跟踪没有表现出改进，这可能是由于远距离视图的噪声估计所致（实验5）。

特征融合分析。作者评估了GAFFE学习到的动态特征融合与静态规则的效果。使用运动和外观特征等权重的基本方法（实验6）显示出与独立使用线索相比没有显著提升，有时甚至降低性能。为组感知特征融合添加GAFFE（实验7）带来了持续改进，证明了学习方法的益处。同时使用时序和组感知编码（实验8）提供了额外增益，DanceTrack特别受益于这种组合。

完整架构与训练。在以关联为中心的训练过程中，移除数据增强（实验9）会显著降低性能，这证明了在多样化场景中进行训练的重要性。包含姿态信息的最终架构（实验10）在DanceTrack上取得了最佳结果，但在SportsMOT上未显示出改进，这可能是由于其远距离摄像机设置的缘故。

通过预言机分析TbD关联性。附录F中详细描述了两个预言机实验，旨在研究基于跟踪检测（TbD）启发式关联的局限性，并评估运动和外观线索的判别能力。首先，作者设计了一个特征融合预言机（实验11），通过线性组合运动和外观线索，生成一个最大化关联准确性的代价矩阵。该预言机揭示了两个关键见解：(i) 运动和外观是跟踪的两个强大且高度互补的线索，但 (ii) 与标准融合方法（实验6）的显著差距表明静态启发式方法未能充分利用它们的判别能力。其次，关联预言机（实验12）将每个检测匹配到与其IoU最近的真实轨迹，建立了以检测质量为唯一限制的关联性能绝对上限。特征融合预言机和关联预言机之间的性能差距在不同数据集上差异显著：SportsMOT上的小差距表明跟踪线索可靠，而DanceTrack上的大差距揭示了在具有挑战性的场景中需要更强的线索。总体而言，作者发现结果令人鼓舞，表明作者学习的关联策略有助于缩小与预言机性能的差距（实验10-11实现了接近的性能）。

4.5. 潜在表示的定性分析

为说明 CAMEL 的线索解耦能力，作者使用 t-SNE [57] 分析轨迹对检测之间的相似度分布和潜在空间结构。作者将 CAMEL 的输出嵌入与标准启发式线索进行比较：卡尔曼滤波（KF）用于运动，以及 Re-ID 嵌入值的指数移动平均（EMA）用于外观。

相似度分布分析。图4比较了具有相同身份（正例）和不同身份（负例）的轨迹对之间的相似度分布，分别针对标准运动/外观线索和CAMEL的输出。虽然卡尔曼滤波运动线索能有效地区分大多数正例对与负例对，但仍有显著部分表现出错误的低IoU值。这一局限性在DanceTrack上尤为明显，负例对经常与正例对重叠，突显了卡尔曼滤波的不足。此外，仅靠外观缺乏区分性，正例对与负例对之间存在不可忽略的重叠，尤其是在DanceTrack上。相比之下，CAMEL的输出嵌入能有效地区分正例对与负例对，展示了成功的线索解耦。

picture.image

通过t-SNE进行潜在空间分析。图5展示了在具有严重遮挡的短序列上运动、外观和CAM EL输出的t-SNE表示。运动嵌入组织成身份簇，但在遮挡期间显示出显著重叠，而外观特征实现了更好的但不完全分离。另一方面，CAM EL输出形成具有最小重叠的明显身份簇，展示了这些互补线索的有效组合和解耦。

picture.image

4.6. 定性结果

图3将CAMELTrack与竞争性DiffMOT[40]在具有场景重入和严重遮挡的挑战性SportsMOT序列上使用相同的检测结果进行了比较。该图通过时间轴展示了它们的跟踪性能，其中真实轨迹用水平线表示，不同身份用不同颜色表示。对于这两种方法，累积图显示了随时间推移生成的唯一身份总数。

picture.image

两种方法在场景重入过程中表现出不同的行为：DiffMOT生成新的身份，而CAMEL通过其特征库成功恢复已知身份，这一点在累积身份图中较低的斜率中得到体现。类似地，在遮挡期间，两种方法最初都会进行身份切换，但CAMEL能够从这些错误中恢复，而DiffMOT则将这些错误传播下去。

结论

作者提出了CAMEL，一个新颖的学习关联模块，它用统一的可训练架构替代了传统的手工设计规则——轨迹表示、特征融合和多阶段匹配。凭借作者的最先进性能，作者视这项工作为重新确认TbD作为在线跟踪强大范例的第一步，并鼓励从关联启发式方法转向完全学习的方法。作者发布代码以促进该方向的未来研究。基于CAMEL，未来的工作可以探索更复杂的训练目标和神经网络架构，或将学习范式扩展到其他组件，如轨迹生命周期管理。

参考

[1]. CAMELTrack: Context-Aware Multi-cue ExpLoitation for Online Multi-Object Tracking

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image