西交大提出 GeneralTrack | 从点到实例，克服多目标跟踪的泛化难题！ - 文章 - 开发者社区

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

想要了解更多：

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」

行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码，加入「 集智书童-知识星球 」，日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑，期待交流！

免责声明

凡本公众号注明“来源：XXX（非集智书童）”的作品，均转载自其它媒体，版权归原作者所有，如有侵权请联系我们删除，谢谢。

picture.image

多目标跟踪（MOT）包含了各种跟踪场景，每种场景都有其独特的特点。有效的跟踪器应该在各种场景下展现出高度的泛化能力。然而，现有的跟踪器很难适应所有方面，或者需要假设和实验来为特定场景定制关联信息（运动和/或外观），从而导致过度定制化的解决方案，其泛化能力有限。

在本文中，作者研究了影响跟踪器在不同场景下泛化的因素，并将其具体化为一系列跟踪场景属性，以指导设计更具泛化能力的跟踪器。

此外，作者提出了一个针对MOT的“从点关系到实例关系”的框架，即GeneralTrack，它可以在消除运动和外观平衡需求的同时，泛化到不同的场景。

得益于其卓越的泛化能力，作者提出的GeneralTrack在多个基准测试中取得了最先进的表现，并展示了领域泛化的潜力。https://github.com/qinzheng2000/GeneralTrack.git

1 Introduction

多目标跟踪（MOT）旨在从视频流中定位目标并识别它们的身份。它是许多应用（如自动驾驶[7]、机器人技术[34]和视觉监控[36]）中的基本任务。尽管在过去几年取得了巨大进步，但当跟踪器被推广到不同的应用场景时，MOT任务仍然具有挑战性。

先前的MOT方法大多遵循跟踪检测（TbD）[1, 2, 62]或跟踪回归（TbR）[3, 65]的范式。TbD方法在每个帧中检测目标，然后将跨帧的目标关联起来。TbR方法也进行逐帧的目标检测，但用每个轨迹段对其新位置的连续回归替换数据关联。随着目标检测的迅速发展，TbD已成为该领域的主导范式。

现实世界的应用场景多种多样，具有不同的属性，如图1所示，例如不同的运动复杂性、目标密度和帧率。不幸的是，当前的MOT方法在很大程度上依赖于大量的先验知识或复杂的工程努力，以便在特定场景中表现出色，但它们在有效推广到不同情况方面存在困难。这一限制显著限制了它们在现实世界应用中的实用性。

picture.image

对于TbD，以运动为主的方法[5, 39, 43]在遇到不规则的移动和目标形状或位置的大量变化时表现出脆弱性；以外观为主的方法[14, 41, 55]在面临遮挡（例如，由密集人群或 Mask 物、光线变化和小型目标引起）时容易失败。为了克服这些困难，一些TbD方法需要手动调整在特定场景中依赖哪种信息更多。例如，ByteTrack [62]在MOT17和MOT20中基于运动构建亲和矩阵，在BDD100K中基于外观构建。其他研究[1, 14, 46, 55]直接用权重因子平衡两个亲和矩阵，并针对不同场景进行调整。TbR的泛化限制同样适用。例如，Tracktor [3]不能处理低帧率视频和形状或位置变化大的目标；Centertrack [65]使用中心点来表示每个目标，这在拥挤的场景中会变得不堪重负。因此，迫切需要开发能够有效推广到不同场景的跟踪器。

在本文中，作者首先对跟踪场景进行了深入分析，以了解特定跟踪器在不同场景中性能为何会有显著差异。通过参考先前跟踪器在不同数据集上的表现，作者将跟踪场景属性解析如下：运动复杂性、变化幅度、目标密度、小目标以及帧率。基于这些属性，作者分析了在MOT中常用的数据集[8, 9, 33, 49, 58]，发现这些属性在不同数据集上存在极大差异。无论是以运动为主还是以外观为主的方法，都有各自不擅长的属性。

基于上述分析，作者为MOT提出了一个“从点关系到实例关系”的框架，即GeneralTrack，它可以在不手动平衡运动和外观信息的情况下泛化到各种场景。具体来说，作者不是直接在实例 Level 构建跟踪片段和检测之间的关系，而是捕捉点关系，然后将它们转化为实例级的关联。细粒度特征加上从细到粗的转换能够处理密集目标和微小目标。与之前以运动为主的方法在固定的局部区域搜索相比，作者对比了包含视觉和几何引导的运动模板的多尺度点区域关系，该模板能够应对不规则的移动。这种灵活的运动模板规模能够有效地适应各种帧率以及位置变化幅度。最后，作者设计了一个分层的关联聚合范式，根据点-部分-实例层次关联跟踪片段和检测。目标从刚体发展到柔体，适用于形状变化剧烈的场景。

在多个基准数据集上的大量实验表明，作者的方法取得了最先进的成绩，证明了在多样化场景中泛化能力的优越性。特别是，作者的GeneralTrack在BDD100K排行榜上取得了第一名（57.87 mTETA）。此外，作者还实验发现，GeneralTrack在应对未见数据分布（跨数据集、跨类别）的领域泛化方面具有巨大潜力。这项工作的主要贡献可以总结如下：

作者分析了阻碍现有跟踪器泛化能力的因素，并将它们具体化为可以指导跟踪器设计的跟踪场景属性。作者提出了一种用于多目标跟踪（MOT）的“从点状关系到实例关系”的框架。它首先通过多尺度4D相关体积构建点状关系，然后通过一种新颖的“点-部分-实例”层次结构将它们聚合为实例级关联。作者的新框架可以解决MOT中的几个基本挑战。具体来说，点状相关性建模处理由于密集和小型目标而对实例级表示的损害；多尺度点-区域关系的构建处理严重的运动复杂性，以及不同的位置变化和帧率；分层聚合处理形状变化。对GeneralTrack的广泛评估表明，它在多个MOT数据集上达到了最先进的表现。此外，GeneralTrack实验性地展示了强大的领域泛化能力。

2 Related Work

通过检测进行跟踪。 在多目标跟踪（MOT）领域，长期以来占主导地位的方法是通过检测进行跟踪。TbD的核心是构建轨迹和检测之间的帧间关系（亲和矩阵），然后使用匈牙利算法[26]进行匹配。用于匹配的亲和矩阵通常由运动信息[17, 24, 39, 43]或外观信息[25, 37, 52, 55, 57]驱动。如第1节所述，运动和外观主导的方法各自都有不擅长的场景。

为了解决这些问题，一些方法致力于在运动和外观之间寻求更好的平衡[1, 14, 46, 55, 62]；其他一些方法，例如TrackFlow[32]，通过构建概率公式来处理这些问题，但需要虚拟数据集进行训练。相比之下，作者提出了一种新的方法，实现了泛化并避免了运动和外观之间的平衡。

密集流与对应关系。 在一对图像之间识别对应关系是计算机视觉的一个基本问题，包括光流和几何对应关系。FlowNet[13]是第一种端到端的光流估计方法。随后一系列工作[11, 21, 22, 40, 47, 48]采用了由粗到细和迭代估计的方法论。为了处理粗略阶段中缺失的小型快速运动物体，RAFT[50]以粗略和精细的递归方式执行光流估计。几何对应关系[30, 42, 44]指的是从不同视角捕获的图像之间的对应关系。MatchFlow[10]将几何对应关系作为光流的预定义任务。

在这些探索中，4D相关体积常用于捕获像素对之间的视觉相似性，并作为支持密集流和对应对估计的核心组件。在MOT中，帧之间的视觉关系非常重要。受到这些工作的启发，作者从低层次视觉的角度构建从像素到实例的关系，来解决跟踪任务。

3 Methodology

Analysis of MOT Scenarios

在无数的现实世界应用场景中，当前的多目标跟踪（MOT）方法在很大程度上依赖于大量的先验知识或复杂的工程努力，以在特定场景中表现出色，但它们很难泛化到不同的情况。为了深入了解这一现象，作者分析了以前跟踪器在不同数据集上的失败案例，并识别出以下对跟踪器性能有重大影响的属性：

运动复杂性 反映了场景内目标运动的规则性和不可预测性。运动越不规则和不可预测，其复杂性越大。
变化幅度 反映了目标的可变性，包括形状和位置的变化。
目标密度 反映了场景中人群的密度，隐含地反映了人群中的遮挡程度。
小目标 表示场景中平均的小目标数量。
帧率是输入视频流每秒捕获的帧数。

作者对五个数据集[8, 9, 33, 49, 58]上的这些属性进行了彻底的测量，并形成了如图2所示的跟踪场景属性图。请注意，帧率在地图中取倒数。详细的测量指标在补充材料中提供。

picture.image

此外，作者根据这些属性是否破坏运动或外观，将它们分为两类，如图属性图的背景所示，即运动和外观主导的方法可能分别在与白色和蓝色区域不表现良好。特别是，在运动规律、高帧率和运动幅度小的行人跟踪场景（例如MOT17和MOT20）中，更依赖于运动；在具有高度复杂运动模式的跟踪场景（例如DanceTrack和SportsMOT）中，外观比运动更有效；由于低帧率和大的运动幅度，BDD100K无法提供可靠的运动信息。作者的观察与以前的方法如何平衡运动和外观信息是一致的。例如，GHOST [46] 为MOT17、MOT20、BDD100K和DanceTrack分别设置了外观和运动（运动百分比）之间的最佳权重为0.6、0.8、0.4和0.4。ByteTrack [62] 在MOT17和MOT20中使用运动构建亲和矩阵，在BDD100K中使用外观；在运动复杂的DanceTrack和SportsMOT上使用运动时，其性能非常差。为了使跟踪器具有很好的泛化能力，考虑这些属性是至关重要的。

Overview of GeneralTrack

符号表示。 对于在线视频流，作者首先使用YOLOX [15]处理当前帧以获得检测结果。这些检测结果表示为，包含帧中的个检测结果，其中表示检测边界框的位置和大小。作者用表示个轨迹片段的集合。是具有身份的轨迹片段，定义为，其中是在帧中的位置，是初始化时刻。

作者的GeneralTrack遵循著名的检测跟踪范式 [62]。给定当前帧，作者获取其检测结果和截至帧的个轨迹片段集合。然后，作者通过构建帧与帧之间的点对点关系，将现有轨迹片段与当前检测结果相关联，并将它们转换为实例级关联。如图3所示，这个过程包括三个阶段：(i) 作者使用特征关系提取器 （第3.3节）通过4D相关体积为帧中的每个点构建与帧的全局密集关系。(ii) 然后，作者将全局关系转换为多尺度点区域关系 （第3.4节），并为帧形成一个关系图，其中每个点表示其移动趋势。(iii) 最后，作者根据点-部分-实例 层次结构逐步执行分层关系聚合 （第3.5节）以关联轨迹片段和检测结果。所有阶段都是可微的，并且组成一个端到端可训练的架构。

picture.image

Feature Relation Extractor

考虑到目标可能非常小或被遮挡，作者利用一个提取器来捕获点 Level 的关系。给定一对连续的RGB图像，和，一个卷积神经网络将它们编码成两个低分辨率的密集特征图，分别表示为，，其中分别是图像高度和宽度的1/8，是特征维度。

在获得连续的特征图对和之后，作者通过在它们之间构建一个全相关体积来计算全局密集关系。相关体积是通过以下方式计算所有特征向量对的点积形成的：

在中的元素表示第帧中 -th 特征点与第帧中 -th 特征点之间的关系。

当目标过小或被遮挡时，实例 Level 的特征可能会受损，而在这种情况下，相邻帧之间的点对关系是鲁棒的。

Multi-scale Point-region Relation

这部分是为了让跟踪器适应不同的帧率以及位置变化的大小。正如图4所示，不同类别之间存在很大的速度差异，比如快速行驶的汽车和缓慢行走的人，不同帧率下也存在同样的问题。此外，包含了密集的全局关系，其中大量的无效关系会导致计算成本显著增加，且收敛速度变慢。为了跟踪器的灵活性和计算简化，作者将全局关系转换为多尺度点区域关系。

picture.image

受到文献[10, 50]中多尺度4D体积的启发，作者对相关体积进行下采样，并通过以下方式对后两个维度进行池化，获得相关金字塔：

其中是金字塔的层级，初始化为。这一系列体积提供了不同尺度下，从帧中的点到帧中每个区域的关系。

为了减少无效关系，作者在上基于以下方式设置了一个基于中心的关联搜索区域：

其中是中的一个坐标，是从关联金字塔第层中的点的位移。关系搜索被限制在坐标的邻域内，大致为，即任何方向上的最大位移为。在的每个层级上，随着分辨率的降低，搜索区域逐渐增大，如图4中的红色、绿色和蓝色框所示。

作者使用在相关金字塔上进行搜索，形成多尺度点区域关系图，如下所示：

其中函数表示在每个层级上使用进行搜索操作。是中每个层级的点区域关系，并且它们在最后一个维度上进行拼接。包含了帧中的点在所有方向和所有范围内到帧的运动趋势。

本质上，多尺度点区域关系隐含地包含了一个基于视觉和几何的运动模板，不同的层级代表了不同的位移尺度，同一层级中的不同点代表了不同的方向和大小，这可以灵活地适应不同的帧率以及位置变化的大小。

Hierarchical Relation Aggregation

在当前帧中，检测集合包含个检测结果，轨迹集合包含个轨迹。关系图编码了第帧与第帧多尺度区域之间的点对关系。在这里，作者将点对关系转换为实例对关系，以构建轨迹-检测关系矩阵进行数据关联。

为了解决实例的形状变化问题，作者将实例视为一个灵活的物体。与将实例视为刚体的传统运动或外观方法不同，作者通过点-部分-实例层次结构逐步聚合关系。对于中的第个检测结果和中第个轨迹的位置，作者将实例和划分为个部分。作者对在上应用RoIAlign[19]并获得第个轨迹的部分关系，其中是RoIAlign的大小，是特征维度。然后，作者编码每个部分在和之间的相对位置，表示为，其中其元素表示相应部分的质心位移。然后作者将和进行拼接并对其应用卷积操作。最后，作者使用多层感知机（MLP）获得预测得分如下：

最终，作者使用匈牙利算法[26]对进行处理并完成关联。对于丢失的轨迹，作者使用卡尔曼滤波器来恢复它们。

Training

作者选取视频中的两个连续帧作为一个训练样本。两幅原始图像作为前向传播过程中的输入和，分别使用真实框作为和。两个帧中的目标以成对方式组合来预测轨迹-检测关系，作者根据它们是否具有相同身份来标记为正样本或负样本。然后，作者使用加权的二元交叉熵损失函数（加权BCE损失）进行监督：

其中表示预测的相关分数，表示 GT 相关标签，其中1和0分别表示正相关和负相关。正样本和负样本的数量差异很大，受到F'Net [54]的启发，作者对正样本添加权重，即权重因子。为了增强特征关系提取器的能力，作者在密集流和对应任务的设置下使用[16]进行预训练。### 多类别目标跟踪

FairMOT [61] 将每个跟踪目标视为一个类别，并通过特征相似性关联检测结果。一些TbD方法，如GHOST [46] 和 ByteTrack [62]，限制了每个类别中的跟踪过程。由于目标检测的误判，目标跟踪可能很容易被中断。相比之下，作者首先进行类别不可知的关联，允许在不同帧中被检测为不同类别的目标进行关联。其次，作者确定历史轨迹中最频繁的类别为“真实类别”。最后，作者将轨迹中与“真实类别”不同的检测视为假阳性，并将它们归类为“真实类别”。相关金字塔为3，关系搜索半径为4。RoIAlign 尺寸对于DanceTrack、SportsMOT设置为33，对于BDD100K、MOT17、MOT20设置为22。

Benchmark Evaluation

为了验证泛化能力，作者在五个具有显著不同特点的公开基准数据集上进行了实验：自动驾驶场景中的多类别跟踪BDD100K，其特点是帧率低、变化大，且存在小目标（见表1）；球类游戏场景SportsMOT，其运动模式复杂（见表2）；舞蹈场景DanceTrack，运动复杂性高且变化幅度大（见表3）；行人跟踪场景MOT17和MOT20，运动规律、高帧率，以及目标密度高，且存在大量小目标（见表4）。

picture.image

泛化能力分析。 与需要强假设和巨大训练资源的方法不同，作者的方法可以在多样化场景中取得很好的泛化性能。尽管ByteTrack在不同数据集中选择不同的关联信息，GHOST在不同数据集中调整关联信息的权重，作者仍然在所有数据集上超越了它们。对于需要超过作者200倍训练资源使用的MOTRv2，作者在除DanceTrack之外的所有数据集上，使用很少的训练资源和时间，性能更优。关于基准数据集的更详细分析将在补充材料中提供。

Ablation Studies

作者在BDD100K验证集上进行了消融实验，以评估作者每个组件的设计。请注意，消融结果是通过工具套件评估的，而基准结果是提交到评估服务器获得的。

多尺度关系。多尺度关系（MR）旨在使跟踪器能够应对不同的帧率和变化幅度。作者在三种帧率设置（原始帧率以及两倍和四倍下采样）下进行了实验。如表5的前六行所示，在所有三种设置下，所有指标在没有MR的情况下都变差了，表明MR在跟踪中扮演了关键角色。随着帧率的降低，性能变化加剧，在设置3下，MR带来了提升（+2.0 HOTA，+2.7 IDF1，+2.5 MOTA，+1.2 mHOTA，+1.4 mIDF1，+1.2 mMOTA）。这表明帧率越低，MR在场景中的作用越强大。

picture.image

搜索半径。 如表5所示，改变搜索半径对跟踪器的性能影响很小。因为相关金字塔对此参数是鲁棒的，相关金字塔具有在任何半径下覆盖多尺度区域的灵活性。

分层关系聚合。 作者通过将RoiAlign参数设置为，并将其视为传统方法中的刚体来消融这一部分。如表5所示，所有指标在消融后都变差了，这表明这个组件影响了所有目标的跟踪。这突显了在匹配过程中将刚体转换为柔体的重要性。

类别放松与校正。 为了观察每个类别的性能变化，作者在表6中分别列出它们。骑手、公交车和摩托车的性能有了显著改善，反映出在检测过程中，许多目标被误认为是其他类别，导致匹配不成功。尽管卡车的两个指标下降了，但平均指标仍有提升，这表明作者的方法在保持低假阳性率的同时，减少了大量假阴性。这弥补了检测器分类能力的不足。

picture.image

Visualization

作者关注图5中的红色巴士，其中GHOST [46] 经历了轨迹中断、身份切换和误分类。作者探究这些现象为何会发生。这是因为当运动幅度较大时，低得分检测无法依赖于有效的交并比（IoU）或较差的外观来进行跟踪；误分类和身份切换是由于检测器类别判断错误。相比之下，作者对它进行了完整的跟踪，并成功纠正了分类错误。

picture.image

Domain Generalization

在这一部分，作者进一步实验并分析作者的GeneralTrack是否也能在域泛化设置中表现良好，这是MOT领域的一个新挑战[45]。MOT中的域泛化分为两个阶段：检测和关联。在这里，作者仅对关联部分进行域泛化实验，即仅在源域上训练，并在没有微调的情况下在未见的目标域上进行推理。

跨类别和跨数据集实验。 在表7中，作者设置了不同类别之间的域泛化，即作者仅用汽车类别中的目标进行训练，并对所有类别进行推理。可以注意到，在七个未见类别上仍然有出色的跟踪性能。如表8所示，作者在BDD100K上进行训练，然后在没有微调的情况下泛化到SportsMOT和DanceTrack。与在相同域中进行训练和推理的结果相比，作者的GeneralTrack具有强大的域泛化能力。

picture.image

分析。 关注目标的局部关键纹理比全局结构信息更具泛化性[20, 35]。作者通过构建帧之间的点对关系来实现跟踪，这基于低级视觉信息，如纹理、形状和角点等。这些低级视觉信息被所有目标共享，具有更大的灵活性和泛化性。因此，这些因素使作者的GeneralTrack具有域泛化的能力。

5 Conclusion

在本文中，作者探讨了跟踪器在多样化场景中的泛化难题，并将这些问题具体化为一系列跟踪场景属性，这些属性可以指导未来跟踪器的设计。此外，在这些属性的指导下，作者提出了一种针对多目标跟踪的“从点状到实例级关系”框架，即GeneralTrack。

作者在多个数据集上取得了优异的性能，同时避免了在运动和外观之间进行平衡的需要，并通过实验证明了在未见数据分布（跨数据集，跨类别）的领域泛化潜力。

局限性与未来工作。 作者更多地关注于建模帧间关系，并未将其扩展到跨帧关系。受到[53, 64]的启发，在下一个版本中，作者将基于视频片段构建多帧之间的关系，以实现更好的跟踪性能。

参考

[1].Towards Generalizable Multi-Object Tracking.

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image

点击下方“ 阅读原文 ”，

了解更多AI学习路上的「武功秘籍」

西交大提出 GeneralTrack | 从点到实例，克服多目标跟踪的泛化难题 ！

1 Introduction

2 Related Work

3 Methodology

Analysis of MOT Scenarios

Overview of GeneralTrack

Feature Relation Extractor

Multi-scale Point-region Relation

Hierarchical Relation Aggregation

Training

Benchmark Evaluation

Ablation Studies

Visualization

Domain Generalization

5 Conclusion

参考

西交大提出 GeneralTrack | 从点到实例，克服多目标跟踪的泛化难题！