北邮提出分层交并比（IoU）跟踪框架HIT，实现统一的分层跟踪！

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

多目标跟踪（MOT）旨在跨帧检测并关联给定类别的所有目标。当前的主流解决方案，例如ByteTrack和StrongSORT++，遵循混合 Pipeline 模式，先在线完成大部分关联工作，然后使用离线技巧如插值和全局链接来细化结果。

尽管这种范式在应用上提供了灵活性，但两个阶段之间的不连贯设计导致了次优的性能。

在本文中，作者提出了一个名为HIT 的分层IoU跟踪 框架，通过利用轨迹片段间隔作为先验，实现了统一的分层跟踪。

为了确保简洁性，仅使用IoU进行关联，而放弃了繁重的外观模型、巧妙的辅助线索和学习型关联模块。

作者进一步识别了关于目标大小、摄像机移动和分层线索的三个不一致性问题，并设计了相应的解决方案以确保关联的可靠性。

尽管方法简单，但作者的方法在四个数据集上，即MOT17、KITTI、DanceTrack和VisDrone上取得了令人鼓舞的性能，为未来跟踪方法设计提供了强有力的 Baseline 。

此外，作者对七个跟踪器进行了实验，并证明HIT可以与其他解决方案无缝集成，无论它们是基于运动、外观还是学习型的。

作者的代码将发布在https://github.com/dyhBUPT/HIT。

unset

unsetIntroductionunset

unset

多目标跟踪（MOT）涉及在场景中视觉区分多个目标的身份并创建它们的轨迹，这是一个基本但至关重要的视觉任务，对于解决监控、机器人、自动驾驶和生物学等领域中的许多问题至关重要。它通常面临的挑战包括遮挡、检测缺失、定位错误、非线性运动模式和长期关联，这需要进一步的优化努力。

当前的MOT方法原则上遵循主导的“混合”范式（图1(a)），它们详述了在线算法以获得轨迹，并引入了离线后处理程序进行细化，例如线性插值和全局关联[14]。尽管它们的表现令人印象深刻且适用性灵活，但在线算法固有的不可靠性削弱了整体效能。为了解决这个问题，其他一些研究将MOT公式化为一个两阶段的聚类问题，称为“基于聚类”的范式（图1(b)）。它们首先使用严格的空间和时间以及外观约束生成歧义性低的短轨迹段，然后基于图分割[24]或迭代 Proposal 对它们进行聚类。然而，基于聚类的方法需要针对不同阶段和时间跨度的独特设计，这限制了可用性和可扩展性。

picture.image

纯“分层” Pipeline （图1(c)）通过在不同层次上采用统一的设计来解决这个问题，使得单一模型或算法可以同时用于短期和长期关联[23]。在这种范式中，建立了一系列指数级扩展且互不重叠的时间窗口，其中每个层次仅在其对应窗口内进行关联。然而，预定义窗口的设计没有考虑到不同轨迹之间固有的可靠性差异。

在本文中，作者提出了一种新的分层跟踪框架，使用“轨迹段间隔”作为层次基础，而不是“时间窗口”。如图1(d)所示，在第一层次（），仅将相邻帧的检测结果进行关联。然后在第二层次（），允许具有两帧间隔的匹配，从而容忍一次检测缺失。类似地，更高层次促进了更长时期的跟踪。本质上，这种设计优先考虑高质量的轨迹段，从而确保了结果的纯度。作者在所有层次上都简单地采用卡尔曼滤波进行运动预测和IoU进行关联，并在MOT17[20]和KITTI[2]上证明了“轨迹段间隔”策略优于“时间窗口”。然而，作者的框架观察到了以下三个不一致性问题：

目标大小不一致： 给定固定的像素级检测误差，小框通常与地面真相的IoU比大框低。
相机移动不一致： 相机移动趋势在不同序列之间往往有所不同。
分层线索不一致： 在第一层次中，每个轨迹段只包含一个框，结果没有运动信息。然而，在更高层次中，有多个框可用于运动预测。

总之，上述问题使得难以对所有目标、序列和层次使用统一的算法和超参数。为了克服这些问题，作者设计了特定的优化策略来实现统一的“分层IoU跟踪”，命名为_HIT_。

尽管其简单，作者的HIT在各种数据集上，即MOT17、KITTI、DanceTrack和VisDrone上取得了令人满意的表现，使其成为未来跟踪器设计的强 Baseline 。特别是，在KITTI上，作者获得了与StrongSORT++[31]相同的HOTA和较低的IDSW，且没有使用外观特征和CMC（相机运动补偿）模块。

此外，通过对其他七种基于运动、外观和学习的跟踪器进行实验，作者证明HIT可以与现有跟踪器集成，用于轨迹重组和细化，并且显著提高性能。这突显了HIT作为新的后处理算法在应用中的潜力。

unset

unsetRelated Workunset

unset

unsetOnline Trackingunset

unset

近年来，启发式在线追踪器在多目标追踪（MOT）社区中占据主导地位。SORT [1] 利用卡尔曼滤波器 [21] 进行运动预测，这后来成为其他工作的基础。DeepSORT [22] 通过引入额外的外观特征并提出了级联匹配算法来改进它。最近，StrongSORT [31] 使用各种高级技巧升级了DeepSORT。ByteTrack [19] 训练了一个强大的检测器YOLOX [20]，并首次使用了低置信度检测框。OC-SORT [23] 重新思考了SORT中卡尔曼滤波器的角色，并提出了三种以观察为中心的技术以实现稳定的关联。BoT-SORT [1] 更新了卡尔曼滤波器状态设置并详细设计了CMC（摄像机运动补偿）模块。Hybrid-SORT [19] 从OC-SORT和ByteTrack改进而来，并融入了两个弱线索，即框的置信度和高度，以补偿强线索。

目前，基于学习的方法追踪器已经经历了快速发展。TransTrack [24] 和 TrackFormer 提出使用DETR [1] 进行联合检测和关联学习，并使用“追踪 Query ”确保一致的目标信息以维持轨迹。MOTR [19] 提出了一个完全端到端的多目标追踪框架，无需像NMS和额外匹配这样的启发式过程。后续工作进一步关注在检测、长期建模[26]、遮挡鲁棒性和理解描述方面的改进。

尽管这些方法是为在线追踪设计的，但其中许多方法在推理过程中利用额外的离线后处理来细化轨迹。作者认为这种混合 Pipeline 会导致次优性能，因此作者致力于设计一个统一的离线框架。

unset

unsetOffline Trackingunset

unset

大多数纯离线跟踪器遵循了两阶段基于聚类的范式，首先基于时空和外观线索生成可靠的轨迹片段，然后在轨迹片段图上进行聚类。TAT [24] 通过将多目标跟踪（MOT）公式化为双层优化问题，提出了一种网络流关联方法。TNT [25] 构建了TrackletNet来联合建模位置和外观信息，并使用图分割方法关联轨迹片段。TPM [19] 开发了轨迹片段匹配平面，以解决由噪声或缺失检测引起的关联混淆。DTA [19] 从MHT [25] 中汲取灵感，构建假设树来同时表示多个潜在轨迹。LPC [17] 设计了一种迭代图聚类策略用于 Proposal 生成，并使用GCN Kipf和Welling (2016) 为这些 Proposal 打分。FCG Girbau等人（2022）以级联方式融合了连续提升帧中的轨迹片段。

尽管这些方法已经展示了卓越的性能，但它们需要为两个步骤（即轨迹片段生成和轨迹片段聚类）设计不同的算法。此外，对于轨迹片段聚类，一些多阶段解决方案需要为每个阶段使用不同的模块。最近，SUSHI Cetintas等人（2023）提出了一种基于学习的层次化框架，该框架为所有层次使用了统一的设计。然而，它依赖于时间窗口来划分不同层次，而没有考虑轨迹片段的固有信息。在这项工作中，作者提出利用轨迹片段的内在可靠性线索（即轨迹片段间隔）来实现更稳定的层次化框架。

unset

unsetMethodunset

unset

在本节中，作者首先介绍作者方法HIT的总体分层框架。然后，提出了三种一致性设计来解决相应的不一致问题。最后，作者将介绍如何将HIT与其他跟踪器集成。

unset

unsetFrameworkunset

unset

图2（左）展示了作者的分层框架。给定一个序列中所有帧上的个输入检测，通过将每个检测视为一个轨迹片段来构建初始轨迹片段集。然后在第层层次结构中（），个轨迹片段与个更长的轨迹片段相关联（）。每个轨迹片段表述如下：

picture.image

其中是第帧的检测框，和是的最小和最大帧索引。

一组轨迹片段间隔阈值是预先设置的。在第层层次结构中，仅考虑间隔小于阈值的轨迹片段对进行关联，即 $0<t^{l,j}\_{min}-t^{l,i}\_{max}\leq\delta t^{l}$ 。对于关联，使用卡尔曼滤波进行双向运动预测，并通过轨迹片段对的真值框和预测位置之间的iou计算匹配相似性，如之前的工作zhang="" et="" al.="" (2022);="" cao="" (2023)中所述。所有层次结构均使用统一的匹配阈值 $\delta="" o$ ，并通过应用匈牙利算法kuhn="" (1955)进行轨迹片段关联。通过从层次1到 $l$ 迭代执行上述关联过程，并增加 $\delta="" t^{l}$ ，作者最终获得 $n\_{l+1}$ 个输出轨迹。<="" p="">

unset

unsetConsistency Designsunset

unset

尽管作者的框架在有效性方面表现出色，但如图2（右）所示，还是识别出了三种不一致性问题。

unset

unsetInconsistent target sizeunset

unset

IoU在多目标跟踪（MOT）中广泛用于轨迹关联和性能评价指标。然而，作者发现小框的IoU往往低于大框。例如，在水平和垂直方向上给定15像素的定位误差，对于大小为8050的框，其与GT的IoU为0.4，而对于大小为4025的框，其IoU仅为0.14。这使得对所有目标使用相同的匹配阈值变得困难。为了解决这个问题，作者提出了一致-IoU ，在计算IoU之前扩展小框。具体来说，给定两个框和，如果 $w\_{i}<w$ 且="" $w\_{j}<w$ ，作者按以下方式用比例="" $r\_{i,j}$ ="" 扩展它们：<="" p="">

其中是预设的阈值，是缩放因子。接着使用扩展的框和来计算IoU以便关联。注意，对于大框，作者直接使用原始IoU。

不一致的摄像机移动作者的基于IoU的框架高度依赖于目标在帧间的运动信息。然而，不同序列中摄像机移动的尺度不同，导致帧间目标重叠的差异。为了弥补这一差距，作者提出了consistent-camera 方法，在不使用视觉线索的情况下估计摄像机移动。首先，对于第个序列，使用进行第一次层次关联。然后作者计算所有匹配检测对的平均IoU ，作为此序列摄像机移动的度量。如果小于阈值，则将该序列识别为具有显著摄像机移动。在这种情况下，根据FOR [20]，可以在帧通过计算所有关联检测对的平均距离来估计摄像机移动程度，如下所示：

最后，被用于补偿所有层次中摄像机移动，如之前的CMC-based解决方案[13]中那样。注意，对于摄像机移动可忽略的序列，作者不应用补偿。

如前所述，在计算关联的IoU之前，会进行运动预测。然而，对于第一个层次（），每个轨迹片段的长度仅为一个，这导致用于运动估计的时间信息不足。这通常会使得关联不可靠，特别是当两条轨迹交叉时。为了解决这个不一致的问题，作者提出了一致运动 策略，为第一层次配备运动线索。与之前类似，首先在第一层次上进行纯基于帧间IoU的关联。对于每个框，前一帧的匹配框可用于后续帧的运动估计，反之亦然。因此，所有层次的所有轨迹片段都包含时间信息，这有利于统一层次 Pipeline 。

unset

unsetIntegration with other Trackersunset

unset

正如先前所描述的，HIT利用检测来初始化轨迹片段，并执行分层关联。因此，一个有趣的问题产生了：作者能否使用其他跟踪器来初始化HIT？然而，对于已经确立的跟踪结果，进一步优化的空间很小，直接应用HIT到它们上面带来的改进也有限。为了解决这个问题，作者提出以简单的“重组”方式将HIT与其他跟踪器集成。

具体来说，给定来自一个跟踪器的原始跟踪结果，作者在轨迹的不连续点处分割每个轨迹以获得多个轨迹片段。例如，如果帧索引为，则将被分割为两个轨迹片段，索引分别为和。这是基于这样的假设：轨迹中的不连续点通常表示高不可靠性。实际上，这对于在线跟踪器来说，大约等同于将轨迹片段的最大寿命设置为1。之后，新获得的轨迹片段集作为HIT的输入。在这种情境下，HIT可以被看作是一种后处理方法，用于细化任何跟踪器的结果。图3展示了整体集成流程。

picture.image

unset

unsetDiscussionsunset

unset

目前，主流方法倾向于依赖辅助线索（例如，外观、CMC），对每个阶段和序列进行精心调整的超参数，以及昂贵的训练过程来实现卓越的性能。与之不同，HIT被设计为一种启发式方法，它仅使用IoU作为关联线索，并为所有层次和序列设置统一的超参数。HIT可以作为独立的追踪器，也可以作为其他追踪器的后处理方法。引入更多信息当然可以带来更好的结果。然而，本文的主要目的并非实现最佳性能，而是探索一种简洁而有效的追踪框架。作者将进一步的优化工作留给未来的研究。## 实验

unset

unsetExperimental Settingunset

unset

数据集作者在MOT17 Milan等人、KITTI Geiger等人、DanceTrack Sun等人（2022年）和VisDrone Zhu等人（2018年）上进行了实验。MOT17是MOT中广泛使用的一个标准基准，它由7个序列组成，其中5316帧用于训练，7个序列，5919帧用于测试。为了进行消融研究，作者按照之前的工作Zhou等人（2020年）将训练集分为两半，用于训练和验证。KITTI是与自动驾驶任务相关的流行数据集，它由21个训练序列和29个测试序列组成，帧率相对较低，为10 FPS。作者使用KITTI来验证HIT在跟踪汽车时的性能。DanceTrack由于多样化的非线性运动模式和严重的遮挡而具有挑战性。它包含40个训练序列，25个验证序列和35个测试序列。VisDrone是在无人机视角下收集的，由56个训练序列，7个验证序列和17个测试开发序列组成。考虑五个目标类别进行评估，即汽车、公交车、卡车、行人和面包车。

评价指标作者选择HOTA Luiten等人、MOTA Bernardin和Stiefelhagen、IDF1 Ristani等人（2016年）及其相关指标进行评估。特别是，MOTA更多地关注检测性能，IDF1反映了关联能力，而HOTA则平衡了这两个方面，涵盖了各种定位阈值。

实现细节为了公平比较，作者直接使用现有工作的检测结果。对于MOT17和DanceTrack，作者使用了ByteTrack Zhang等人训练的YOLOX的公开可用权重。对于KITTI，作者采用了OC-SORT Cao等人的PermaTrack Tokmakov等人的结果。对于VisDrone，作者使用了U2MOT Liu等人训练的YOLOX。对于关联，所有层次、序列和数据集都采用了统一的匹配阈值。对于MOT17和DanceTrack上的人体跟踪，采用了IoU的身高调制版本Yang等人（2024年）。BYTE Zhang等人（2022年）被用来包含低置信度检测。在consistent-IoU中的默认宽度阈值为64，一致的摄像机阈值设置为0.65。对于测试集的评估，类似于GIAOTracker Du等人（2021年），进行了额外的插值和轨迹片段合并。层次间隔默认设置为，其中"5"意味着在最后一层的轨迹片段之间允许最多5帧的重叠进行关联。

unset

unsetBenchmark Resultsunset

unset

表1：与最先进方法在MOT17测试集上的性能比较。"Param"表示是否对所有序列使用统一的超参数。"Cues"表示用于关联的信息。"Mode"列表示跟踪模式，其中"on"代表"在线"，"off"代表"离线"。对于报告了离线后处理技巧结果的混合方法，作者还重现了它们在线版本的结果。作者的HIT在没有为所有序列调整超参数的情况下，比离线版本的ByteTrack实现了更高的HOTA/AssA和低得多的IDSW。

picture.image

作者在表1中比较了HIT与代表性方法在MOT17上的表现，最佳结果以红色粗体显示。为了公平清晰比较，除了常用指标外，作者还增加了三列，即"Param"、"Cues"和"Mode"。"Param"列中的""表示为每个序列调整超参数。"Cues"列指示用于关联的信息。具体来说，"O"代表重叠（例如，IoU），“S”代表分数，“V”代表速度，“A”代表外观，“C”代表1000（即相机运动补偿），"L"代表学习。"Mode"列中的"on / off"意味着在线/离线跟踪。特别是对于那些报告了离线后处理技巧的在线方法，作者进一步重现并报告了他们的在线跟踪结果。结果显示，作者的HIT在不为每个序列调整超参数或利用分数进行关联的情况下，比离线ByteTrack实现了更好的结果。

Kitti如表2所示，与最先进的跟踪器StrongSORT++相比，HIT在KITTI上实现了相同的HOTA和更高的MOTA。这归功于HIT的分层设计，它使得在基于纯IoU的低帧率视频中有可靠的跟踪。

picture.image

DanceTrack表3展示了HIT与其他跟踪器的比较，HIT超越了大多数跟踪器。与最先进的方法C-BIOU相比仍有差距，因为DanceTrack包含严重的形变和遮挡，降低了IoU的可靠性。

picture.image

VisDrone在VisDrone上的比较如表4所示，作者的HIT实现了最佳的MOTA和有希望的IDF1指标。特别是，HIT与遵循混合 Pipeline 并使用额外的外观特征和CMC模块的GIAOTracker在关联能力上相当。

picture.image

*比较第1行和第4行，一致运动（CM）分别将MOTA和IDF1提高了0.31和0.28，这证明它可以增强第一层的关联准确性。 *比较第7行和第8行，一致IoU（CI）可以进一步提高IDF1 0.72。请注意，当计算基于IoU的指标时，它也会损害MOTA，因为也存在“目标大小不一致”的问题，引入CI导致FP（假阳性）从2,346增加到2,657。即便如此，作者保留了这种方法，因为它可以提高整体跟踪性能。

集成作者将作者的 Baseline 框架与另外七个代表性跟踪器集成，包括基于运动的SORT和ByteTrack，基于外观的FairMOT、MOTDT和DeepSORT，以及基于学习的TransTrack和TrackFormer。结果如表7所示。为了比较，还包含了插值方法GSI [14]。引入HIT后， Baseline 跟踪器的明显改进可以观察到，特别是对于IDF1。此外，联合应用HIT和插值（即HIT），HOTA指标从1.43增加到3.03。

picture.image

unset

unsetConclusionunset

unset

在本文中，作者提出了分层交并比（IoU）跟踪框架HIT，它基于轨迹片段间隔进行分层关联。实验证明了其相对于先前多阶段或基于窗口方法的优势。

然而，这个流程面临着三个不一致性问题，即目标大小不一致、摄像机移动不一致、分层线索不一致。

为了解决这些问题，作者提出了三个相应的解决方案以实现更可靠的关联。

此外，作者证明了HIT可以与任何其他跟踪器集成，以改进结果，无论它们是基于启发式还是基于学习。

尽管它仅依赖于IoU进行关联，但作者的HIT在四个数据集上均取得了令人鼓舞的性能，即MOT17、KITTI、DanceTrack和VisDrone，证明了其有效性和鲁棒性。

unset

unset参考unset

unset

[1].Hierarchical IoU Tracking based on Interval.

点击上方卡片，关注「AI视界引擎」公众号

北邮提出分层交并比（IoU）跟踪框架HIT，实现统一的分层跟踪 ！

unset

unset

unset

unset

unset

unset

unset

unset

unset

unset

unset

unset

unset

unset