最小化特征提取开销,改进多目标跟踪的一种选择方法! - 文章 - 开发者社区

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

想要了解更多：

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」

行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码，加入「 集智书童-知识星球 」，日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑，期待交流！

免责声明

凡本公众号注明“来源：XXX（非集智书童）”的作品，均转载自其它媒体，版权归原作者所有，如有侵权请联系我们删除，谢谢。

picture.image

提取并匹配重识别（ReID）特征被许多最先进的多位目标跟踪（MOT）方法广泛使用，尤其是在面对频繁和长期遮挡时非常有效。虽然端到端的目标检测和跟踪最近是研究重点，但在MOT17和MOT20等基准测试中，它们仍未超过传统方法的表现。

因此，从应用角度来看，具有独立检测和嵌入的特征提取方法仍然是准确度、模块化和实现简便的最佳选择，尽管由于涉及的开销，它们在边缘设备上的实用性不如其他方法。

在本文中，作者研究了一种最小化特征提取开销的方法，同时保持准确性、模块化和实现简便。这种方法可以集成到各种最先进的MOT方法中。

作者通过将其应用于StrongSORT和Deep OC-SORT来展示其有效性。在MOT17、MOT20和DanceTrack数据集上的实验表明，作者的机制在遮挡期间保持了特征提取的优点，同时显著减少了运行时间。

此外，通过在特征匹配阶段防止混淆，尤其是对于变形和外观相似的情况，提高了准确性，这在DanceTrack中非常常见。

除此之外，作者的研究也得到了GitHub用户的贡献，链接如下：https://github.com/emirhanbayar/Fast-StrongSORT和https://github.com/emirhanbayar/Fast-Deep-OC-SORT。

1 Introduction

目标跟踪（Multiple Object Tracking，MOT）是指在连续帧中维持预定义类别的目标的唯一性 [12]。跟踪-通过检测（Tracking-by-detection，TbD）长期以来一直是该领域的主导范式。遵循这种范式的方法将跟踪划分为两个步骤：（1）帧内目标检测，以及（2）数据关联，以将检测结果通过匈牙利算法 [20]匹配形成轨迹 [39]。实时TbD方法通常为每个跟踪目标持有一个卡尔曼滤波器 [19]，将目标的估计状态与检测结果通过匈牙利算法匹配更新。匹配算法的代价矩阵可以基于目标的所在位置、运动、外观或者多种因素的组合。

归一化重新识别（ReID）特征广泛用于当前最先进方法的匹配阶段，由于其对遮挡和杂乱的鲁棒性。这些依赖计算密集型卷积神经网络（CNNs）进行特征提取的方法，在资源受限的硬件上执行时，极度降低了每秒帧数（FPS） [14]。相反，现有的MOT方法优先考虑在预录的数据集上实现高精度的实时图像流，但这种实时性使目标的位置和运动变化更加显著 [13, 58]，导致预测和匹配步骤的误差增大 [13, 58]，使这些方法在边缘人工智能应用中实用性降低。

图1：在场景中，绿色框是跟踪目标的边界框。蓝色框是没有遮挡风险的检测。黄色框是有遮挡风险的检测。所提出机制的起点是：为什么作者需要提取蓝色框的特征，而匹配通过位置信息的风险较小？由于单独检测和跟踪产生的特征提取开销过大。关节检测和嵌入（JDE）[49] 是一种这样

picture.image

2 Related Work

Tracking-by-Detection (TbD)

遵循TbD范式的方法有两个关键组成部分：目标检测和物体关联[16, 30]。在这些方法中，tracklets的更新仅取决于匹配的检测结果。因此，目标检测步骤是不可或缺的。另一方面，物体关联步骤负责确定检测结果与tracklets之间的 correspondence。方法之间的区别在于物体关联步骤的执行方式。

SORT[5]是一种基本方法，它使用卡尔曼滤波器预测物体在下一帧中的位置，并使用匈牙利算法将检测结果与tracklets关联。匈牙利算法的代价矩阵基于检测结果和tracklets的交点(IoU)。然而，IoU代价本身并不足够鲁棒，以应对遮挡和误检。

DeepSORT[50]是SORT的一个扩展，它使用深度神经网络提取检测结果的外观特征，并在匹配阶段的代价矩阵中使用这些特征。由于其对频繁和长期遮挡的鲁棒性，特征提取已成为优先考虑准确度的方法的

Joint Detection and Embedding (JDE)

要消除特征提取的开销，提出了联合检测与嵌入（JDE）[49]的概念，将检测和特征提取集成到一个统一的框架中。童等人[51]在Faster R-CNN [36]中增加了一个全连接分支，以获取ReID特征，并融合了实例分类损失，除了分类和回归损失。JDE [49]方法替换了Faster R-CNN，这是一个两级检测器，被Yolov3 [35]替换；实例分类被基于三角损失的Triplet Loss替换。FairMOT [56]解决由 Anchor 点引起的问题，通过融合实例分类损失，训练了一个无需 Anchor 点的检测器——CenterNet [59]。JDE [49]的概念主要的问题是识别与目标分类任务的竞争。尽管前者任务需要区分相同类别中的实例，后者需要所有相同类别实例共有的通用特征，并且对其他类具有判别力。CSTrack [21]试图解决这个问题，通过将提取的特征通过独立通道分别输入目标的分类和重识别头。虽然CSTrack在关联相关度指标方面有所提高，但在高阶指标如HOTA[23]方面，尤其是在降低检测性能的条件（如模糊和过度遮挡）下，仍落后。

Joint Detection and Tracking without ReID

联合检测与跟踪（即端到端跟踪），旨在通过提出基于数据的运动先验关联来消除ReID特征匹配。Chained-tracker [34]，Tracktor [4]，和TubeTK [33]将每一帧的检测结果进行链式回归以生成轨迹。最近，基于 Transformer 的端到端模型因其能够模拟上下文和时空信息而受到关注。尽管它们在DanceTrack上取得了成功，但在MOT17和MOT20基准测试中仍有所不足。此外，它们以其复杂的训练策略和延长的训练时间而闻名[32, 39]。

Selective Feature Extraction

近年来，Bayar等人提出了一种算法，根据可能出现的候选跟踪let的数量将检测解耦 [2]。通过一个简单的交点与区域（IoU）检查，具有单个可能候选的检测将被从特征提取和匹配中排除，而那些没有或具有多个候选的检测将提取ReID特征。尽管该算法在最小化特征提取的开销的同时保持了模块化，保持了比未进行ReID匹配的追踪器更高的准确性，但与原始方法相比，准确性有所降低。

3 Proposed Method

作者的方法可以应用于任何使用了卡尔曼滤波器的TbD追踪器。这些追踪器通常将每个帧的检测与现有的tracklets进行匹配。这样，tracklets就可以被视为检测的候选项。作者的基准将是如文献[2]中提出的方式，该机制只是用一个候选tracklet检测检测，并豁免其特征提取。在本节中，作者首先检查基础机制及其缺陷，然后引入新的模块来避免它们。

Base Mechanism

在给定的检测中，基本机制计算每个检测与所有已确认的tracklets之间的IoU。已确认的tracklets是与前一帧中的检测至少匹配一次的tracklets。如果恰好存在一个具有IoU大于等于某一阈值的已确认tracklets，那么这个检测被认为是无风险的，可以不使用外貌特征进行匹配；否则，它被视为风险。如果将检测标记为无风险，那么与检测具有最大IoU的tracklet被视为候选物，正如公式1所示，其中ct(d)表示候选检测d。这种方法应用于StrongSORT [12]，其匹配分为两阶段，第一阶段仅取决于外观特征，第二阶段取决于IoU成本。

这种机制存在三个主要缺陷：

在第一阶段的匹配中排除检测可能是不安全的。此外，该方法假设第一阶段仅取决于外观特征，否则可能不适用。
在缺失检测的情况下。与预期的匹配tracklets可以被视为另一个检测的候选。此外，一个tracklets可以被标记为多个检测的候选过于误导地。
通过避免特征提取，这种机制破坏了用于保持长期信息的特征更新[1, 12, 27]机制。

Ensure the Match Instead of Gating

相比之下，非风险检测的目标外观特征直接从其候选项中复制。换句话说，如果在检测中只有一个候选跟踪器，则在匹配期间将外观特性的贡献设置为零。考虑到一些现有的跟踪器[1,12]将外观特征的成本设置为最大，如果重叠度小于某个阈值，这种方法则采取相反的方法。当存在只有一个具有高IoU的跟踪器时，将外观特征的成本设置为零。这样，他们将因为零特征成本和单候选项而进行匹配，仅依赖运动线索。

Aspect Ratio Similarity

为减轻由检测缺失和每个跟踪匹配多个检测点造成的问题，提出了基于长宽比相似度的阈值。如完整的目标检测IoU损失论文中所述，两个边界框的长宽比的相似度计算如下：

如果检测和其候选的长宽比相似度低于阈值。这种匹配被认为是可疑的，该检测被认为是没有特征的危险匹配。

由于长宽比相似度的重要性取决于IoU，作者还采用了完整IoU的方程3。

这种计算的目的是根据重叠度调整阈值。例如，在图2中，如果将（）的阈值设置为0.6， aspect比相似度方面的有效阈值将为蓝色的虚线。当IoU为0或0.2时，阈值为1，无论长宽比如何相似，都被标记为危险目标。因此，还为IoU隐式设置了一个 lower阈值。

picture.image

Feature Decay

正如之前提到的，如果与相关检测相关联的检测具有特征提取，则会更新跟踪器的特征；否则，它将保持不变。特征的跟踪器可以根据实现具有不同的含义。如果跟踪器使用像DeepSORT [50]这样的特征银行机制，则机制的唯一副作用将是将新特征添加到特征库的低频率，可以将其看作是从具有较高时间间隔的环境中采样。最近的跟踪器[1, 27, 12]，通常将特征作为以前帧的指数移动平均(EMA)。通过赋予当前特征向量()高权重()[4]，并赋予新到来的特征()[4]低权重，就像方程(4)所示。这样，随着帧的通过，特征在平均指数上的重要性逐渐衰减。

在所提出的机制中，由于在无特征匹配时没有更新特征，早期特征的重要意义并不会衰减。为了防止这一点，作者建议通过计算自上次特征提取以来帧数的指数的的幂，来模拟这个衰减效果。这样，特征在平均指数上的重要性会随着帧的通过而逐渐降低。

picture.image

4 实验

Experimental Setup

作者在StrongSORT [12] 和 Deep OC-SORT [27] 两种方法上实现了该机制，分别命名为 Fast-StrongSORT（FSS）和 Fast-Deep-OC-SORT（FDOS）。作者保留了原始方法的参数和步骤不变。Deep-OC-SORT 将检测结果划分为低置信度和高置信度检测，并在匹配阶段根据 ByteTrack [55] 的方法以不同的方式使用它们。该机制仅应用于高置信度的检测。StrongSORT 和 Deep OC-SORT 都使用 YOLOX [15] 作为目标检测器，并且使用 BoT [25] 和 SBS [17] 方法作为特征提取器训练 ResNest50 [54]。StrongSORT 为 MOT17 和 MOT20 数据集提供预检测的检测结果和预提取的特征。作者使用与 OC-SORT 共享权重的权重在 DanceTrack 数据集上获得检测结果。Fast-StrongSORT 实时运行实验。实验在运行时在 NVIDIA Jetson TX2 上进行，具有 8GB 内存和 256 CUDA 核心。

为了使作者的结果与原始方法具有可比性，作者在不包含运行时测量的实验中使用原始 StrongSORT 的预提取特征和检测。

实验的主要目标是确定在不失去任何 HOTA [23] 分数的情况下可以实现多少 FPS 增益。原始方法论文中的其他指标，如 AssA [23] 和 IDF1 [37]，也将进行检查。

The Best Configuration

图3显示了由机制引入的不同参数组合的HOTA分数。一般而言，较小的IoU阈值和较高的IoU阈值会导致HOTA分数的减少，分数最高达到0.2附近。乍一看，这似乎与直觉相悖，因为降低IoU阈值会增加具有提取特征的检测数量。然而，同时也有越来越多的可能候选检测出现，这强制了检测缺失和每个tracklet（参见3.3）的多次检测的负面影响。另一方面，随着IoU阈值的增加，某些具有显著重叠的其他tracklets将被忽略。这些情况将在4.3中进一步解释。

picture.image

考虑到在MOT17-Val上的FDOS，作者在MOT17-Val中的不同序列上检查了HOTA分数的下降原因，并得到了2的结果。两个序列，即MOT17-02和MOT17-10是导致这种下降的主要原因。在两个序列中，只负责降分的单一tracklet。因此，目前作者正在忽略这个下降。

作者还观察到，ARS阈值不仅对FDOS没有贡献，而且在FSS上是有益的。原因在于原方法的匹配策略。由于StrongSORT仅匹配特征而忽视第一阶段的IoU，根据框形进行阈值至关重要。另一方面，Deep-OC-SORT在一轮匹配中同时使用IoU和特征距离。由于具有不同形体的框形的交集更少，Deep-OC-SORT在匹配过程中将这个阈值隐式地进行了处理。因此，在任何情况下进行阈值处理都不会产生负面影响，但可能有正面效果。

表2：在MOT17序列上 Deep-OC-SORT和FDOS 0.2的性能比较。

picture.image

Effect of Feature Decay

图7展示了使用FSS 0.2和ARS的两种示例输出结果，一种是特征衰减的情况，另一种是不衰减的情况。ID为17的人在帧387进入场景。他的特征在387-388-389中被提取出来。在389和477之间，他的检测结果是非风险的，特征不可更新。在477和493之间，他的检测结果总是有毒性的或者缺失的，这意味着EMA的提取决策和 alpha 值在这两种情况下是相同的。从这一场景中可以看出特征衰减的影响。在第一种情况中，帧389的特征得到了保留，并且在帧477的更新中被赋予很高的权重。在帧477和493之间的一段时间内，特征向量的主要贡献来自于帧389。正如1中所讨论的，特征匹配相对于IoU匹配的一个优点就是对长期遮挡的鲁棒性。因此，在遮挡周期即将到来之前匹配特征，以及遮挡结束后立即匹配特征，是特征衰减的目标，这是非常直观的。

picture.image

Runtime Analysis

图4和表1中的条形图展示了不同IoU阈值的FPS和HOTA的变化，以及不同时间段内的占比。正如第一部分所述，特征提取占用了大量的时间。作者的机制确实减少了特征提取阶段的总时间，并且增加了预期的FPS。0.2 IoU阈值似乎是提高HOTA分数的最高阈值，在MOT17-Val和DanceTrack-Val上分别提高了80%和52%。此外，考虑到HOTA的0.98%的降低，MOT17-Val上可以提高234%的FPS，相当于将速度提高三倍。

picture.image

除了特征提取阶段，其他阶段所需时间较少，并且该机制对它们的影响较小。从这个观点，可以推理出运行时间的改进可以表示为特征提取的检测数量占总数的百分比。用这个新的标准，评价可以在不影响工作环境和实现细节的情况下独立进行，这个指标被称为PDE。

表3：PDE与不同IoU阈值下的Accuracy比较

picture.image

图6和表3展示了对于FDOS的不同IoU阈值下，HOTA分数与PDE的关联性。深度-OC-SORT通过结合特征提取和相机运动补偿保留了OC-SORT相同的卡尔曼滤波器，但也增加了嵌入成本。因此，比较FDOS和OC-SORT是可以评估在保留特征匹配优势的同时，将IoU阈值扩展到何种程度的可行方法。从图6可以看出，可以将IoU阈值提高至0.3，即从检测的24%中提取特征，而不牺牲DanceTrack-Val上的任何准确性。此外，从6.84%的检测中提取特征仍然比OC-SORT多2 HOTA分数。在MOT17-Val上，唯一比原方法更好的阈值是0.0，它可以将特征提取减少25.76%，而最佳配置的0.2阈值使得准确性降低了。这个降低在4.2

picture.image