遮挡不再成难题！GRASPTrack横空出世！Voxel化3D点云让遮挡追踪准确率飙升12% - 文章 - 开发者社区

picture.image

精简阅读版本

本文主要解决了什么问题

1. 单目视频中的多目标跟踪（MOT）受到遮挡和深度模糊问题的根本性挑战，当不同深度的多个物体在2D图像平面中重叠时，会导致严重的身份切换问题。
1. 传统的检测后跟踪（TBD）方法由于缺乏几何感知能力，难以解决遮挡和深度模糊问题，这些方法通常仅依赖于2D边界框检测和IoU等指标进行逐帧关联。
1. 精确建模运动的问题，尤其是沿相机光轴运动的物体可能经历显著的3D运动但2D位置变化极小，导致速度估计错误和关联失败。
1. 现有的从2D特征推理伪深度或使用单目深度估计模型的方法存在局限性，要么依赖较强的场景假设产生不精确的深度估计，要么从整个2D边界框中提取3D特征引入背景噪声。

本文的核心创新是什么

1. 提出了GRASPTrack，一个新颖的深度感知多目标跟踪框架，将几何推理集成到跟踪流程中。利用单目深度估计和分割Mask从2D检测中重建高保真度的3D点云，并将这些点云Voxel化以实现基于Voxel的3D IoU进行目标关联。
1. 提出了深度感知自适应噪声补偿（DANC），一种动态卡尔曼滤波过程噪声调整机制，根据遮挡的严重程度动态调整卡尔曼滤波器中的过程噪声协方差，确保在不确定性下进行更保守和可靠的状态更新。
1. 提出了深度增强的以观测为中心的动量（DOCM），将运动方向一致性建模从2D空间扩展到3D空间，通过使用完整的3D状态向量计算运动方向一致性，提供更鲁棒的运动线索。
1. 将卡尔曼滤波器状态向量扩展以包含物体深度及其速度，实现3D感知运动建模，使卡尔曼噪声能够进行深度感知调整。

结果相较于以前的方法有哪些提升

1. 在MOT17和MOT20数据集上，GRASPTrack表现出优异的性能，分别达到了66.1和64.5的HOTA得分，表明在复杂遮挡场景中具有良好的效率和鲁棒性。
1. 在DanceTrack数据集上，GRASPTrack获得了65.3的HOTA分数，证明该方法能够有效处理具有多样运动和遮挡的挑战性场景。
1. 消融研究表明，每个提出的组件（Voxel-Based 3D IoU、DANC和DOCM）都为基线性能提供了显著改进，特别是DOCM的集成提供了最显著的性能提升，有效捕捉了复杂的运动模式。
1. Mask引导的3D点云生成策略相比完整边界框方法，HOTA得分提高了1.1%，有效消除了背景噪声和遮挡干扰，生成了更干净的3D点云，实现了更准确的基于Voxel的3D IoU计算。

局限性总结

1. 计算效率问题：当Voxel网格大小参数设置过小时，会导致计算开销显著增加，FPS降至9.3，影响实时性。
1. 深度估计依赖性：该方法依赖于单目深度估计模型生成的深度图，如果深度估计不准确，可能会影响整个跟踪性能。
1. 参数敏感性：遮挡敏感度因子的选择对跟踪性能有显著影响，需要根据不同场景进行调整，参数过小或过大都会导致性能下降。
1. 相机内参依赖：由于评估的视频序列缺乏相机内参，需要通过交互式对齐投影的地面网格与每张图像来估计它们，可能引入额外的误差。

深入阅读版本

导读

单目视频中的多目标跟踪（MOT）受到遮挡和深度模糊问题的根本性挑战，而传统的检测后跟踪（TBD）方法由于缺乏几何感知能力，难以解决这些问题。为应对这些局限性，作者提出了GRASPTrack，这是一个集成了单目深度估计和实例分割的新型深度感知MOT框架，将其整合到标准的TBD流程中，从2D检测结果生成高保真度的3D点云，从而实现显式的3D几何推理。这些3D点云随后被 Voxel 化，以实现精确且鲁棒的基于 Voxel 的3DIoU（IoU）进行空间关联。为进一步增强跟踪鲁棒性，GRASPTrack引入了深度感知自适应噪声补偿，根据遮挡严重程度动态调整卡尔曼滤波过程噪声，以实现更可靠的状态估计。此外，作者提出了深度增强的以观测为中心的动量，将运动方向一致性从图像平面扩展到3D空间，以改善基于运动的关联线索，特别是对于具有复杂轨迹的物体。在MOT17、MOT20和DanceTrack基准数据集上的大量实验表明，GRASPTrack取得了具有竞争力的性能，显著提高了在频繁遮挡和复杂运动模式的复杂场景中的跟踪鲁棒性。

引言

多目标跟踪（MOT）是计算机视觉领域的一项关键任务，具有广泛的应用，例如自动驾驶[1]、机器人导航[2]和体育分析[3]。大多数MOT方法通常遵循跟踪检测（TBD）范式，其中目标在每个帧中独立检测，并根据运动和外观线索跨帧关联。这些MOT方法通常依赖于2D边界框检测，并通过IoU（IoU）等指标进行逐帧关联。尽管这些方法效率较高，但它们本质上缺乏几何感知能力，使其容易受到目标交互、深度模糊和遮挡的影响。

当前多目标跟踪方法在实际场景中面临诸多挑战。一个关键问题是遮挡。当不同深度的多个物体在2D图像平面中重叠时，即使是短期的部分遮挡也可能导致严重的重叠，从而引发身份切换问题，而基于IoU的匹配方法难以有效解决。另一个重要挑战是精确建模运动。例如，沿相机光轴运动的物体可能经历显著的3D运动，但2D位置变化极小，这会导致速度估计错误和关联失败。为缓解这些问题，已有若干工作[4], [5]尝试从2D特征中推理伪深度。然而，这些方法依赖于较强的场景假设，通常会产生不精确的深度估计。此外，其他方法[6], [7]使用单目深度估计模型获取深度图，但通常从整个2D边界框中提取3D特征。这一过程引入了来自背景甚至遮挡物体的显著噪声，降低了物体3D表示的质量。

为解决这些局限性，本研究提出了一种深度感知的多目标跟踪（MOT）框架，该框架明确将几何推理融入跟踪流程，命名为GRASPTrack。GRASPTrack利用单目深度估计和分割的先进模型，从单张图像中丰富场景理解。具体而言，作者使用分割模型为每个目标生成精确的实例 Mask 。该 Mask 指导从单目深度估计模型生成的密集深度图中创建干净、高保真度的3D点云。为增强空间匹配，这些点云被转换为 Voxel 表示，从而实现基于 Voxel 的3DIoU（IoU），以实现鲁棒的关联并更准确地反映其真实空间范围。

此外，作者增强了存在遮挡情况下的运动建模。传统的卡尔曼滤波器[8]依赖于固定的过程噪声假设，无法适应遮挡引入的不确定性增加。作者提出了深度感知自适应噪声补偿（DANC）方法，根据遮挡的严重程度动态调整卡尔曼滤波器中的过程噪声协方差，确保在不确定性下进行更保守和可靠的状态更新。此外，OC-SORT[9]中引入的以观测为中心的动量（OCM）利用运动方向一致性来提高关联鲁棒性。作者引入了深度增强的以观测为中心的动量（DOCM），将运动方向一致性建模从2D空间扩展到3D空间。通过使用完整的3D状态向量计算运动方向一致性，GRASPTrack提供了更鲁棒的运动线索，从而实现更可靠的数据关联。作者在多个具有挑战性的数据集上评估了GRASPTrack，例如MOT17[10]、MOT20[11]和DanceTrack[12]。实验结果表明，GRASPTrack在检测跟踪方法中取得了极具竞争力的性能。

本研究的主要贡献如下：

• 作者提出了GRASPTrack，一个新颖的深度感知多目标跟踪（MOT）框架，该框架将几何推理集成到跟踪流程中，显著增强了遮挡情况下的鲁棒性。作者利用单目深度估计和分割 Mask 从2D检测中重建高保真度的3D点云。这些点云被 Voxel 化以实现基于 Voxel 的3DIoU（IoU）进行目标关联，而 Mask 引导的细化有效抑制了背景和遮挡噪声。
• 作者提出了DANC，一种动态卡尔曼滤波过程噪声调整机制，该机制考虑了遮挡的严重程度。此外，作者通过使用深度信息扩展了卡尔曼滤波状态向量，以实现在3D空间中进行精确的空间状态估计。
• 作者提出DOCM来扩展3D空间中的运动方向一致性，以在复杂场景下改进基于运动的关联。

在具有挑战性的基准数据集上进行了广泛的实验结果和比较。

背景和相关工作

A. 基于检测的跟踪

当前许多多目标跟踪方法遵循TBD范式[9][13]-[15]。这些方法使用检测器在每一帧中检测目标，并在不同帧之间进行关联。早期的TBD方法，如SORT[13]，依赖于卡尔曼滤波器进行运动预测，并使用预测框与检测框之间的IoU进行关联。DeepSORT[16]在代价矩阵中引入了基于ReID的外观相似性，以增强鲁棒性并处理IoU失效的长期遮挡。ByteTrack[14]引入了一种简单有效的启发式方法，将低置信度检测单独关联，以在遮挡期间恢复目标。OCsORT[9]通过改进卡尔曼滤波器中的线性运动假设，增强了处理遮挡的鲁棒性。Deep OC-sORT[17]集成了外观特征和相机运动补偿。UCMCTrack[18]提出了一种通过用地面平面上的映射马氏距离替换标准IoU度量来处理相机运动的目标跟踪方法。TBD方法表明，强检测器与简单关联策略的结合可以产生具有竞争力的跟踪性能。因此，在本研究中，作者选择遵循TBD范式。

B. 运动目标跟踪中的深度信息

将深度信息作为空间上下文的一种形式是增强多目标跟踪鲁棒性的关键策略，尤其在拥挤场景中。在3D多目标跟踪（3D MOT）领域，AB3DMOT [19] 和 CenterPoint [20] 等跟踪器利用LiDAR等显式3D传感器在真实3D空间中跟踪目标。然而，这些方法依赖于专业且昂贵的硬件，限制了其广泛应用。这促使研究者开发能够从更易获取的单张2D图像中推理3D信息的方法，该图像通过透视投影隐式包含深度线索。单摄像头方法主要遵循两个方向。第一个方向使用伪深度启发式方法从目标在2D帧中的位置推理相对深度顺序。SparseTrack [4] 利用伪深度沿深度轴分离目标，并将检测到的目标划分为多个不同深度的Sparse子集。CAMOT [5] 将伪深度状态直接整合到其卡尔曼滤波器中。第二个方向是使用单目深度估计模型生成深度图。QuoVadis [6] 使用这些图创建鸟瞰视图（BEV）表示进行预测。然而，这些先前研究存在局限性，因为它们要么依赖粗略的几何启发式方法，要么仅将深度信息作为辅助线索来提高跟踪性能。在本研究中，作者通过整合更精确的深度信息来增强3D几何推理的更鲁棒和全面的集成，从而提高跟踪器在复杂和遮挡场景中的鲁棒性。

方法

GRASPTrack通过一个由三个主要组件组成的深度感知框架增强了TBD范式。作者首先引入一个深度感知 Voxel 化和3D IoU计算模块，该模块将分割的深度图转换为 Voxel 网格以进行几何匹配。随后是一个将深度信息融入状态预测的DANC模块。最后，一个DOCM模块对3D空间中的运动一致性进行建模。所有组件均围绕深度进行协同设计，形成一个完整的深度感知多目标跟踪框架。

A. 深度感知 Voxel 化与3D IoU

如图2(c)所示，GRASPTrack从单目RGB图像中恢复物体的精确3D空间表示。单目图像并行输入两个基础模型：Depth Anything v2 [21]，该模型执行高质量的深度估计，具有增强的跨场景泛化能力和改进的细粒度深度细节重建；以及EfficientTAM [22]，该模型使用框 Prompt 为物体生成分割 Mask 。对于每个输入帧

，作者使用单目深度估计网络估计密集深度图

，具体方法如下：

picture.image

表示深度估计模型。

给定一组来自检测器和跟踪器的边界框

，其中每个

，作者使用EfficientTAM获取相应的二值分割 Mask ，即

其中

表示像素

在时间

属于目标

。

1. Mask 引导投影：利用估计的深度图

和 Mask

，作者通过将 Mask 区域内的像素点投影到相机坐标系来重建每个目标的3D点云，使用标准的相机模型。对于分割 Mask 内的每个像素点，使用标准的针孔相机投影方程计算其3D坐标：

其中

是投影平面的像素坐标，

是深度值，

是对应物体的 Box 的中心点，而

分别是

和

方向的焦距。对于时间

时的每个物体

，作者通过收集其分割 Mask 内的所有有效投影点来构建一个3D点云，即

其中

表示目标分割 Mask 内的像素，而

确保深度值有效。这种公式确保仅考虑目标精确分割边界内的有效深度值，相较于使用整个边界框，能够提供更精确的3D表示。这种 Mask 引导投影消除了背景和遮挡像素，确保仅有效目标区域对3D几何形状有贡献。

1. Voxel 化过程：虽然3D点云

提供了细粒度的几何细节，但传统的3DIoU（IoU）计算通常依赖于拟合粗略的3D边界框，无法捕捉真实物体形状[23]。为了更好地保留几何保真度同时实现高效的成对比较，作者采用基于 Voxel 的表示方法，将每个

离散化为一个二进制占用网格。这使作者能够在体积形状上直接计算3DIoU（IoU），从而得到更准确和鲁棒的相似性度量。与检测框架[24]中采用的 Voxel 化方法不同——该方法仅用于特征提取，然后再回归边界框——作者的 Voxel 网格在评估阶段独占使用。每个 Voxel 存储一个二进制占用值，并不参与网络训练或推理。

为确保不同帧和物体对之间的一致 Voxel 化，作者建立统一的3D坐标系。给定两组分别表示检测和跟踪的3D点云

和

，作者计算整体空间边界：

其中

定义了包含两个点云的全局3D边界体积。这种方式确保所有点云共享相同的 Voxel 坐标。

作者将连续的3D空间离散化为规则的 Voxel 网格，使用 Voxel 大小参数

，该参数决定了离散化的空间分辨率。 Voxel 大小

控制了计算效率与空间精度之间的基本权衡，较小的值提供了更细的粒度，但增加了内存使用和计算时间。在作者的实现中，作者设置

，以在多目标跟踪场景中典型目标的尺度下平衡准确性和效率。

对于每个点云

，作者将3D坐标转换为离散 Voxel 索引，具体方法如下：

其中

是一个3D点，而

表示相应的 Voxel 索引。为确保索引有效，作者应用边界约束以使所有索引保持在计算网格维度内。由于多个点可能映射到同一个 Voxel ，作者通过仅保留唯一的 Voxel 索引来执行去重操作。

作者创建了一个Sparse二进制占用栅格

，其中每个 Voxel 如果包含至少一个来自物体的点则被 Token 为占用。这种Sparse表示对于计算效率至关重要，因为典型的物体点云仅占总 Voxel 空间的一小部分。生成的占用栅格提供了一种离散的 Voxel 表示，能够捕捉每个物体的基本3D结构，同时支持高效的交集和并集操作以用于IoU计算。基于这种Sparse Voxel 编码，作者接下来描述了如何高效地计算 Voxel 化物体之间的3D IoU。

1. 基于 Voxel 的3DIoU计算：给定两个分别表示物体i和物体j的 Voxel 化占用网格

和

，作者根据适用于 Voxel 化体积的标准IoU公式，计算物体间的3DIoU，如图1所示，即，

picture.image

交集

统计了同时被两个网格占据的 Voxel 数量，该计算通过在所有 Voxel 位置上执行逐元素逻辑与操作实现。类似地，并集

统计了被任一网格占据的 Voxel 数量，通过逐元素逻辑或操作获得。基于 Voxel 的IoU计算相较于传统的2D IoU具有多项优势。首先，它捕捉精确的体积重叠而非仅投影面积重叠，使其对视角变化和相机运动具有鲁棒性。其次，通过考虑3D空间占据情况，它自然地处理复杂物体形状和部分遮挡。

B. 深度感知自适应噪声补偿

当前MOT方法[9], [13]-[15]中的传统KF使用固定的过程噪声参数，这限制了跟踪算法在遮挡和几何模糊条件下的鲁棒性。被遮挡的物体可能表现出不可预测的运动模式，而简单的恒定速度模型无法捕捉这些模式。为了在这样的挑战性条件下提升跟踪性能，作者提出了DANC，它能够动态调整过程噪声参数。

1. 扩展状态表示。作者将卡尔曼滤波器状态向量扩展以包含物体深度及其速度，从而实现3D感知运动建模。

其中

表示图像坐标中的目标中心，

是目标区域，

是长宽比，

是估计的目标深度。术语

表示相应的速度。深度值

是通过首先使用 EfficientTAM 在检测边界框内生成精确的目标分割 Mask ，然后从 Depth Anything v2 提供的深度图中计算相应分割区域的平均深度来获得的，确保深度表示仅聚焦于目标实际几何形状而非背景干扰。扩展状态表示使卡尔曼噪声能够进行深度感知调整，以在目标快速接近或远离时保持稳定的预测。

1. 遮挡状态确定：作者根据检测目标的遮挡程度动态调整过程噪声协方差。当目标被遮挡时，其运动模型和测量的可靠性均降低，导致卡尔曼滤波器的不确定性增加。令

表示当前帧中的所有检测，其中

为检测总数。为确定目标

是否被遮挡，计算

与其他所有目标

之间的IoU（IoU）。遮挡状态采用基于深度的标准进行判定：

其中

和

分别是物体

和

的边界框，

和

是它们对应的深度值，

是空间重叠阈值。这一过程确保对物体

与帧内所有其他物体进行全面评估，以综合检测遮挡场景。

1. 自适应噪声缩放：对于被遮挡的物体，作者自适应地缩放过程噪声以解释不确定性的增加。作者将遮挡分数

计算为与所有遮挡物体之间的最大IoU重叠。

自适应噪声缩放

然后根据遮挡强度确定：

其中

是遮挡敏感度因子，用于控制噪声缩放的放大强度，以响应遮挡的严重程度。因此，过程噪声协方差相应地调整如下：

其中

表示默认噪声。该机制在存在遮挡的情况下确保更保守的更新。通过将过程协方差乘以尺度因子

，故意扩大预测的不确定性，从而提高卡尔曼增益，使得在物体被遮挡时新测量值占据主导地位。由于

与遮挡分数线性增长，滤波器在严重遮挡下能够平滑地从正常置信度模式切换到更谨慎的模式，而无需重新调整基础噪声矩阵。

C. 深度增强的以观察为中心的动量

在OC-SORT中引入的OCM考虑了在关联中对物体运动方向一致性的建模。原始的OCM使用2D中心坐标计算运动方向角度，其中角度

的计算公式为

，用于表示在不同时间步长下代表物体中心坐标的两个点

和

。尽管在2D场景中有效，但这种方法在深度变化显著时无法充分建模运动一致性。然而，OCM仅依赖于物体在2D图像平面上的速度方向，并无法捕捉与深度相关的运动一致性，尤其是在物体在深度轴上表现出显著位移时。

为解决此问题，作者提出了在3D空间中运行的DOCM。作者不仅从2D中心位移中计算运动方向，还扩展了表示方法，以包含深度感知轨迹。设

和

分别表示在两个不同时间步长下物体的2D中心坐标和深度值。相应的3D位移向量

定义为：

作者通过测量历史和当前3D运动向量之间的余弦相似度来评估运动一致性：

其中

连接同一轨迹上的两个先前观测，而

将最后一个轨迹位置与当前检测连接起来。

实验

A. 数据集和评估指标

1. 数据集：作者在三个MOT基准数据集上评估了作者提出的框架：MOT17 [10]、MOT20 [11] 和 DanceTrack [12]。MOT17 和 MOT20 数据集是MOT领域常用的标准基准，包含各种具有挑战性的真实场景，如密集人群、频繁遮挡和多样化的摄像机角度。MOT17 提供从不同视角捕获的带标注的行人跟踪数据，而 MOT20 则呈现更密集的场景，用于评估在极端遮挡和人群条件下跟踪方法的性能。相比之下，DanceTrack 专门针对具有统一外观和复杂、多样化舞美表演场景中具有挑战性的跟踪场景。利用这些多样化的基准数据集，可以对GRASPTrack在各种和真实的跟踪挑战进行全面评估。
1. 评估：作者采用MOT中常用的标准评估指标，包括MOTA [32]、IDF1 [33]、HOTA [34]和AssA [34]。MOTA评估整体跟踪精度，结合检测精度与身份一致性，而IDF1专门衡量在跟踪过程中保持目标身份的准确性。AssA用于评估关联性能。HOTA提供均衡的评估，同时捕捉关联精度和检测性能。
1. 实现细节：作者提出的框架基于OC-SORT基准，集成了用于深度估计和分割的附加模块。具体而言，作者使用预训练的ViT-B Depth Anything v2模型[21]进行零样本单目深度估计，并使用ViT-S EfficientTAM[22]进行精确实例分割。深度图通过Depth Anything v2预测，并线性缩放到区间[0, 255]。为了进行公平比较，作者使用ByteTrack[14]开发的公开可用的YOLOX[35]检测器权重。由于评估的视频序列缺乏相机内参

，作者首先通过交互式对齐投影的地面网格与每张图像来估计它们，遵循UCMCTrack[18]中介绍的方法。基于 Voxel 的3DIoU计算中， Voxel 大小参数

设置为0.4，以平衡计算效率和精度。对于作者的深度感知自适应噪声补偿（DANC），控制噪声缩放放大强度的遮挡敏感度因子

设置为3。用于基于3DIoU确定成对遮挡的空间重叠阈值

设置为0.6。在关联阶段，作者根据ByteTrack分别对高分和低分检测结果执行独立的匹配过程，阈值分别设置为0.6和0.1。作者还采用了与DiffMOT[30]中相同的设置遵循的ReID模型。所有实验均使用GeForce NVIDIA A100 GPU进行。

B. 与最先进方法的比较

1. MOT挑战：在表1中，作者将GRASPTrack的性能与最先进的TBD方法在MOT17和MOT20数据集上的表现进行了比较。为确保公平性，所有方法均使用相同的检测结果和标准化的评估协议进行评估。从比较结果来看，GRASPTrack在MOT17和MOT20上均表现出优异的性能，分别达到了66.1和64.5的HOTA得分。这些结果表明，GRASPTrack在复杂遮挡场景中具有良好的效率和鲁棒性。
1. DanceTrack.: 为了展示GRASPTrack在复杂和遮挡场景中的性能，作者在 DanceTrack 数据集上测试了GRASPTrack，如表2 所示。作者的结果表明与其他方法相比具有优越的性能，并获得了 65.3 的 HOTA 分数。结果表明GRASPTrack能够有效处理具有多样运动和遮挡的挑战性场景。

picture.image

C. 消融研究

为验证作者提出的深度感知多目标跟踪框架的有效性，作者在 DanceTrack 的验证集上进行了全面的消融实验。消融实验旨在分析四个关键方面：(1) 每个提出组件的贡献，(2) Voxel Grid Size 参数的影响，(3) 遮挡敏感度因子的影响，以及 (4) 3D 点云生成策略的影响。

1. 组件消融：在表3中，作者通过逐步将GRASPTrack的每个提出组件集成到OC-sORT Baseline 中，系统地评估了每个组件的贡献。三个关键创新是VoxelBased 3D IoU、DANC和DOCM。作者的实验表明，每个组件都为 Baseline 性能提供了显著改进。Voxel-Based 3D IoU计算通过用体积相似性度量替代传统2D IoU，增强了目标关联，从而在存在遮挡的复杂场景中实现鲁棒跟踪。DANC通过根据检测到的遮挡事件动态调整过程噪声参数，提高了跟踪的鲁棒性，这在遮挡场景中尤其有益。DOCM的集成通过将运动一致性建模从2D空间扩展到3D空间，提供了最显著的性能提升，有效捕捉了复杂的运动模式。这三个组件的综合效果形成了一个全面的深度感知MOT框架，在DanceTrack数据集上显著优于 Baseline OC-SORT方法。
1. Voxel 网格大小：在表4中，作者进行了广泛的实验以确定作者的基于 Voxel 的3D IoU的最优 Voxel 网格大小参数

，系统地将其值从0.2变化到1.0，以0.2为步长。实验结果表明，

在DanceTrack数据集上实现了最高的跟踪性能，在HOTA（62.8）、AssA（49.2）和IDF1（64.2）指标之间取得了最佳平衡。当

过小（0.2）时， Voxel 网格变得过于精细，导致Sparse的占用模式，对深度估计噪声敏感，并导致计算开销增加，如最低的FPS（9.3）所示。相反，当

过大（0.8-1.0）时， Voxel 网格变得过于粗糙，丢失了用于精确目标区分的关键空间细节，尽管FPS性能有所提高（14.8至15.1 FPS）。最优值0.4不仅提供了足够的空间分辨率以捕获有意义的体积重叠，并保持对深度估计不确定性的鲁棒性，还实现了合理的计算效率（13.1 FPS）。

结论

本文提出GRASPTrack，一种基于深度感知的多目标跟踪框架，该框架结合单目深度估计和实例分割技术，为单个目标重建高保真度的3D点云，从而实现超越2D平面的显式3D几何推理。通过将 Mask 引导的点云 Voxel 化，作者计算基于 Voxel 的3D IoU，以在严重遮挡情况下实现鲁棒的目标关联。此外，作者引入了DANC，该技术根据遮挡严重程度自适应地缩放卡尔曼滤波过程噪声，以及DOCM，该技术将深度融入运动建模以增强轨迹连续性。大量实验表明，与当前最先进方法相比，GRASPTrack具有有效性和鲁棒性。

1. 遮挡敏感度因子：作者通过系统地调整深度感知卡尔曼滤波机制中的遮挡敏感度因子

的值（从1到5），研究了其对跟踪性能的影响。如表

所示，作者的结果表明

在 DanceTrack 数据集上提供了鲁棒跟踪性能的最佳平衡。该参数控制遮挡事件中过程噪声放大的强度。当

过小（1-2）时，噪声补偿机制不足以应对遮挡事件中不确定性的增加，导致运动预测过度自信且无法适应不可预测的运动模式。相反，当

过大（4-5）时，噪声补偿过度，导致卡尔曼滤波器过于宽松，可能将错误的检测与现有轨迹关联，引发身份切换。最优值3有效地解决了遮挡引入的运动不确定性，同时保持了足够的判别能力以实现精确的数据关联，尤其适用于群体舞蹈场景中典型的动态和交互式运动模式。 2. 4. 3D点云生成策略：在表6中，作者通过将其与替代方法进行比较，进行了实验以验证作者 Mask 引导的3D点云生成策略的有效性。作者比较了两种不同的策略：(1) 使用EfficientTAM进行 Mask 引导投影以获取物体的分割 Mask （GRASPTrack）和(2) 使用所有检测框内的像素进行完整边界框投影。作者在DanceTrack数据集上的实验结果表明，与完整边界框方法相比， Mask 引导方法取得了最佳性能，HOTA得分提高了

。 Mask 引导策略有效消除了背景噪声和遮挡干扰，从而生成了更干净的3D点云，并实现了更准确的基于 Voxel 的3D IoU计算。相比之下，完整边界框方法受到背景污染的影响，特别是在物体经常重叠的拥挤场景中。此外，作者观察到更强的基础检测器显著增强了GRASPTrack的有效性。详细的实验结果和消融研究在附录中提供。

参考

[1]. GRASPTrack: Geometry-Reasoned Association via Segmentation and Projection for Multi-Object Tracking