点击下方卡片,关注
「集智书童」
公众号
导读
全景影像,其360°的视野范围,为支持多目标跟踪(MOT)提供了全面的信息,以捕捉周围物体的时空关系。然而,大多数MOT算法针对的是具有有限视野的针孔图像,这限制了它们在全景场景中的有效性。此外,全景图像的失真,如分辨率损失、几何变形和光照不均,阻碍了现有MOT方法的直接应用,导致性能显著下降。
为了解决这些挑战,作者提出了OmniTrack,一个全向MOT框架,该框架集成了Tracklet管理以引入时间线索,FlexiTrack实例用于物体定位和关联,以及Circular Stat E模块以减轻图像和几何失真。这种集成使得在大视野场景下的跟踪成为可能,即使在快速传感器运动的情况下。为了缓解全景MoT数据集的缺乏,作者引入了QuadTrack数据集——一个由四足机器人收集的全面全景数据集,具有广泛的视野、剧烈的运动和复杂环境等多样化挑战。
在公共JRDB数据集和新引入的QuadTrack基准测试上的大量实验证明了所提出框架的领先性能。OmniTrack在JRDB上实现了26.92%的HOTA分数,比提高了3.43%,并在QuadTrack上实现了23.45%,超过了 Baseline 6.81%。
数据集和代码:https://github.Com/xifen523/OmniTrack
- 引言
全景相机,具有360°视场角(FoV),能够捕捉全面的周围信息,对于自动驾驶[10, 70]、机器人导航[63, 67]和人与计算机交互[29, 72]等应用至关重要。对于小型移动机器人,如四足机器人,全景相机特别有利,允许在单个紧凑的设置中实现全面的环境感知,如图1(a)所示。
尽管在多目标跟踪(MOT)方面取得了进展,全景MOT仍然研究不足。现有的MOT算法[14, 50],为针孔相机开发,在全景设置中由于固有挑战(如图1(d)所示,如分辨率损失、几何畸变以及展开后的不均匀色彩和亮度分布)而难以应用。这些挑战通常会导致将基于针孔的算法应用于全景图像时性能下降,限制了其在全景场景感知中的有效性。
为了解决这些挑战,开发一种能够在具有大视场角的全景图像中进行全面感知的MOT算法是一个迫切的问题。为此,本文首次提出了一种名为OmniTrack的全向多目标跟踪框架,专门针对
全景图像中的此类任务。OmniTrack统一了两种主流的MOT范式——基于检测的跟踪(TrackingBy-Detection,TBD)和端到端(End-To-End,E2E)跟踪,并引入了一种反馈机制,该机制能够有效减少快速传感器运动下大视场角中的不确定性,从而实现快速准确的目标定位和关联。
本框架由三个核心组件组成:CircularStatE模块、FlexiTrack实例和Tracklets管理模块。CircularStatE模块旨在减轻广角畸变并增强光照和色彩的一致性。FlexiTrack实例利用物体的时序连续性,引导感知模块关注广视场内的关键区域,并协助定位和关联。这种方法有助于减轻在超广视场中定位物体的困难。Tracklets管理模块收集和管理轨迹数据,为FlexiTrack实例提供先验知识。通过这些组件,OmniTrack统一了两种MOT范式:在Tracklets管理中禁用数据关联会导致端到端跟踪器OmniTrack
,而启用关联则产生TBD风格的跟踪器OmniTrack
。通过采用如图1(c)所示相同的数据关联策略,OmniTrack
的框架实现了显著更强的性能。禁用FlexiTrack实例和Tracklets管理将系统简化为全景目标检测器OmniTrack
,如图1(b)所示。
此外,为了支持全景多目标跟踪(MOT)研究,作者开发了QuadTrack,这是一个使用搭载在四足机器人上的
全景相机收集的数据集。该移动平台仿生步态引入了真实、复杂的运动特性,对现有的MOT算法提出了挑战。QuadTrack在两个城市的五个校园内收集,包括19,200张图像,涵盖了广泛的真实动态场景。与典型的MOT数据集[5, 8, 15, 18, 55, 77]使用静态或线性移动平台不同,QuadTrack为评估在具有快速和非线性传感器运动的宽视场(FoV)场景下的MOT性能提供了一个新的基准。
总体而言,作者的工作有以下贡献:· 为了解决全向多目标跟踪的差距,作者提出了OmniTrack,一个将端到端(E2E)和基于检测(TBD)跟踪范式统一的新型框架。这种方法在宽视场(large-FoV)场景中降低了不确定性,并提升了感知和关联性能。作者提出了QuadTrack,一个具有复杂运动动态的新全景多目标跟踪(MOT)数据集,为宽视场多目标跟踪提供了一个具有挑战性的基准。· 在JRDB和QuadTrack数据集上进行的广泛实验表明,OmniTrack表现出优异的性能,在JRDB上实现了26.92%的HOTA,在QuadTrack测试分割上实现了23.45%,推动了全景MOT领域的最先进水平。
- 相关工作
全景场景理解。全景感知允许在一次捕捉中实现对
场景的整体理解。主要领域包括全景场景分割、全景估计、全景布局估计、全景生成和全景流估计等。研究行人通常将全景展开为等角投影或多面体投影,以适应为有限视场数据设计的算法。他们还应用如可变形卷积等技术来处理高纬度区域的严重畸变。
近期,研究行人已经认识到全向图像在跟踪方面的优势,尤其是它们能够在有限视场设置中避免视场外问题,从而保持对目标的持续观察。江等人[38]提出了一种使用三轴主动视觉机制的500FPS全向跟踪系统,用于捕捉复杂环境中的快速移动物体。360VOT基准[33]被引入用于全向目标跟踪,重点关注球形畸变和目标定位挑战。黄等人[34]提出了360Loc全向定位方法,通过从360°数据生成低视场 Query 帧来解决跨设备挑战。徐等人[73]引入了一种扩展边界视场(eBFoV)表示方法,以减轻全景视频中的球形畸变。与先前的方法不同,这项工作首先探索了极具挑战性的大视场和剧烈运动的全景跟踪,例如,旨在增强机器对其周围物体时空理解的准确性。
多目标跟踪。目标跟踪主要遵循两种范式:基于检测(Tracking-By-Detection,TBD)和端到端(End-To-End,E2E)。在这些方法中,TBD是目前最流行的一种,其框架遵循SORT [71]的设计原则。首先,使用检测网络定位目标的边界框,然后根据目标的历史轨迹预测其当前位置,并将预测结果与检测结果关联[43]。许多后续工作对该方法进行了改进:DeepSORT [46]引入了ReID模型以结合外观信息进行关联,ByteTrack [81]设计了一种基于置信度的、分阶段的关联策略。其他方法[1, 21, 76]引入了运动补偿模块以减轻相机运动,OC-SORT [9]优化了运动估计模块。此外,E2E方法也在持续发展。
TrackFormer [53] 和 MOTR [79] 提出了基于Transformer的端到端跟踪方法。近期的研究进展 [50, 82] 提升了检测器的性能,并在遮挡场景中提高了数据关联的准确性。与现有方法专注于窄视场针孔相机数据以及线性传感器运动不同,作者针对宽视场场景下的MOT挑战,解决了诸如几何畸变和复杂运动等问题。
- OmniTrack:提出的框架
在本节中,作者介绍了OmniTrack,这是一个全景多目标跟踪框架,旨在解决宽视场图像中独特的挑战,包括广泛的搜索空间、几何畸变、分辨率损失和光照不一致性。OmniTrack设计了一个反馈机制,以迭代方式优化目标检测,将轨迹信息重新整合到检测器中,以增强在大视场场景中的跟踪稳定性(第3.1节)。具体而言,为了应对这些挑战,作者提出了三个关键组件:
- • 轨迹管理(第3.2节):管理目标轨迹的生命周期,并为感知模块提供时间先验信息。
- • FlexiTrack实例(第3.3节):通过利用时间上下文快速定位和关联全景视图中的目标。
- • CircularStatE模块(第3.4节):减轻几何畸变,并在宽视场内提高一致性,增强特征可靠性。
3.1 反馈机制
OmniTrack框架,如图2所示,与传统的MOT方法[1, 9, 21, 81]不同,后者将目标检测和数据关联分开。OmniTrack引入了一种反馈机制,通过将轨迹信息重新整合到检测器中,迭代地优化检测,从而增强大视场跟踪的稳定性。
在传统的运动目标跟踪(MOT)中,检测和关联是解耦的,导致熵值较高,因为每帧的检测
是独立计算的:
in frame
,
表示第
个目标在帧
中的位置
具有概率分布
。全局关联熵
依赖于所有帧中目标位置的联合概率分布:
所有帧的累积熵,考虑到独立匹配,其公式表示为:
独
立
相比之下,OmniTrack的反馈机制允许从帧
的检测信息来告知帧
的检测,从而降低每帧的不确定性。具体来说,在给定先前的反馈
的条件下,帧
的条件熵为:
总熵(带反馈)变为:
当
时,表明随着时间的推移不确定性减少。因此,这种由反馈驱动的方案因此增强了在大视场(FoV)场景下的跟踪稳定性。
3.2 轨迹管理
为了在融合时间信息的同时降低目标定位和关联的不确定性,OmniTrack 集成了轨迹管理模块。在训练过程中,该模块缓存置信度得分超过阈值
的实例的时间数据,为后续帧中的检测一致性提供历史背景。在推理过程中,轨迹管理模块通过根据置信度得分更新、删除或初始化实例来管理轨迹的生命周期。在没有数据关联的场景中,轨迹直接管理,形成 OmniTrack
(算法 1,第 14-21 行)。当启用数据关联时,轨迹管理模块利用基于 TBD 的方法 [9, 75] 来增强跟踪,称为 OmniTrack
(算法 1,第 10-12 行)。
3.3. FlexiTrack实例
如公式(2)所述,在宽视场条件下,全局关联熵显著较高,使得关联任务变得具有挑战性。受人类跟踪行为启发,该行为基于过去的运动聚焦于可能的区域,作者通过利用目标的历史轨迹来估计其当前位置。这种方法避免了在整个视场范围内进行全局搜索,这在大规模感知任务中特别有益。基于这一洞察,作者引入了FlexiTrack实例。
每个FlexiTrack实例与Learnable实例共享解码器网络结构,如图2所示,包括一个特征向量
和一个 Anchor 点
。通过共享解码器,FlexiTrack实例可以无缝适应各种MOT范式,增强灵活性,并允许在不同方法之间进行集成而无需额外修改。为了提高鲁棒性,在训练过程中同时向特征向量和 Anchor 点添加噪声,以最小化对历史数据的依赖并提高泛化能力。
,
,
和
分别表示添加到特征向量和 Anchor 点的噪声分量。为了初始化所有 FlexiTrack 实例,令
表示初始实例集,
表示轨迹总数。每个实例
由一个特征向量
和一个 Anchor 点
组成,如下所示:
和
分别表示第
条轨迹的特征向量和 Anchor 点,其中
代表它们的维度。这使得
能够继承轨迹信息,引导感知模块快速定位物体并建立时间关联。
.### 3.4 圆形状态模块
全景图像提供了极其宽广的视场角,能够捕捉
的场景。然而,这不可避免地引入了诸如几何畸变以及在实际高动态范围场景中颜色和亮度的不一致性问题。为了解决这些挑战,本文提出了CircularStatE模块,该模块减轻了畸变并提高了图像特征的一致性,从而增强了感知模型的表现。
动态SSM模块的核心模块——动态SSM块,负责减轻扭曲并细化特征图。其操作步骤如下:
失真与尺度计算。第一步是从输入特征图
中计算失真和尺度信息。
其中,
和 s 分别代表畸变和尺度,它们都具有 RBxCxW×H 的维度。
减轻失真。为了校正失真,作者应用动态卷积
来细化特征图。该操作可以表示为:
其中符号
表示Hadamard积,确保了有效的尺度调整集成。
提升一致性。在扭曲校正之后,应用状态空间模型(SSM)[17]以增强全景图像中的亮度和色彩一致性。此步骤的输入是前一阶段的输出,表示为
,可以表示如下:
其中,
代表扫描次数,
代表扫描函数,
是 S6 块的变换函数 [17]。
特征融合。最后,动态卷积分支和残差分支的输出被融合。融合模块
将细化后的特征图
与通过CNN操作
处理后的
版本结合,以生成最终的输出特征图
。
表示特征融合操作,结合两个分支的细节以实现最优的特征表示。
- QuadTrack:一个动态360°多目标跟踪(MOT)数据集
大多数现有的MOT数据集[18, 55, 64]都是使用针孔相机捕获的,其特点是具有狭窄的视场角和线性的传感器运动。然而,当宽视场角捕获设备即使发生轻微移动时,整个场景也可能发生剧烈变化,这对物体跟踪提出了重大挑战。QuadTrack通过提供一个专门设计的基准,用于测试在动态、非线性运动条件下的MOT算法,从而解决了这一挑战。它使得评估算法在跟踪具有全景、非均匀运动的物体时的鲁棒性成为可能。
4.1 数据集收集与挑战
为了获取具有宽视场角和复杂运动动态的数据集,作者使用了四足机器人犬作为数据收集平台。该平台因其仿生步态而被选中,该步态模仿了四足动物的自然运动模式,由于其固有的复杂性和可变性,为运动跟踪引入了额外的挑战。该机器人尺寸为
,最大负载能力为
。它能够穿越高达
的垂直障碍物和
的斜坡,使其在日常环境中具有高度的可操纵性。机器人拥有12个关节电机,能够在高达
的速度下复制逼真的行走动作。为了感知,作者使用全景环形镜头(PAL)相机捕捉具有
视场角的宽角场景。该相机的像素尺寸为
,有效像素分辨率为500万,支持在40.5FPS下输出最大
像素。该相机安装在四足机器人上(见图4(b)),确保了无遮挡、最优的视野。利用这个平台,作者在两个城市的五个校园进行了户外数据收集,捕捉了多样化的环境中的数据。
与四足机器人的仿生步态相比,收集到的全景图像自然表现出特征性的抖动,尤其是在Y轴方向上(图4(c))。与JRDB数据集[51]相比,作者的QuadTrack数据集引入了更复杂的运动挑战。此外,数据还面临诸如曝光不均匀、由于宽视场引起的颜色不一致以及运动模糊增加等挑战,因为移动物体与背景之间的快速相对位移加剧了模糊效果。更多细节请参阅补充材料。
4.2 数据分布与比较分析
与现有的基于针孔相机的全景MOT数据集[18, 28, 55]不同,如表1所示,QuadTrack是第一个使用单台
全景相机捕获的数据集。由于具有更宽的视场角
,QuadTrack与传统MOT数据集[18, 55]存在显著差异。与通常具有更可预测运动的自动驾驶数据集[8, 52, 77]相比,QuadTrack融合了复杂、受生物启发的步态运动。此外,与互联网来源的数据集[15, 64]不同,QuadTrack旨在更好地反映现实世界的应用场景。虽然许多现有数据集[8, 52, 54, 77]由短视频序列组成,但QuadTrack强调长期跟踪,每个视频时长为60秒。为了进一步挑战数据关联,作者将数据集下采样到10FPS,每个序列包含600帧,分布在32个序列中。总计,QuadTrack包括19,200帧和189,876个边界框。
如图4(a)所示,训练集和测试集的分布一致,确保了对多目标跟踪方法的可靠和平衡评估。这两者之间分布的相似性减少了潜在的偏差,并允许在不同条件下更准确地比较模型性能。图4(c)中展示的轨迹突出了在宽视场条件下多目标跟踪的复杂性增加。值得注意的是,沿Y轴的运动强度与JRDB相比显著增强,进一步复杂化了跟踪过程。
- 实验
5.1 实验设置
数据集。作者在两个数据集上进行了实验:JRDB [51] 和 QuadTrack。JRDB 是一个为拥挤的人流环境设计的全景数据集,包含 10 个训练序列、7 个验证序列和 27 个测试序列。该数据集中的全景图像是由配备五个针孔相机的轮式移动机器人拼接而成的。它包括室外和室内场景,以显著的遮挡和存在小型物体为特征。此外,一些物体相对于机器人表现出快速相对运动,这对 MOT 算法构成了重大挑战。关于 QuadTrack 数据集的详细信息将在第 4 节中详细阐述。
指标。作者采用CLEAR指标[6],包括MOTA(多目标跟踪精度)、误报(FP)、漏报(FN)等,并结合IDF1[60]、OPSA[51]和HOTA[49],从多个维度对跟踪性能进行综合评估。MOTA强调检测器的性能,而IDF1评估跟踪器保持一致身份的能力。相比之下,HOTA整合了关联准确性和定位准确性,成为评估跟踪算法的一个重要且日益重要的指标。
实现细节。为了公平比较各种多目标跟踪(MOT)算法,作者在JRDB数据集上重新训练了模型。对于端到端(E2E)算法[53, 79, 82],作者使用JRDB上的源代码中的默认参数进行训练。对于基于TBD范式的MOT算法[7, 9, 75, 81],作者选择了先进的YOLO11-X[66]作为在JRDB上训练的 Baseline 检测器。此外,通过在训练OmniTrack模型后对跟踪管理模块进行 Mask 处理并保存检测结果,获得了OmniTrack
。使用了AdamW优化器[42],学习率设置为
。对于其他实验细节,请参阅补充材料。
5.2 与现有技术的比较
在JRDB测试集上的跟踪。如表2所示,作者比较了作者的OmniTrack与最先进方法在JRDB测试集上的表现。首先,QuadTrack在所有跟踪指标上均显著优于现有算法,无论是在与端到端(End-to-End)还是基于跟踪器(TBD)范式进行比较时。具体来说,OmniTrack在端到端框架内实现了令人印象深刻的HOTA指标为
和IDF1指标为
,分别超过了当前最先进的方法MOTRv2 [82],提高了
和
。此外,在基于跟踪器范式下,即使在相同的检测器条件下,OmniTrack也优于最先进的HybridSORT [75],在HOTA上提高了
,在IDF1上提高了
,证明了其优越的性能。
在QuadTrack测试集上的跟踪。如表3所示,作者在QuadTrack测试集上对OmniTrack与最先进的方法进行了比较。该数据集特别具有挑战性,其特点为宽广的视场角和快速的非线性传感器运动,这给传统的MOT算法带来了显著复杂性。尽管存在这些挑战,QuadTrack仍然优于现有方法,实现了最高的HOTA分数:E2E组为
,TBD组为
。
5.3. 范式比较
Baseline 。为了进一步验证OmniTrack的优势,作者根据TBD和E2E范式进行了比较,如表4所示。在TBD范式下,作者评估了几个 Baseline 跟踪算法[7, 9, 75, 81]。每种跟踪方法在三种不同的检测设置下进行了比较:使用YOLO11-X[66]作为 Baseline 检测器,OmniTrack Det作为检测器(代表传统的TBD跟踪,其中检测和跟踪是独立的),以及OmniTrack
,它具有TBD跟踪的反馈机制。在E2E范式下,作者使用MOTR[79]作为比较的 Baseline 。
结果。在相同的跟踪方法中,OmniTrack
持续优于 YOLO11-X [66],在 HOTA 上平均提升了
,在 IDF1 上提升了
,这突显了 OmniTrack
相较于 YOLO11-X [66] 的优越性能。此外,当将 OmniTrack
与 OmniTrack
进行比较时,后者在 HOTA 上平均提升了
,在 IDF1 上提升了
,这证明了反馈机制的有效性(见第 3.1 节)。在端到端(E2E)范式下,OmniTrack
实现了最佳的 HOTA 结果为
和 IDF1 结果为
。
5.4 消融研究
FlexiTrack实例分析。表5比较了训练阶段带有和无带去噪实例以及FlexiTrack实例的实验。实验
和
表明FlexiTrack实例对于实现跟踪目标至关重要。在实验
中,作者观察到从 GT (GT)生成的去噪实例通过提供更强的指导,显著提高了HOTA分数。实验
和
进一步表明,在使用去噪实例后引入FlexiTrack实例会导致HOTA分数的进一步提升。
CircularStatE模块分析。在表6中,作者评估了DynamicSSM在CircularStatE中的有效性,并将其与其他常见设计如Conv和MLP进行比较。实验
、
和
的结果表明DynamicSSM具有明显的优势。实验
、
和
进一步显示,将DynamicSSM应用于
可以获得最佳性能。这是因为
包含语义和纹理信息,这使得DynamicSSM更容易提取畸变和颜色细节,从而有助于校准。
初始化和更新阈值的分析。在OmniTrack
中,作者分析了初始阈值和更新阈值对跟踪性能的影响。如图5所示,在0.1到0.7的范围内,初始阈值和更新阈值均实现了超过
的HOTA分数。这表明OmniTrack
对阈值变化具有鲁棒性,无需微调即可达到最佳效果。
端到端模型训练比较。在表7中,作者比较了OmniTrack
与其他端到端方法的参数数量和训练时间。在JRDB数据集上使用默认参数时,QuadTrack训练速度比其他端到端方法快四倍以上。这是通过实现通过FlexiTrack实例的恒等关联来实现的,这显著简化了关联组件的模型设计,并缓解了与端到端模型训练相关的挑战。
- 结论
本文提出了OmniTrack,这是一个针对全景图像的多目标跟踪框架,有效解决了几何畸变、低分辨率和光照不一致等关键挑战。OmniTrack的核心是一个反馈机制,该机制降低了大视场跟踪中的不确定性。该框架集成了Tracklets管理以实现时间稳定性、FlexiTrack实例以实现快速定位和关联,以及CircularStatE模块以减轻畸变并提高视觉一致性。此外,作者还提出了QuadTrack,这是一个跨校园的多目标跟踪数据集,使用四足机器人收集,以支持动态运动场景。这个具有挑战性的数据集旨在推进机器人全向感知的研究。实验验证了OmniTrack在公共JRDB和已建立的QuadTrack数据集上实现了最先进的性能,证明了其在处理全景跟踪任务中的有效性。
局限性 。虽然 OmniTrack 表现出强大的性能,但QuadTrack目前仅限于二维全景跟踪,缺乏三维功能,这在复杂场景中限制了深度感知。此外,该方法以移动机器人平台为中心。未来的工作可以考虑扩展到三维全景多目标跟踪(MOT)或探索人机协作感知以增强情境 Aware 。
参考
[1]. Omnidirectional Multi-Object Tracking
扫码加入👉
「集智书童」
交流群
(备注:
方向
学校/公司+
昵称
)