MambaNUT: 通过 Mamba 和适应性课程学习进行夜间无人机跟踪 ! - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

在低光照增强和领域适应方面的努力下，夜间无人机跟踪取得了显著进步。然而，过度依赖图像增强、高质量夜间数据稀缺以及忽视白天与夜间跟踪器之间的关系阻碍了端到端可训练框架的发展。

此外，当前基于CNN的跟踪器具有有限的感受野，导致性能不佳；而基于ViT的跟踪器则由于依赖自注意力机制而需要大量的计算资源。

在本文中，作者提出了一种全新的基于纯Mamba的跟踪框架（MambaNUT），该框架采用具有线性复杂度的状态空间模型作为 Backbone ，并结合了单一流架构以整合特征学习和模板搜索耦合功能。

作者引入了一种自适应课程学习（ACL）方法，能够动态调整采样策略和损失权重，从而提高模型的泛化能力。

作者的ACL包含两个层次的课程调度器：

(1) 采样调度器，用于将数据分布从不平衡状态转换为平衡状态，并将简单的（白天）样本转换为复杂的（夜间）样本；

(2) 损失调度器，根据数据频率和IoU动态分配权重。在多个夜间无人机跟踪基准测试上的详尽实验表明，所提出的MambaNUT在较低的计算成本下实现了最先进的性能。

unset

unset1. Introductionunset

unset

无人驾驶航空器(UAV)跟踪已成为机器人视觉领域的研究热点，具有多种实际应用，包括导航[58]、交通监控[53]和自主降落[16]。利用深度神经网络和大规模数据集的显著进展已经在良好光照条件下取得了令人鼓舞的跟踪性能，但现有的最先进的(UAV)跟踪器[37, 38, 40]仍然难以应对更具挑战性的夜间环境。尤其是当跟踪器在夜间等更具挑战性的环境下工作时，由于UAV捕获的图像对比度、亮度和信噪比明显低于白天捕获的图像，这些方法往往会出现严重的跟踪性能下降。因此，开发稳健的夜间UAV跟踪器对于提升UAV视觉系统的多样性和生存能力至关重要。

近年来，许多研究行人致力于使用低光图像增强技术来提高夜间无人机跟踪的效果。例如，Fu等人[12]提出了一种名为“HighlightNet”的亮度增强器，旨在照亮特定的目标区域以供无人机跟踪使用。为了在复杂光照场景下避免过度增强，LDEnhancer [63]通过抑制光照分布来改进夜间无人机跟踪。另一方面，在夜间无人机跟踪中引入了领域适应（Domain Adaptation, DA），提供了一种解决领域差异挑战的有效方案。UDAT [67]生成夜间训练样本并通过对抗训练缩小昼夜条件之间的差距。TDA-Track [13]提出了一种基于 Prompt 的时间领域自适应训练框架，充分利用时间上下文来进行夜间无人机跟踪。尽管取得了这些进展，当前用于夜间跟踪的解决方案仍然面临许多限制。过分依赖图像增强、高质量夜间数据的稀缺性以及白天和夜间跟踪器之间被忽视的关系阻碍了端到端可训练无人机视觉系统的开发。现有的基于CNN的跟踪器具有受限的感受野，导致性能次优；而基于ViT的跟踪器由于高度依赖Self-Attention机制而需要大量内存和计算资源。此外，在无人机跟踪中，连续帧间不一致的特征分布阻碍了长期目标跟踪，使得长序列建模能力成为必需。最近，状态空间模型在以线性复杂度建模远距离依赖方面表现出色，从而使得Mamba [17]在视觉任务中取得成功，尤其是在视频理解[36, 61]和高分辨率医学图像处理[49, 59]等长序列建模中表现出色。这些成功的应用激励作者把Mamba应用于夜间无人机跟踪，利用其长序列建模能力学习低光照环境下的稳健特征表示，并保持较低的计算需求以实现有效的夜间跟踪。因此，作者提出了一种基于紧凑型Mamba的夜间无人机跟踪框架MambaNUT，该框架采用单流架构，包含视觉Mamba主干和预测头。

此外，类别不平衡是现实世界目标检测和分类中的固有问题，常常导致算法偏向大多数类[30]。在视觉跟踪中，白天和夜晚数据分布也存在类似的不平衡现象，白天的数据量远多于夜晚。如图2所示，与GOT-10K[25]、LaSOT[10]和TrackingNet[47]等大型数据集相比，这些数据集主要由白天图像组成，夜间图像则很少或几乎没有。标定的夜间数据（例如SHIFT-Night[52]、ExDark[46]和BDD100KNight[68]）仍然相对稀缺。在这种情况下，解决数据不平衡问题至关重要，因为少数类（夜间）数据是作者工作的重点。用不同光照条件下的样本训练时赋予相同权重可能会导致算法偏向大多数白天数据，并减少对于少数夜间数据的准确性。两种有前景的不平衡学习解决方案是重采样[21-23]和成本敏感学习[8, 30, 72]。然而，过采样可能导致由于重复少数样本而导致过拟合，欠采样可能丢弃大量有价值的主要类数据，而成本敏感学习则难以为不同分布中的样本定义精确的成本。基于这种启发式的训练方式——从简单到复杂——作者引入了适应性渐进式学习（Adaptive Curriculum Learning, ACL）来解决这一问题，基于以下考虑。作者旨在首先在白天训练模型以学习适当的特征表示，从而提高其泛化能力，这将有助于夜间学习更稳健的特征表示。因此，作者提出了一种动态采样策略，用于分配数据权重，强调困难实例，例如夜间样本，并引入了一种名为适应性数据平衡损失（Adaptive Data Balance, ADB）的新损失函数，该损失函数有效解决了白天与夜间之间的数据不平衡问题，并提升了校准性能。大量的实验验证了作者方法的有效性，并展示了MambaNUT实现了最先进的性能。如图1所示，该方法在NAT2024-1[13]上运行效率约为每秒75帧（FPS），并且参数量仅为410万，为最低水平。作者的工作贡献总结如下：

picture.image

作者提出了一种基于Mamba的新颖跟踪框架，称为MambaNUT，该框架采用纯Mamba模型进行精确且低消耗的跟踪。据作者所知，这是首个专门为夜间无人机跟踪设计的基于Mamba的跟踪框架。
作者引入了一个简单而有效的自适应课程学习组件，以解决白天和夜间数据之间的学习不平衡问题，该组件包括一个动态采样调度器和一个动态加权损失调度器。
广泛的实验验证了作者的MambaNUT在多个夜间跟踪基准上超越了最先进的方法，并且使用了更少的参数和FLOPs。

unset

unset2. Related workunset

unset

夜间无人机跟踪。实际场景中的无人机跟踪应用在低光照的夜间环境中面临着巨大挑战，因为通用跟踪器主要设计用于白天条件。最近，低光增强和域适应(DA)已经发展成为改善夜间无人机跟踪性能的两种主要方法。在基于增强的夜间无人机跟踪[12, 65, 66]中，提出了多种增强器，在跟踪处理之前改善图像的光照情况。具体来说，Li等人[34]将一种低光图像增强器集成到CF基的跟踪器中，以实现稳健的夜间跟踪。而DarkLighter[66]和HighlightNet[12]也开发了低光增强器，以减轻极端光照的影响并突出潜在的目标物体。然而，由于低光图像增强与无人机跟踪之间的有限关系，当以即插即用的方式集成增强器和跟踪器时，会导致性能不理想，并增加计算成本。对于基于DA训练的夜间无人机跟踪[13, 14, 67]，跟踪器利用域适应技术将白天的跟踪能力转移到夜间环境中。例如，UDAT[67]提出使用基于Transformer的桥梁层对白天和夜间领域的图像特征进行对齐，从而向夜间领域转移部分跟踪能力。

TDA-Track[13]引入了一种新的时间域自适应训练框架，首次在夜间无人机跟踪训练中利用时间上下文信息，使得其成为首个使用时间上下文来训练夜间无人机跟踪器的方法。然而，基于DA的方法需要更高的训练成本，并且受限于用于跟踪的高质量目标领域数据不足。为了构建端到端可训练的视觉系统，DCPT[73]引入了一种新架构，通过高效生成黑暗线索 Prompt 来实现稳健的夜间无人机跟踪，无需单独使用增强器。不过，这种增强后的跟踪器会加重资源有限的无人机平台的负担，增加了已相当庞大且完全基于Transformer的基本跟踪器的参数量，从而增加了计算资源需求并阻碍了效率。在作者的工作中，作者首次探索Vision Mamba在夜间无人机跟踪中的应用，充分利用其强大的长序列建模能力，同时确保计算成本线性增长，从而实现高效且精确的跟踪。

Vision Mamba 模型。与传统的结构化状态空间模型[18]不同，Mamba 使用了依赖输入的选择机制和硬件感知并行算法[17]，这使其能够通过序列长度线性地建模长距离依赖关系。在自然语言处理（NLP）领域中，与基于长序列的语言建模相比，它表现出可媲美的性能并且具有更好的效率，优于 Transformer。最近的研究表明，Mamba 在长距离建模方面的线性复杂度在各类视觉任务中都证明了其有效性和优越性。在分类任务中，Vim[74] 和 VMamba[45] 通过借鉴 Mamba 的成功经验，分别利用双向扫描机制和四向扫描机制，展现了优异的表现。它还在高分辨率图像任务方面显示出了巨大的潜力，包括医学图像分割领域的多项重要工作，如 VM-UNet[49] 和 Swin-UMamba[44]。

随后，在视频领域，VideoMamba[36] 提供了一种面向全面视频理解的可扩展且高效的解决方案，涵盖短期和长期内容。MambaTrack[57] 探索了基于 Mamba 的学习运动模型在多目标跟踪（MOT）中的应用。在作者的工作中，作者提出了一种新的基于 Mamba 的框架用于夜间无人机跟踪，并且引入了自适应课程学习（ACL）组件，以自适应地优化采样策略和损失权重，从而增强夜间的泛化能力和区分能力。

课程学习。课程学习（CL）的概念最早在[3]中提出，表明从简单到难的学习策略显著提高了深度模型的泛化能力。虽然这些方法[1, 20, 29]能够提升收敛速度和局部最小值的质量，但预先确定学习顺序可能会导致固定的课程内容与正在学习的模型之间出现不一致。为了解决这一问题，Kumar等人[32]提出了自我加速度学习的概念，在这种学习方式中，课程是动态构建且无需监督以适应学习者的节奏。这一开创性的概念启发了在各种计算机视觉应用领域的众多变体，包括分类[15, 55, 56]、动作识别[54]以及目标检测[50, 69]/人脸检测[41, 60]。尽管该方法在这几个领域中表现出色，但在视觉跟踪领域的应用仍然有限。相比之下，作者的工作是首次探索将Vision Mamba与课程学习统一框架结合，并引入了两个层次的课程调度器：一个用于动态采样，另一个用于动态加权损失函数，权重基于数据频率和IoU分配。

unset

unset3. Methodologyunset

unset

在本节中，作者将详细介绍所提出的一体化跟踪框架MambaNUT。首先，作者从状态空间模型（SSM）和Mamba的基本概念讲起。接着，作者介绍了解决数据不平衡学习问题的自适应课程学习（ACL）组件，该组件包含两级课程调度器：采样调度器和损失函数调度器。最后，详细描述了所提出的MambaNUT的整体架构，如图3所示。

picture.image

3.1. Preliminary

原始的状态空间模型（SSM）用于连续系统，并源自经典的卡尔曼滤波器[27]。它通过一个可学习的隐状态将 1 维序列映射到。在连续状态下，SSM 的具体表达形式由一组一阶线性常微分方程构成：

其中矩阵表示演化参数，而和是投影参数。

现代的连续状态的离散形式即为 SSMs，例如 S4 [18] 和 Mamba [17]。通过引入时间尺度参数，离散化过程通常使用零阶保持（ZOH）规则来完成：

其中，和分别是参数 A 和的离散对应值。和分别表示不同时间步的离散隐藏状态。与传统模型依赖于线性时不变状态空间模型（SSM）相比，Mamba [17] 通过将选择性扫描机制（S6）作为其核心操作来改进 SSM。这种改进是通过基于输入进行情形线性投影来参数化 SSM 参数、和实现的。

3.2.Overview

为了增强对夜间样本鲁棒特征表示的学习，作者提出了一个自适应课程学习(ACL)组件来解决数据不平衡的问题，该组件具有两级课程调度器：

(1) 一个采样调度器，用于将数据分布从不平衡变为平衡，并按难易程度（从白天到夜间）对样本进行排序；

(2) 一个依赖数据的数据动态加权损失函数，该函数根据数据频率和IoU值分配权重。该组件的具体细节将在后续子节中详细说明。

3.3. Adaptive Curriculum Learning

采样是处理不平衡数据学习的一种简单而有效的方法。作者的采样调度器是自适应课程学习（ACL）组件的关键元素，能够在训练过程中动态调整批次中的白天和夜间数据分布，从不平衡状态变为平衡状态。

在训练过程中，每个epoch内所有数据集的采样权重均设置为相同；而对于夜间数据集，其权重通过除以一个常数并乘以epoch编号来调整，从而导致初始时夜间数据的比例较小，随着训练过程的推进逐渐增加。给定一个数据集，其分配的采样权重可以表示如下：

其中，表示当前训练轮次，是一个常数，设为 150，相当于总训练轮次的一半。表示夜间数据集的数量。随后，最终的采样权重计算公式如下：，其中表示训练数据集的数量。通常，在训练初期，模型会学习大量容易识别的日间样本。随着训练过程的推进，日间和夜间数据之间的分布逐渐趋于平衡。

在训练阶段，反向传播算法根据损失函数计算的误差更新网络参数。若以相等的权重训练在不同光照条件下采集的数据，会导致模型适应不平衡，这主要是由于日间和夜间数据之间的显著分布差异，夜间图像对比度较低、亮度较低且信噪比较低，导致跟踪器偏向日间条件。在作者的研究中，少数的夜间样本是这一学习任务中的关键实例。

鉴于此，作者引入了一种自适应数据平衡(ADB)损失，该损失基于白天/夜间数据的频率和IoU分配权重，从而动态地更加关注挑战性的少数样本，即夜间数据。为了方便起见，设预测框与ground truth之间的IoU记为。因此，是实例的IoU。受[11]的启发，提出的ADB公式如下：

其中，是一个超参数，基于数据的频率确定。在分类的上下文中，通常与类别的频率成反比，从而使多数类别受到更有效的惩罚。在作者的实现中，作者定义为多数类型的数据频率的对数比值，具体定义如下：，其中表示最大训练数据集的总体样本大小，特指一个白天数据集，而则表示第个样本所属的数据集的总体样本大小。作者在对数权重中加上 0.5，以避免权重等于零的情况。如果一个实例属于包含大量样本的数据集，其权重相对较小；

反之亦然。通过这种方式，少数的夜间数据在网络梯度计算中贡献更大，从而使网络在训练过程中较少关注大量的白天数据，更多地关注少数样本。是一个正则化项，用于惩罚目标上的过自信预测。作为调节因子，促使网络更加关注 IoU 值较低的样本。

3.4. Vision Mamba for Tracking

给定模板图像 ( Z ) 和搜索图像 ( X )，作者首先通过一个可训练的线性投影层将它们嵌入并拉平为一维的Token。这一过程称为Patch嵌入，并最终得到 (\kappa) 个Token，表示为：

其中是每个 Token 的嵌入维度。在获得初始 Tokens 后，作者将它们送入编码层，在该层中，它们通过堆叠的双向 Vision Mamba (Vim) 编码器进行处理。令表示第层的 Vim 层，前向传播过程涉及第层的所有 Token，具体公式为。双向 Vision Mamba 编码器的结构在图3 的右侧进行了展示。输入首先被规范化，然后通过两个独立的线性投影层分别处理，以获得中间特征和。

接下来，作者在前向和后向两个方向处理。在每个方向上，作者首先对应用一个1D卷积，随后使用SiLU激活函数生成。

其中下标表示两种扫描方向：前向和后向。双向扫描能够使序列内的所有元素之间产生相互作用，从而建立起全局且不受约束的感受野。SSM的信息 Stream 过程见公式2。随后，将最后一个编码器的输出生成的搜索区域向量逐元素相加，并输入跟踪头以生成最终的跟踪结果。

3.5. Tracking head and loss function

受OSTrack [64] 的启发，作者实现了一个基于中心的目标 Head ，该 Head 由多个Conv-BN-ReLU层组成，直接估计目标的边界框。该 Head 输出局部偏移量以修正分辨率降低导致的离散化误差，归一化的边界框大小以及一个目标分类得分图。得分最高的位置被选作物体的位置，从而得到最终的物体边界框。

在训练过程中，作者采用加权 focal loss [33] 进行分类，采用损失和广义交并比（Generalized Intersection over Union, GIoU）损失的组合进行边界框回归。总损失函数定义如下：

在作者的实验中，贸易-off 参数设置为和，并且。

unset

unset4. Experimentunset

unset

在本节中，作者使用三个夜间无人机跟踪基准数据集对作者的方法进行了全面评估：NAT2024-1 [13]、NAT2021 [67] 和 UAVDark135 [35]。评估在配备有Intel i9-10850K处理器（主频3.6GHz）、16GB内存和NVIDIA TitanX GPU的PC上进行。作者将作者的方法与表1中详细列出的16个最先进的（SOTA）跟踪器进行比较。

picture.image

4.1. Implementation Details

模型变体。作者训练了两种不同配置的MambaNUT模型，具体如下：

MambaNUT-Tiny. Backbone: Vim-Tiny；搜索区域大小：[256 \times 256]；模板大小：[128 \times 128] MambaNUT-Small. Backbone: Vim-Small；搜索区域大小：[256 \times 256]；模板大小：[128 \times 128] 训练。作者使用来自多个数据集的训练分割，包括四个白天数据集：GOT-10k [25]、LaSOT [10]、COCO [43] 和 TrackingNet [47]，以及三个夜间数据集：BDD100K-Night、SHIFT-Night 和 ExDark [46]。值得注意的是，作者从 BDD100K [68] 和 SHIFT [52] 数据集中选取 Token 为“夜间”的图像来构建 BDD100K-Night 和 SHIFT-Night。在训练过程中，两种追踪器的变体共享相同的训练Pipeline以保持一致性和可比性。批量大小始终设置为32。作者使用AdamW优化器，并设置权重衰减为(10^{-4})，初始学习率为(4 \times 10^{-5})。总的训练轮数固定为300轮，每轮处理60,000个图像对。学习率在第240轮后降低10倍。

推理。在推理阶段，按照标准做法[70]，作者应用汉宁窗惩罚项以 Incorporate 位置先验信息到跟踪过程中。具体来说，作者将分类图乘以一个相同尺寸的汉宁窗，然后选取得分类分最高值对应的边界框作为跟踪结果。

4.2.Overall Performance

NAT2024-1: NAT2024-1 [13] 是一个长期跟踪基准，涵盖多个具有挑战性的属性，包含40个长期图像序列，总帧数超过7万帧。如表1所示，在该基准上，作者的MambaNUT-Small检测器在16种最先进的(SOTA)检测器中表现出色，精度达到83.3%，归一化精度达到76.9%，成功率达到63.6%。这分别比第二好的检测器高出2.4%、1.5%和1.5%。作者还从NAT2024-1中选择了三个代表性视频序列进行可视化展示，如图4所示。由此可见，MambaNUT-Small在目标物体的跟踪准确性上优于七种SOTA检测器。

picture.image

NAT2021: NAT2021 [67] 包含了180个测试视频，提供了一个具有挑战性和大规模的夜间跟踪基准。如表1所示，MambaNUT-Small 在性能上与当前最佳跟踪器相当。它在精确度和归一化精确度方面均获得最高得分，相比于之前表现最好的DCPT跟踪器，在这两个指标上分别高出超过1.0%，成功率仅比DCPT低0.2%。

UAVDark135：UAVDark135[35]基准包括135个测试序列，并广泛用于夜间跟踪的基准测试。根据表1，MambaNUTSmall实现了精度为70.0%和成功率57.1%的新最佳成绩。此外，作者的MambaNUT-Tiny在所有三个指标中排名第三。

UAV123：UAV123 [2] 是一个包含123个具有挑战性的序列和超过112,000帧的大规模空中跟踪基准。为了证明作者提出的从简单（白天）到复杂（夜间）学习的策略显著提高了深度模型的一般化能力，作者在白天飞行器跟踪基准上将作者的跟踪器与八种最新的跟踪器进行了对比。表2展示了在UAV123上竞争跟踪器的检测精度（Prec.）和成功追踪率（Succ.）。MambaNUT排名第二，其在检测精度上的差距仅为0.2%，在成功追踪率上的差距为0.3%，与MAT相比仅有微小差距。

picture.image

4.3.Efficiency Comparison

在表1中，作者还比较了所提出的追踪器与当前最优（SOTA）追踪器在GPU上的推理速度、每秒浮点运算次数（FLOPs）和参数数量，以突出所提出方法的优越效率。值得注意的是，AVTrack-DeiT特征自适应架构的FLOPs和参数数量在一定范围内波动，从最小值到最大值。观察结果显示，尽管DCPT在性能上与作者的MambaNUT-Small相当，但MambaNUT-Small能够实现实时运行，超过75 fps，即速度比DCPT快两倍以上，并且只使用了1.1 GMacs和4.1百万个参数，显著少于DCPT的42 GMacs和9900万个参数。虽然像AVTrack-DeiT和Aba-ViTrack这样的追踪器在追踪速度上超过了作者的方法，但它们在多个夜间无人机追踪基准测试中的性能明显较低。这种基于计算复杂性的比较也突显了作者方法的高效性。

4.4.Wllumination-Oriented Evaluation

为了进一步评估MambaNUT在夜间场景中的性能，作者对低环境光照（LAI）和光照变化（IV）对NAT2024-1的影响进行了分析。评估结果如表3所示，更多的基于属性的评估结果见补充材料。观察结果显示，作者的跟踪器在这两个属性上显著优于当前最佳方法，在精确度和成功率上分别提升了超过2.0%，在IV挑战上的精确度更是有显著的6.7%提升。

picture.image

4.5. Ablation Study

自适应课程学习（ACL）策略的影响：为了验证所提出的自适应课程学习策略的有效性，表4展示了在baseline上逐步引入两个层次的课程调度器（即采样调度器SS和损失调度器LS）后的评估结果。观察结果显示，引入SS显著提升了 Baseline 跟踪器的Prec., Norm.Prec和Succ.。进一步应用LS后，改善效果更加明显，所有增加均超过了3.0%。

图5还表明，通过将作者的ACL整合到 Baseline 跟踪器中，可以实现更稳健且具有区分性的特征表示，特别是在长时间跟踪中增强了连续帧间特征分布的一致性。进一步的比较还证明了作者的方法能够在使用Mamba处理低光照条件时有效地提升稳健特征表示的学习能力。

picture.image

损失函数调度的影响：为了展示所提出的ADB损失在性能上的优越性，作者分别使用Focal损失[42]和WCE损失[51]对MambaNUT-Small进行训练，以便进行对比。NAT2024-1的数据评估结果见表5。从表中可以看出，虽然使用Focal和WCE损失作为损失调度器可以提升性能，但最佳精确度提高仅为2.2%，且规范精确度和成功率的提升均低于2.0%，这远远落后于作者的方法，在该方法中，所有三个指标的提升均超过3.0%。

picture.image

采样权重对夜间数据的影响：在所提出的时间调度器中，作者设置了一个常数(参见式(3))来控制夜间数据的采样权重随着训练过程的进行而变化。作者使用范围从100到200、增量为50的不同值对MambaNUT-Small进行训练。评估结果见表6。结果显示，当常数设置为150时，作者的跟踪器性能最佳。这些显著差异清楚地突显了夜间数据权重对跟踪性能的巨大影响。

picture.image

unset

unset参考unset

unset

[0]. MambaNUT: Nighttime UAV Tracking via Mamba and Adaptive Curriculum Learning .

点击上方卡片，关注「AI视界引擎」公众号