实时跟踪新王者 | MSTracker 仅用三层状态交互即让UAV123 AUC飙升1.6%超HCAT - 文章 - 开发者社区

picture.image

精简阅读版本

本文主要解决了什么问题

1. 高效跟踪器在降低计算复杂度和模型参数的同时，往往以削弱特征表示能力为代价，导致难以使用单层特征准确捕捉目标状态的问题。
1. 轻量级模型在处理复杂跟踪场景（如遮挡、外观变化和运动模糊）时，由于特征提取能力有限而表现不佳的问题。
1. 现有高效跟踪方法依赖单层特征表示，无法全面捕捉目标多样化状态，限制了其在复杂环境中的鲁棒性问题。

本文的核心创新是什么

1. 提出了多状态跟踪器（MST）框架，通过多状态表示提供对目标的更全面理解，增强在复杂环境中的跟踪鲁棒性。
1. 设计了三个关键模块：多状态生成（MSG）、状态特定增强（SSE）和跨状态交互（CSI），其中SSE和CSI基于隐藏状态自适应状态空间对偶性（HSA-SSD）设计，实现了多样化状态特征的生成、优化和交互聚合。
1. SSE和CSI模块采用轻量级设计（计算量仅0.1 GFLOPs，参数量0.66M），在显著提升特征表示能力的同时保持最小计算开销，适合实时和资源受限应用。

结果相较于以前的方法有哪些提升

1. 在GOT-10K数据集上，MST的AO分数比之前最优的高效跟踪器HCAT提高了4.5%，SR₀.₅和SR₀.₇₅分别提升3.3%和6.0%。
1. 在TrackingNet数据集上，MST的AUC、P_Norm和P指标分别比HiT-Base提高1.0%、1.7%和1.4%，达到新的轻量级跟踪器最优性能。
1. 在LaSOT数据集上，MST的AUC、P_Norm和P得分分别比HiT-Base提升1.2%、1.9%和2.0%，并在所有14个属性上优于其他方法。
1. 在TNL2K、UAV123、NFS和LaSOT_ext四个额外数据集上，MST的AUC分数分别比之前最佳方法提高6.1%、1.6%、1.8%和1.0%，展现了强大的泛化能力。

局限性总结

1. 当使用超过三层特征时，性能提升趋于平稳甚至下降，表明特征层数过多可能导致信息混乱和浅层特征噪声干扰。
1. 虽然HSA-SSD设计显著提升了效率，但双向状态空间模型（Bi-SSM）变体会降低推理速度，说明在效率与性能间仍需权衡。
1. 实验主要针对轻量级跟踪器，未与重量级模型进行全面比较，因此在绝对性能上可能仍有提升空间。

深入阅读版本

导读

高效跟踪器通过降低计算复杂度和模型参数来实现更快的运行时间。然而，这种效率往往以削弱特征表示能力为代价，从而限制了它们使用单层特征准确捕捉目标状态的能力。为了克服这一限制，作者提出了多状态跟踪器（MST），它利用高度轻量级的状态特定增强（SSE）对多状态生成（MSG）产生的多状态特征进行专门增强，并使用跨状态交互（CSI）以交互和自适应的方式聚合它们。这种设计在产生最小计算开销的同时大大增强了特征表示，从而提高了在复杂环境中的跟踪鲁棒性。具体而言，MSG在特征提取的多个阶段生成多个状态表示，而SSE则对这些表示进行优化以突出目标特定特征。CSI模块促进了这些状态之间的信息交换，并确保互补特征的整合。值得注意的是，引入的SSE和CSI模块采用了高度轻量级的基于隐藏状态适应的状态空间对偶（HSA-SSD）设计，计算量仅为0.1 GFLOPs，参数量为

。实验结果表明，MST在多个数据集上优于所有之前的高效跟踪器，显著提高了跟踪准确性和鲁棒性。特别是，在GOT-10K数据集上，它表现出优异的运行时性能，AO分数比之前的SOTA高效跟踪器HCAT提高了

。

代码 https://github.com/wsumel/MST

1 引言

视觉目标跟踪是计算机视觉中的一项基本任务，在监控、自动驾驶和人机交互等领域有广泛应用[5, 22, 26, 27, 29, 35, 38, 42]。其目标是在视频帧之间准确地跟踪一个目标，即使在遮挡、外观变化和不同运动动态等具有挑战性的条件下也是如此。高效的目标跟踪方法对于实时应用至关重要，特别是在边缘设备等资源受限的环境中[1, 7, 19, 24, 41, 46]。这些方法通常依赖于参数较少的轻量级模型来实现快速处理速度。然而，这种简化通常会削弱其特征提取能力，并使得使用单层表示难以捕捉目标的完整状态，从而限制了其处理复杂跟踪场景的能力。

为了解决这些局限性，作者提出了多状态跟踪器（MST），这是一种新颖的跟踪框架，旨在增强在具有挑战性环境中高效跟踪的鲁棒性。MST利用多种状态表示来提供对被跟踪目标的更全面理解，使其能够更好地捕捉外观变化、遮挡和运动模糊。关键的是，MST旨在显著提高特征表示和跟踪性能，同时引入最小的计算和参数开销，使其非常适合实时和资源受限的应用。与使用单一状态的传统方法不同，MST融合多个状态以实现更准确和可靠的跟踪。

MST的核心是三个关键模块：多状态生成(MSG)、状态特定增强(SSE)和跨状态交互(CSI)。MSG模块通过对从模板和搜索区域中提取的块之间的空间关系进行建模，生成多样化的状态表示。这些表示随后由SSE模块进行优化，该模块采用全局增强机制来强调目标特定特征，从而使跟踪器对物体外观的细微变化更加敏感。CSI模块促进这些状态之间的信息交换，整合互补特征以进一步提高跟踪性能。

MST的一个关键优势是其高效性。其核心模块SSE和CSI都是基于隐藏状态自适应状态空间对偶性(HSA-SSD)设计的，具有线性时间复杂度和最小的资源消耗。因此，MST即使在实时应用中也能保持高跟踪速度[28, 30]。尽管架构轻量，MST在多个数据集上的表现都优于之前所有的高效跟踪器，显著提高了跟踪准确性和鲁棒性。如图1所示，MST比传统跟踪器OSTrack (-256) [48]快五倍，并且在GOT-10K [20]数据集上的AO得分超过了之前表现最佳的高效跟踪器HCAT [4]

。

picture.image

Multi-State-Tracker提供了一种平衡效率和鲁棒性的新颖解决方案，使复杂场景中的实时跟踪更加可靠。主要贡献如下：

• 多状态跟踪架构：作者引入了多状态跟踪器（MST），它利用多种状态表示来提高跟踪的准确性和鲁棒性，从而更好地处理外观变化、遮挡和运动模糊。

• 关键技术创新：作者提出了三个关键模块：多状态生成(MSG)、状态特定增强(SSE)和跨状态交互(CSI)，其中后两个模块构建在基于隐藏状态自适应的状态空间对偶性(HSA-SSD)之上。这些模块共同实现了多样化状态感知特征的生成、单个状态表示的优化以及跨状态的有效信息交换。重要的是，它们在提升跟踪性能的同时仅引入了最小的计算开销。

• 最先进的性能：利用其创新的架构设计和关键进展，MST不仅保持了卓越的处理速度，还提供了强大的跟踪性能，正如在多个基准数据集上的广泛实验评估所证明的。

2 相关工作

高效目标跟踪

高效目标跟踪对于实际应用，特别是在边缘设备上，已变得越来越重要。早期方法，如ECO [9]和ATOM [8]，展示了实时能力，但它们的跟踪精度往往不足。后续的研究努力寻求更好地平衡速度和性能。例如，LightTrack [46]、FEAR [3]和HCAT [4]探索了轻量级网络架构和高效设计策略，以降低计算复杂度，同时仍提供有竞争力的性能。随着单流架构的出现，如MixFormerV2 [7]和HiT [24]等单流高效跟踪框架将特征提取和交互整合到统一的过程中，通过蒸馏、剪枝和创新架构设计等技术实现了令人印象深刻的精度。然而，这些方法都依赖于单层特征表示来捕获目标的状态。相比之下，作者提出的多状态跟踪器（MST）利用多种状态表示和交互聚合来稳健地捕获多样的目标变化，从而在保持极高计算效率的同时显著增强了跟踪的鲁棒性。

状态空间模型

状态空间模型（SSMs）[16]最近作为序列建模的一种高效且可扩展的解决方案获得了相当多的关注，它提供了线性时间复杂度，同时能够捕捉长距离依赖关系。这些模型源于卡尔曼滤波器，已在各个领域得到广泛采用，特别是在自然语言处理（NLP）中，S4、DSS和Mamba等模型展示了它们处理结构化状态转换的能力，并允许高效的并行计算。在保持低计算开销的同时高效建模时间依赖性的能力，使SSMs成为各种基于序列的任务的有力候选者。

在计算机视觉领域，SSM的使用也开始获得关注。基于视觉的适配模型如Vim [28]、VMamba [33]和MambaVision [17]已经探索了将SSM作为视觉任务 Backbone 网络的应用。例如，Vim采用增强位置嵌入的双向状态空间模型，以促进更好的视觉表征学习；而VMamba引入了2D选择性扫描(SS2D)机制，将SSM的序列性质与视觉数据的空间复杂性相结合。在目标跟踪领域，先前的工作MCITrack [23]在ViT风格的 Backbone 网络中采用Mamba SSMs来建模长期序列依赖性，从而在扩展帧上实现稳健跟踪。

状态空间对偶性(SSD)。状态空间对偶性(SSD)最初由Mamba-2[10]的研究行人提出，其特点是包含一个增强Mamba选择性状态空间模型(SSM)的核心层。这一改进不仅进一步加快了处理速度，而且在长序列建模中保持了与SSM相媲美的性能。然而，传统的SSD公式通常依赖于因果结构，这种结构继承自其在序列建模中的原始用途，但对于空间密集的视觉输入可能不是最优的。为了克服这一问题，非因果SSD(NC-SSD)[50]被提出，它通过移除因果约束，实现了双向信息 Stream ，并改善了视觉场景中的全局上下文建模。NC-SSD通过输入 Token 的加权组合计算全局隐藏状态，并使用这些状态通过线性投影生成输出。尽管如此，由于对每个 Token 应用门控和输出投影，计算成本仍然很高，这些操作随通道维度呈二次方扩展。为了进一步提高效率，基于隐藏状态 Mixer 的SSD(HSM-SSD)[28]作为NC-SSD[50]的改进版本被引入。它围绕一组紧凑的全局隐藏状态重构计算，通过在减小的潜在空间中直接执行门控和输出投影，显著降低了成本。这种设计将复杂度从

降低到

，其中

，同时不损害全局建模能力。此外，带有状态重要性权重的HSM-SSD单头版本已被证明可以减少内存开销，同时保持与多头设计相当的性能。

尽管取得了这些进展，现有的基于SSD的视觉模型主要集中于图像分类任务，而视觉目标跟踪则相对未被充分探索。为了弥补这一差距，作者提出了HSM-SSD的改进变体，称为基于隐藏状态自适应的状态空间对偶性(HSA-SSD)，该变体专门设计以更好地适应在跟踪场景中遇到的多样化输入状态特征。在此基础上，作者进一步开发了一种多状态表示融合策略，该策略结合了特征专业化增强和交互聚合机制。这些增强显著提高了轻量级跟踪器的表示能力，同时保持计算效率。因此，所提出的框架在复杂跟踪条件下实现了强大的鲁棒性，使MST成为一个有效连接高性能视觉跟踪与实时部署的强大解决方案。

3 方法

本节首先在第3.1节概述了多状态跟踪器(Multi-State Tracker, MST)，然后在第3.2节讨论了多状态生成。第3.3节介绍了状态特定增强和跨状态交互模块，这些模块提高了状态特征的特异性并实现了信息交换。最后，第3.4节概述了跟踪头的实现。

3.1 概述

picture.image

图2a展示了所提出的多状态跟踪器(MST)的整体架构。该过程首先对模板和搜索区域进行嵌入，以生成 Token 化表示。这些 Token 随后被连接并输入到多状态生成(MSG)模块。MSG模块负责建模 Token 之间的关系并执行多级特征提取，有效捕获被跟踪目标的不同状态。接下来，这些特征被输入到状态特定增强(SSE)模块。在此阶段，作者采用了一种基于隐藏状态自适应的空间状态二元性(HSA-SSD)驱动的全局建模能力增强机制来优化每个特征。这一过程增强了特征表达特定状态的能力，使跟踪器能够更好地表示目标的细微变化。增强后，优化后的特征被传递到跨状态交互(CSI)模块。在这里，多个特征之间进行信息交换，实现不同表示间互补特征的相互强化和整合。最后，CSI模块的输出被聚合成一个统一的特征，然后被转发到跟踪头进行最终预测。这种多状态表示设计使MST能够在复杂场景中确保稳健和准确的跟踪，同时保持模型的轻量级和高效性。

3.2 多状态生成

多状态生成(MSG)模块，如图2b所示，旨在通过以统一方式处理模板和搜索区域来捕获多样化的目标表示。为实现这一目标，模板

和搜索区域

首先被分割成多个块。每个块然后通过线性变换被投影到潜在空间：

其中

是投影矩阵，

是偏置项，

表示潜在空间的维度。这里，

表示从分割的模板

或搜索区域

中获取的图像块。

接下来，MSG模块将从嵌入模板

和搜索区域

获得的连接tokens作为输入。令

表示这些tokens的集合，其中每个token

是一个

维特征向量。

在这个潜在空间中，连接的 Token

通过多个分层块顺序处理，以建模空间上下文关系。每个块由两个层归一化(LN)、一个多头自注意力(MHSA)层和一个多层感知机(MLP)组成。通过堆叠多个这样的块，MSG模块有效捕获图块之间的长距离依赖关系，并优化特征表示。

具体而言，MSG模块使用多级注意力块来提取特征和建模关系。块中的注意力机制定义为：

其中

、

和

是由投影 Token

复制的 Query 、 Key和Value 矩阵，

是每个注意力头的维度。这种机制使搜索区域能够在模板 Prompt 的指导下迭代地整合目标状态的不同表示。

为了捕获多样化的目标表示，作者从MSG模块的最后三层提取状态特征。令

、

和

分别表示来自第L-2、L-1和L层的特征表示。这些多尺度表示编码了目标外观的不同方面，随后被转发进行进一步处理。

3.3 状态特化与交互

状态特定增强和交互的过程在图2c中进行了说明。最初，由多状态生成(MSG)独立生成的多状态特征

被并行输入到状态特定增强(SSE)模块中。每个状态特征都被单独处理以增强其表示。

SSE模块由多个独立的状态空间模型块组成，每个块对输入状态特征执行双向关系建模，从而增强其独特性，并确保每个状态捕获独特信息。

经过精炼后，增强状态特征

被连接以形成一个统一的状态表示 Yconcatenate，该表示将所有状态的信息整合到一个单一的特征向量中：

这个联合表示然后被传递到跨状态交互(CSI)模块，该模块建模跨不同状态的双向关系。CSI模块确保每个状态都关注其他状态，使模型能够捕获全局状态间依赖关系。

最后，交互后的状态表示

基于连接顺序被分割回其原始组件。然后这些组件进行逐元素求和，以产生最终的增强状态表示Y，它捕获了来自所有状态的集成特征：

状态特定增强 (SSE)：SSE 模块通过显式建模每个状态内的方向依赖性来优化状态表示。SSE 中的过程如图2d 所示。给定输入序列

，该序列随后被输入到一个自适应卷积 1

中，该卷积根据不同状态的特定特征模式动态调整权重，使模型更能适应不同的状态表示。数学运算如下：

其中自适应卷积

根据基于输入状态计算出的attention weights进行自适应调整。该过程可以数学表达为：

其中

是 1×1 卷积核，

表示从输入状态

计算得到的第 k 个核的注意力权重。注意力权重

由一个轻量级网络确定，通常使用全局池化和一个 MLP 层。

其中

表示卷积操作，

是一个动态偏置项。这一步骤使模型能够捕捉通道间的依赖关系，并适应输入状态中的不同特征模式。注意力机制为卷积核分配不同的重要性，使模型能够专注于输入中最相关的特征。使用

的主要好处是它能够以自适应方式处理多样化的状态特征，从而提高SSD处理各种状态表示的能力。

此后，使用ADWConv

对

和

矩阵进行处理。这一步骤使模型能够学习局部空间依赖关系，使其更能理解输入数据中的复杂空间关系。该操作为：

其中自适应深度卷积（ADWConv）

在空间维度上应用

卷积，捕获状态特征图中的局部空间依赖关系。

接下来，矩阵a和

使用矩阵

进行离散化，这导致隐藏状态

通过将离散化后的矩阵

和

与输入

相乘来计算：

其中

是在当前时间步的输入序列。

隐藏状态随后通过

变换，并使用非线性激活函数

进行门控。这可以表示为：

最后，输出

是通过投影隐藏状态并与矩阵

执行 Hadamard 积计算得出的，从而得到最终的增强状态表示：

在投影和门控步骤中使用

确保模型能够自适应地捕获通道间和空间依赖关系，使其非常适合处理变化的状态表示。

跨状态交互 (CSI)：CSI模块整合来自多个状态的特征以捕获全局状态间关系。来自SSE模块的连接状态表示，Yconcatenate

Concatenate

，通过与SSE模块相同的步骤进行处理，包括用于线性投影的AConv1

、用于捕获局部空间依赖性的ADWConv

以及离散化。在此之后，特征通过线性变换和非线性激活函数，以捕获连接状态内的局部依赖性。然后通过Hadamard积操作对全局状态依赖性进行建模，并输出交互状态特征Yinteraction。然后将这些部分分割并相加以获得最终状态特征

：

在经过专门化和交互增强后，被用作跟踪头的特征输入。

3.4 Head 跟踪

作者采用一个center head来估计目标的质心和尺度。该center head由三个并行分支组成，每个分支由多个Conv-BN-ReLU层构成。这些分支产生三个基本输出：一个分类得分图

，它编码了目标在每个空间位置存在的可能性；一个边界框尺寸图

，它预测目标的归一化宽度和高度；以及一个偏移图

，旨在通过减轻离散化误差来优化定位。

目标位置通过选择具有最高分类分数的位置来确定：

最终的边界框是通过结合预测的偏移量和边界框大小来计算的：

在训练过程中，作者同时优化分类和回归目标。分类分支采用加权focal loss来缓解类别不平衡问题，而回归分支则利用

loss和广义IoU损失[40]的组合来增强定位精度。整体损失函数公式如下：

其中正则化参数设置为

和

以平衡不同损失项的贡献，遵循先前的研究工作

4 实验

4.1 实现细节

模型作者提出了多状态跟踪器(MST)，它构建于ViT-Tiny Backbone 网络[11, 39]之上，并使用来自MAE[18, 40]的蒸馏预训练权重进行初始化。Multi-State-Tracker设计用于处理模板大小为

和搜索区域大小为

的输入，能够在具有挑战性的场景中实现高效且鲁棒的目标跟踪。

训练

作者的MST使用PyTorch 1.8.1和Python 3.9.19进行开发和训练，利用了四块NVIDIA RTX 2080Ti GPU。训练数据集由几个已建立的基准数据集组成，包括LaSOT [13]、TrackingNet [37]、GOT-10K [20]和COCO2017 [32]。特别地，严格遵循GOT-10K协议，仅使用其指定的训练分割。网络优化使用AdamW优化器进行300个epoch的训练，每个epoch包含60,000个图像对。为了抑制过拟合，在GOT-10K基准上的训练限制为100个epoch。

推理。在推理阶段，通过在分类响应图与相同尺寸的Hanning窗口之间执行逐元素乘法，将位置先验信息整合到跟踪过程中。然后选择调整后得分最高的候选区域作为最终跟踪位置，从而确定最终的边界框。

如表2所示，作者比较了作者的MST与最先进的轻量级跟踪器的计算成本（FLOPs）和参数量（Params）。MST只需要经典的MixFormerV2-S和HiT-Base一半的FLOPs，同时在UAV数据集上实现了

和

的AUC增益。与最新的AVTrack相比，MST保持了相似的FLOPs和参数量，但在UAV123数据集上的AUC方面优于它

，展示了卓越的效率和跟踪性能。

picture.image

4.2 与最先进方法的比较

作者对作者提出的MST与最先进的方法在七个基准数据集上进行了全面评估：GOT-10K、TrackingNet、LaSOT、TNL2K、UAV123、NFS和

值得注意的是，作者将跟踪器分为轻量级和重量级两组。

GOT-10K。GOT-10K数据集[20]是一个大规模的目标跟踪基准，具有不同的训练和测试划分。为确保对跟踪性能进行严格和公平的评估，跟踪器只能使用训练集中的数据进行训练。如表1所示，MST在GOT10K上取得了出色的结果，在AO、

和

指标上分别超过了之前的最佳性能

、

和

，达到了

、

和

的分数。这一结果充分证明了MST在增强目标感知和跟踪鲁棒性方面的有效性。通过利用多种状态特征来表示目标，MST提高了定位精度和对复杂场景的适应性。

picture.image

TrackingNet。作者进一步在TrackingNet数据集的511个测试序列上评估了跟踪器，该数据集总共包含30643个序列，其中30132个用于训练，511个用于测试[37]。结果如表1所示。与之前最佳的轻量级跟踪器HiT-Base相比，MST在AUC、

和P方面分别取得了

、

和

的显著改进，达到了

、

和

的新最先进分数。这进一步验证了MST卓越的跟踪能力，突显了其在多样化和具有挑战性的场景中出色的准确性、鲁棒性和适应性。

LaSOT. LaSOT数据集作为长期跟踪的基准，包含280个覆盖14种多样化物体类别的测试序列[13]。每个序列平均有2500帧，这为跟踪算法带来了重大挑战。考虑到其延长的持续时间和不同的复杂度，实现高性能需要卓越的鲁棒性。如表1所示，MST在LaSOT数据集上的轻量级跟踪器中也实现了最佳性能，AUC、

和

得分分别为

、

和

。它超越了之前的最佳跟踪器HiT-Base，分别提高了

、

和

，同时相比SMAT表现出更大的改进，分别提升了

、

和

。

作者在LaSOT数据集的各种属性上将作者的tracker与计算上可比较的方法进行比较。如图3所示，所提出的MST在竞争tracker上取得了清晰且一致的优势，在所有14个属性上都优于其他所有方法。这一强劲表现证明了所提出的SSE和CSI模块的有效性，这些模块建立在基于隐藏状态适应的状态空间对偶性(HSA-SSD)之上，增强了tracker在复杂场景中的鲁棒性和准确性。

picture.image

TNL2K, UAV123, NFS 和

。为了展示作者的MST在各种不同场景下的鲁棒性，作者在四个额外的基准测试上对它们进行了评估：1) TNL2K：一个包含700个视频序列的多模态数据集，它集成了自然语言标注，并包含行人外观发生衣物或面部变化的具有挑战性的场景[43]。2) UAV123：一个由在复杂环境中捕获的长期视频序列组成的空中数据集，突出了与基于UAV的跟踪相关的挑战[36]。3) NFS：一个视频以每秒240帧(FPS)录制的高速数据集，专门设计用于测试快速运动下的跟踪性能[25]。4)

：LaSOT的扩展版本，包含150个长期视频序列，为长期跟踪任务提供了额外的挑战[12]。如表3所示，MST在所有四个数据集上都获得了最高的AUC分数，分别达到

、

和

。与之前最佳方法相比，它分别展示了

、

和

的改进。这些结果进一步强调了MST强大的泛化能力，展示了其在各种复杂条件下保持稳定和精确跟踪性能的有效性。

picture.image

4.3 消融研究

在本节中，作者提出一项全面的消融研究，以分析作者MST方法的有效性。在消融实验中，所有模型都使用相同的数据集和超参数进行训练和评估，以确保公平和一致的比较。

关键组件分析

为了验证MST中每个组件的有效性，作者进行了详细的定量消融研究，结果如表4所示。配置#1对应完整的MST模型，该模型集成了MSG、SSE和CSI模块以增强特征表示。这种完整配置实现了最佳性能，显著超越了所有其他变体，证明了作者设计的整体实力。当移除SSE模块（配置

）同时保持所有其他设置相同时，GOT-10k的AO指标性能下降了

，UAV123的AUC指标性能下降了

。类似地，移除CSI模块（配置

）导致在相应数据集上的性能分别下降了

和

。这些观察表明，SSE和CSI都对跟踪器的性能有重大贡献，并表现出强烈的耦合效应，使它们能够共同提高MST的跟踪能力。此外，配置

（同时移除SSE和CSI，仅聚合来自MSG模块的多级特征）显示的性能下降与配置

（移除所有提出的策略）相当。这两种配置的平均分数下降约为

，这进一步证明了作者提出的模块在实现稳健和准确跟踪方面所起的关键作用。

picture.image

MST采用的特征层数量

作者进行了一项消融研究，以探究由MSG输入到SSE和CSI模块的特征层数量对专门细化和交互增强的影响。如表5所示，当仅使用一个特征层作为SSE和CSI模块的输入时，观察到适度的性能提升，GOT-10K的AO和UAV123的AUC平均提高了

。作者将这一改进归因于SSE和CSI模块对特征的进一步细化，这在一定程度上增强了它们的表达能力。当使用两个特征层时，性能提升达到

，表明虽然与单层相比，两层提供了更多样化的信息，但表示仍未完全优化。使用三个特征层时，平均提升增加到

，表明三层提供了足够水平的特征多样性和深度以实现有效增强。然而，当使用四层或五层时，性能提升趋于平稳，分别仅提高了

和

。这表明使用更多层会导致特征信息混乱，并且来自 Backbone 网络的浅层特征可能会引入噪声，干扰最终的特征表示。

picture.image

SSE和CSI变体分析

为了评估SSE和CSI模块对跟踪效率的影响，作者基于其底层模型的不同实现进行了一项消融研究。SSE和CSI都旨在使用轻量级状态空间建模来执行多级状态特征的特化和交互聚合。为此，可以采用各种类型的状态空间模型来实现这些模块。

在表6中， Baseline 指的是作者跟踪器不包含SSE和CSI模块的版本。作者首先使用双向状态空间模型(Bi-SSM)实现了SSE和CSI。尽管这种方法在GOT-10K的AO指标上实现了

的提升，在UAV123的AUC上实现了

的提升，但它显著降低了在GPU和CPU上的推理速度。通过代码级分析，作者将这种速度减慢归因于双向过程固有的顺序性，这阻碍了并行计算。此外，作者发现这种双向建模不太适合图像序列，进一步导致了效率低下。

picture.image

接下来，作者采用了来自EfficientViM的HSM-SSD模块作为SSE和CSI的更高效的主干网络。虽然性能提升略低于使用Bi-SSM所获得的，但推理速度几乎不受影响。最后，作者提出了HSM-SSD的改进版本，专门定制以更有效地处理多样化的状态特征。增强后的模块实现了顶级性能，在GOT-10K上获得了

的AO增益，在UAV123上获得了

的AUC增益，同时保持了与原始HSM-SSD相同水平的效率。

可视化比较

为了全面评估作者MST跟踪器的鲁棒性，作者将其与最近的最先进轻量级跟踪器在各种具有挑战性的场景中进行比较，这些跟踪器具有相似的计算复杂度。在第一个场景中，被跟踪的物体是一辆自行车，经历了显著的背景变化和周围物体的干扰，MST始终保持着准确的定位。相比之下，HiT-Small、HiT-Tiny和HCAT表现出不同程度的漂移或回归误差，无法稳定跟踪物体。第二和第三场景涉及由外观相似物体引起的严重干扰物干扰。在第二种情况下，出现大量相似的毯子，同时伴随着剧烈的视角变化，而第三个场景则包含多个几乎相同的金鱼紧密相邻，使得跟踪任务高度模糊。得益于其能够执行多级状态特征的专业化和交互聚合，MST能够有效地区分真实目标和干扰物，在保持精确目标跟踪方面优于HiT-Small、HiT-Tiny和HCAT。在最后一个场景中，目标经历快速运动并被烟雾部分遮挡，同时存在相似的干扰物。MST是唯一能够在遮挡情况下准确定位物体的跟踪器，而HiT变体表现出回归漂移，HCAT则完全错误识别了目标。此外，MST是唯一能够在序列剩余部分继续保持稳定和准确跟踪的跟踪器。

这些在不同真实场景下的定性比较验证了所提出的SSE和CSI模块的有效性。具体而言，SSE模块专门处理多状态表示，以更好地捕捉目标的独特特征，而CSI模块则实现了跨状态的有效信息交换。两者共同显著增强了追踪器的表示能力，从而在复杂环境中实现更加稳健可靠的性能。

5 结论

本文介绍了多状态跟踪器（MST），这是一种新颖且高效的跟踪框架，通过专门的多状态表示增强和交互聚合来提高轻量级跟踪器的鲁棒性。通过集成所提出的MSG、SSE和CSI模块，MST有效捕捉目标的多样化和互补特征，使得在遮挡、外观变化和运动模糊等复杂场景中能够进行准确跟踪。值得注意的是，SSE和CSI模块采用轻量级HSA-SSD Backbone 网络设计，在提供显著性能提升的同时确保了最小的计算开销。在包括GOT-10K、UAV123和LaSOT在内的多个具有挑战性的基准测试上进行的广泛实验表明，MST在高效跟踪器中实现了最先进的性能，在准确性和速度方面都优于先前的方法。特别是，MST在GOT-10K上超越了领先的高效跟踪器HCAT

，同时在标准硬件上保持实时性能。作者的结果强调了多状态表示在有效跟踪中的重要性，并为在资源受限的环境中部署鲁棒跟踪器开辟了新的可能性。

参考

[1]. Multi-State Tracker: Enhancing Efficient Object Tracking via Multi-State Specialization and Interaction.