YOLOv8-SMOT自适应追踪框架，实时FPS17.61碾压OC-SORT - 文章 - 开发者社区

点击下方名片，关注「集智书童」公众号

picture.image

精简阅读版本

本文主要解决了什么问题

无人机视角下的小型多目标追踪（SMOT）问题 ：特别是针对鸟类等小型、敏捷目标的追踪，面临极端外观信息稀缺、复杂运动纠缠和密集遮挡等挑战。

小目标检测不足问题 ：传统检测方法在高分辨率图像训练中因批处理规模受限，难以有效学习微小目标特征。

复杂运动和频繁遮挡导致的身份模糊问题 ：由于目标运动不规则且密集，传统依赖外观特征和线性运动模型的跟踪方法难以维持稳定的身份匹配。

本文的核心创新是什么

SliceTrain训练增强框架 ：

• 提出“确定性全覆盖切片”与“切片级随机增强”相结合的方法，提升小目标检测性能。
• 有效解决了高分辨率图像训练中的信息完整性与多样性之间的矛盾。

完全不依赖外观特征的鲁棒追踪器设计 ：

• 在OC-SORT基础上引入 运动方向维持（EMA）机制 ，提升对非线性运动的鲁棒性。
• 提出 自适应相似度度量方法 ，结合边界框扩展与归一化距离惩罚，解决小目标匹配困难问题。

检测与追踪协同优化的系统设计 ：

• 检测器在切片图像上训练，推理时直接使用全图，兼顾精度与效率。

结果相较于以前的方法有哪些提升

在SMOT4SB测试集上达到SOTA性能 ：

• SO-HOTA得分55.205，显著优于现有方法。

提升了小目标检测能力 ：

• 通过SliceTrain训练策略，YOLOv8在有限计算资源下实现更优的小目标特征学习。

增强了追踪器的鲁棒性和实时性 ：

• 自适应相似度度量和EMA机制有效缓解了小目标匹配失败和运动预测不稳定问题。
• YOLOv8-SMOT在保持高精度的同时实现近实时追踪（如YOLOv8-S版本达到17.61 FPS）。

具备边缘部署潜力 ：

• 通过量化技术（如QAT、PTQ）可进一步压缩模型，适合部署在低功耗设备上。

局限性总结

对极端运动模式仍可能存在鲁棒性瓶颈 ：

• 虽然EMA机制提升了方向预测稳定性，但鸟类的突发转向仍可能影响追踪连续性。

依赖高质量检测器输出 ：

• 在极端低光照或遮挡严重场景下，检测器性能下降可能直接影响追踪效果。

扩展性受限于切片策略的分辨率选择 ：

• 切片大小和重叠率需根据目标尺寸进行人工调整，缺乏完全自适应机制。

深入阅读版本

导读

从无人机视角追踪小型敏捷多目标（SMOT），如鸟类，是一项极具挑战性的计算机视觉任务。这种难度主要源于三个主要来源：目标外观特征的极端稀缺性、相机与目标自身综合动力学导致的复杂运动纠缠，以及密集群集行为引发的频繁遮挡和身份模糊。本文详细介绍了作者在MVA 2025“寻找鸟类”小型多目标追踪挑战（SMOT4SB）中夺冠的解决方案，该方案采用基于检测的追踪范式，并在检测和关联层面进行了针对性的创新。在检测方面，作者提出了一种名为SliceTrain的系统训练增强框架。该框架通过“确定性全覆盖切片”与“切片级随机增强”的协同作用，有效解决了高分辨率图像训练中小目标学习不足的问题。在追踪方面，作者设计了一个完全独立于外观信息的鲁棒追踪器。通过将运动方向维持（EMA）机制和结合边界框扩展与距离惩罚的自适应相似度度量集成到OC-SORT框架中，作者的追踪器能够稳定处理不规则运动并维持目标身份。YOLOv8-SMOT在SMOT4SB公开测试集上取得了最先进的性能，SO-HOTA得分为55.205，充分验证了YOLOv8-SMOT在解决复杂现实SMOT问题上的有效性和先进性。

代码：https://github.com/Salvatore-Love/Y0L0v8-SMOT

1 引言

随着无人机（UAV）技术在自主系统领域的普及，其作为空中感知平台的应用日益广泛，特别是在生态监测、农业检查和公共安全等领域[12]。虽然无人机为捕捉大范围场景提供了前所未有的灵活性和视角，但它们也给计算机视觉算法带来了严峻的挑战。在这些应用中，视频序列中多个小型移动目标的持续定位和身份保持，即小型多目标跟踪（SMOT），是一项尤为关键且艰巨的基础任务。

从无人机视角来看的SMOT任务，尤其是在追踪鸟类等敏捷生物时，其复杂程度远超传统多目标跟踪（MOT）场景[14,29]。这种复杂性源于三个核心挑战的相互作用：

外观信息极度稀缺：目标通常仅占据几十个像素，几乎不包含可区分的纹理或颜色特征。这从根本上使依赖外观模型进行再识别（Re-ID）的经典跟踪范式失效，例如DeepSORT [21]。

复杂运动纠缠[24]：追踪器不仅要处理目标在3D空间中的自由、非线性运动，还要应对无人机自身复杂平移、旋转和高度变化所引起的剧烈相机运动。这两种运动模式的叠加导致目标在图像平面上的表观运动极其复杂且不可预测，从而频繁导致依赖线性运动模型（如卡尔曼滤波器[2]）的传统方法追踪失败。

密集群集动态[17]: 鸟类的独特群集行为导致目标之间频繁且严重的遮挡，个体之间在外观和运动模式上具有高度相似性。这给仅通过运动信息维持个体身份连续性带来了严峻的考验，而不依赖于外观特征，使其极易受到多种身份切换（ID Switch）错误的影响。

尽管基于跟踪检测[2,21]、联合检测跟踪[20,27]和Transformer[18,25]范式在通用多目标跟踪任务中取得了显著进展，但它们仍难以直接应对上述三种挑战的累积效应。为系统性地推动该领域的发展，MVA 2025组织了"寻找鸟类"小型多目标跟踪挑战赛（SMOT4SB）[8]，提供了首个专为极端场景设计的大规模数据集，并引入了新的评估指标SO-HOTA[9]。

本文介绍了作者在该挑战赛中的冠军解决方案。作者相信，要克服这一问题，构建一个能够协同解决检测和关联 Bottleneck 的框架至关重要。为此，作者提出了一种高效的检测跟踪系统，其核心贡献主要体现在两个方面，每个方面都精确地针对上述挑战：

1. 信息稀缺性下的检测器优化：为从根本上解决小目标检测问题，作者提出了一种名为SliceTrain的系统训练数据增强框架。该框架通过结合“确定性全覆盖切片”和“切片级随机增强”的两阶段过程，显著丰富了训练样本的多样性和信息密度，同时不牺牲信息完整性。这使得检测器（YOLOv8）能够在有限的计算资源下，使用更大的批处理规模进行高效训练，从而显著提升其针对微小目标的特征捕获和定位能力[16]。
1. 针对运动纠缠和群集行为带来的关联挑战，作者设计了一种完全独立于外观特征的跟踪器。通过引入运动方向维持机制以平滑非线性运动的噪声，并设计自适应相似度度量，作者深度增强了OC-SORT [3]框架。该度量结合了边界框扩展和距离惩罚，有效解决了目标尺寸小和频繁近距离交叉导致的匹配困难。

YOLOv8-SMOT在SMOT4SB数据集上取得了最先进的性能，在公共测试集上达到了55.205的SOHOTA分数，这验证了YOLOv8-SMOT在解决复杂的现实世界SMOT任务方面的进步和有效性。

2 相关工作

多目标跟踪（MOT）。MOT领域的主要范式是“检测跟踪”[2, 21]，该范式将检测和关联解耦，允许对每个模块进行独立优化。经典算法如SORT[2]和DeepSORT[21]使用卡尔曼滤波器进行运动预测，并将其与IoU或外观特征结合进行数据关联。近年来，研究行人提出了联合检测和跟踪框架[20, 27]以及端到端的Transformer架构[18]，以提高效率和准确性。然而，这些通用的MOT方法大多依赖于MOTChallenge系列[14]等数据集，其中主要目标为行人或车辆，这些目标通常较大且具有显著的外观特征，与SMOT场景存在显著差异。

小目标检测（SOD）。小目标检测（SOD）旨在解决由于目标尺寸小而导致的有限外观线索的问题[12]。传统方法通过多尺度特征融合（如特征金字塔网络，FPN[11]）和数据增强[30]来提高性能。在空中影像等场景中，目标微小且密集，对检测器的需求尤为严格。VisDrone[29]等基准数据集的出现推动了该领域的发展。在数据层面，虽然传统的随机裁剪可以增加数据多样性，但其采样过程是随机的。对于高分辨率图像中的Sparse小目标，它可能在多次迭代中无法有效采样，导致信息利用不足。切片辅助超推理（SAHI[1]）等方法主要关注使用切片来辅助推理，其训练阶段的切片相对简单。

相比之下，作者提出的SliceTrain框架专注于构建一个更优越的训练范式。它并非简单的随机裁剪，而是通过系统性的全覆盖切片确保原始数据的100%利用率。它不仅用于数据划分，还在切片后应用细粒度的增强变换，以创建具有高信息密度和多样性的训练集。该设计旨在解决传统方法中数据利用的全面性与多样性之间的固有冲突。

小多目标跟踪（SMOT）。SMOT任务的核心挑战在于当外观特征几乎无法使用时如何进行可靠的跨帧关联[12]。现有的SMOT数据集，如UAVDT[5]和VisDrone[29]，主要关注城市环境中运动受限的目标。然而，SMOT4SB数据集首次系统地引入了"运动纠缠"这一挑战[24]，其中相机和目标在3D空间中自由运动。这种复杂的相对运动模式使得仅依赖运动预测变得极其困难，对跟踪器的鲁棒性提出了更高的要求。这促使作者设计了一种不依赖外观信息的跟踪算法，而是深入挖掘并利用运动一致性和相似性度量。

3 方法

作者的跟踪框架根据跟踪检测范式设计，该范式将检测和跟踪匹配过程解耦。这一范式使作者能够分别优化检测器和跟踪器，以构建近乎最优的多人目标跟踪模型。

3.1 检测器

作者的检测模块基于强大的YOLOv8模型，其性能的显著提升主要归功于作者设计的SliceTrain框架。该框架在训练前对数据进行预处理，其核心机制分为两个关键步骤：首先，通过高质量的微调增强模型对细微细节的感知能力；然后，在原始全尺寸图像上进行高效推理。

3.1.1 切片训练框架：克服分辨率多样性困境

高质量小目标检测在处理高分辨率图像时，通常面临一个核心困境：分辨率多样性困境。一方面，高分辨率输入（例如3840×2160）对于捕捉微小目标的细节至关重要。另一方面，巨大的内存开销将批处理大小限制在极小的值（例如1或2），导致训练样本单调、梯度更新不稳定，以及模型难以学习泛化特征[16, 1]。

为克服这一困境，作者设计了SliceTrain，一个系统化的训练数据增强框架。它并非简单的切片操作，而是通过两个互补的核心步骤构建出信息密度极高且多样性极强的数据流：确定性全覆盖Tile化和切片级随机增强。

步骤1：确定性全覆盖Tile化这一原则旨在无损地将高分辨率图像分解为模型可处理的单元，同时确保信息完整性。作者使用重叠滑动窗口将每张高分辨率图像确定性地分割成一组“Tile”（例如，以一定的重叠比例切割成

的Tile）。与随机裁剪不同，这种确定性网格划分确保原始图像的每个像素至少被一个Tile覆盖，实现了空间信息的无损利用。重叠设计确保位于切片边界处的物体完全包含在至少一个Tile中，从根本上防止因分割而丢失目标信息。

步骤2：切片级随机增强

该原则旨在向模型注入最大程度的数据多样性。在获取全覆盖Tile集后，框架将每个Tile视为一个独立图像样本，并应用一系列强随机数据增强（例如Mosaic增强、颜色抖动、随机几何变换）。关键在于增强操作在切片 Level 独立进行。这意味着在构建训练批次时，模型不仅会看到来自不同源图像的Tile，还会看到经过不同视觉变换的样本。

框架效能：构建高密度、高多样性训练批次

SliceTrain框架的最终输出是一个高质量的训练数据流，在信息密度和场景多样性方面均超越了传统方法。当模型从该数据流中采样一个批次时，它不再接触到少数几张相对Sparse的完整图像，而是由来自不同源图像、不同空间位置且经过不同视觉变换的切片组成的高密度样本集。这种设计将每次梯度更新转化为信息丰富、多维度的学习事件，从根本上加速模型收敛并提升其泛化到复杂真实场景的能力。

3.1.2 全尺寸推理

尽管该模型是在SliceTrain框架下进行训练的，但在推理阶段，作者直接将其应用于原始的、未切片的全尺寸测试图像。

这种“训练用切片，推理用全尺寸”的非对称策略是本检测器高效性和高精度的关键。它巧妙地绕过了推理时切片、预测和拼接的复杂过程，从而避免了额外的计算开销以及图像拼接引入的潜在错误。通过对子图像进行高强度的微调，YOLOv8-SMOT对小物体变得异常敏感。当它对全尺寸图像进行推理时，这种“放大”的感知能力使其能够准确定位那些在广阔背景下容易被忽略的微小目标。该方法在保留场景全局上下文的同时，充分利用了细粒度训练的优势，最终形成了一个快速且精确的检测过程。

3.2 追踪器

3.2.1 前提

作者提出的追踪器是对以观测为中心的SORT（OC-SORT）框架[3]的增强，并与ByteTrack[26]集成，它在不依赖外观特征的情况下实现匹配，因为当目标物体过小时，外观特征往往不可靠。为了阐述作者的贡献，作者首先简要概述OC-SORT的初步概念，该框架通过采用优先考虑检测器观测而非模型预测的多阶段策略，改进了传统追踪器，特别是在具有挑战性的场景中。

为简化说明，作者使用

表示可能的跟踪检测，并根据检测置信度分数将它们分为3种类型。

OC-SORT通过一系列专门的过滤和更新阶段，对标准的基于检测的跟踪范式进行了改进：

增强关联：在初始匹配步骤中，OC-SORT通过引入基于历史观测计算的观测中心动量（OCM）来补充标准IoU代价，用于匹配

。该代价基于历史观测计算的运动方向，相较于卡尔曼滤波器提供的噪声速度估计，能提供更稳定的关联线索。

二次匹配：在下一个匹配步骤中，跟踪器专注于

。这些通常是物体已被遮挡的轨迹。关联操作仅使用IoU作为相似性度量。这一步骤对于保持轨迹连续性至关重要，因为它通过“拯救”低分但有效的检测，有效地将轨迹链接起来，从而在部分或完全遮挡期间建立联系。在这个阶段之后仍然未匹配的

以外的检测被视为可能的背景噪声并被丢弃。

启发式恢复：作为最后一步，以观测为中心的恢复（OCR）阶段对剩余的置信度相对较高的未匹配轨迹执行第二次、更简单的匹配尝试。它尝试根据轨迹的最后一次已知观测结果将任何剩余的未匹配轨迹和检测结果关联起来，从而有效恢复可能已停止或被短暂遮挡的物体。

尽管OC-SORT假设在时间间隔内跟踪目标具有恒定速度，这被称为线性运动假设，作者发现几乎76.2%的标注鸟类实例的速度与前一帧相比变化不超过±20%，与前四帧相比变化不超过64.2%，如图2所示。更多结果可在表1中找到。因此作者可以认为大多数鸟类运动满足线性运动假设，OC-SORT是此多目标跟踪任务的合理选择。

picture.image

3.2.2 运动方向保持

外观特征信息缺乏使得小目标跟踪成为一个挑战性任务。为缓解这一问题，作者需要充分利用运动特征。然而，鸟类运动的特征在于其缺乏规律性，这体现在运动速度和方向上。这意味着运动建模可能需要大量参数，因为人类也很难预测远处鸟类的下一刻运动。这将导致显著的实时性能下降。

作为权衡，作者提出应用指数移动平均（EMA）技术来保持历史速度方向。作者认为EMA保持的历史速度比仅使用目标帧之前的第k帧来计算更精确的余弦方向成本是更好的选择。EMA产生的额外成本不会对实时应用造成负担，并且可以避免突然转向的干扰。通过将瞬时速度表示为

，将历史EMA速度表示为

在帧t，更新过程表述为：

3.2.3 相似度度量自适应

OC-SORT的默认相似性度量指标为IoU，当两个边界框不重叠时该指标无效，这种情况在小物体上经常发生。小物体的这一特性使得在跟踪过程中匹配变得困难。但作者提出利用这一特征：考虑到物体较小，重叠的可能性以及较大位移的几率相对低于某些MOT任务。基于这一假设，作者在计算IoU之前将边界框的尺寸扩大，以模拟普通物体匹配任务。边界框扩展的主要思想如图3所示，其与[23]相似。

picture.image

此外，作者通过将距离作为惩罚项扩展了IoU度量，考虑到目标在帧之间没有表现出显著的位移，这与DIoU [28]实际上是相似的。为了归一化这个度量，它可以表示如下：

相

似

度

扩

展

归

一

化

距

离

4 实验

在本节中，作者使用不同参数的YOLOv8评估作者的追踪器。作者比较了多个检测器的影响，并通过消融研究验证作者的改进在不同场景下的鲁棒性和泛化能力。

4.1 数据集和指标

数据集。作者所有的实验都在SMOT4SB [9]数据集上进行，该数据集中大多数目标物体较小且运动模式不规则。SMOT4SB是一个由无人机拍摄的视频组成的数据集，包含128个训练序列、38个验证序列和45个测试序列。与普通的MOT数据集[15, 4]不同，SMOT4SB具有更高的难度，包括：1)目标物体的不规则运动，2)突然且大幅度的相机运动，以及3)小物体外观信息的有限性。

指标。在实验中，作者选择了官方指标SO-HOTA指标（即SO-HOTA、SO-DetA和SO-AssA）[9]，该指标借鉴自HOTA指标（即HOTA、DetA和AssA）[13]。SO-HOTA引入了点距离（DotD）[22]用于相似度评分，该评分方法比较精确的点状目标表示。

4.2 实现细节

检测器。作者的检测器YOLOv8-SOD基于YOLOv8的三种不同尺寸（L、M、S）[7]构建。作者采用SliceTrain策略进行微调：原始高分辨率训练图像（例如

）被切割成

的重叠子图像，重叠率为

。该策略使得单块Nvidia RTX 3090 GPU上的训练批次大小从1（针对完整图像）有效增加到6（针对切割图像）。所有模型都在训练集上进行训练，并直接在原始完整尺寸图像上进行推理，以确保效率和全局上下文。

追踪器。为了确定匹配中使用的IoU阈值的最优值以及与阶段2和3匹配阈值降低相关的超参数，作者采用了网格搜索方法。该过程识别出最优的IoU阈值为0.25，以及阈值的减少量为0.08。关于与置信分数相关的追踪阈值，作者根据在训练数据集上的检测结果，将其设定为0.25。通过在训练数据集上的交叉验证，作者将3.1中的EMA的

设置为0.8。为了简化，作者选择了扩展比例2。这一决策源于作者的经验观察：当位移小于边界框短边长度的30%被视为相对静止运动时，大多数目标边界框在帧间x轴和y轴的位移不超过其各自宽度和高度的两倍。图4提供了这些边界框运动的统计说明。

picture.image

4.3 基准测试评估

作者在公共测试数据集上进行了实验。表2中比较了不同检测器与相同跟踪器的性能，以证明作者的跟踪器能够达到令人满意的性能和实时任务处理能力。

picture.image

如表2所示，作者的评估表明，YOLOv8检测器在不同尺度下，模型性能与计算效率之间存在明显的权衡。最大的模型YOLOv8-L实现了最高的跟踪精度（SO-HOTA为55.205），但速度最慢（5.70 FPS）。相比之下，最小的模型YOLOv8-S将推理速度提升了近三倍至17.61 FPS，并显著降低了内存使用。这种显著的效率提升仅伴随着SO-HOTA性能的微小下降（1.397），验证了其在需要近实时性能的应用中的适用性。

此外，通过模型量化可以显著提升YOLOv8-SMOT的效率。通过应用先进的量化感知训练（QAT）方法，如GPLQ [10]，或实用的训练后量化（PTQ）技术，如QwT [6]和QwT-v2 [19]，可以进一步降低计算开销。这将使作者的高性能跟踪框架能够在低功耗边缘设备上部署，同时保持实时处理能力。

4.4 消融实验

为验证作者提出的改进措施的有效性，作者进行了一项全面的消融研究。跟踪小物体时面临的主要挑战是标准IoU（IoU）指标的不可靠性，即使物体在帧之间只有轻微位移，该指标也常常失效。

为精确量化此问题，作者进行了一项统计分析，重点关注具有挑战性但常见的跟踪场景。作者筛选了训练集中的真实边界框对，其中帧间位移小于较短框尺寸的30%，代表相对稳定但对标准IoU难以处理的物体。表3所示的结果令人瞩目。Default IoU指标表现极差，仅在第十百分位数上获得0.048的得分。相比之下，当同时使用作者的BBox Expansion和Center Distance方法时，第十百分位数得分提升至0.621，中位数得分达到0.848。这证明作者提出的指标在标准IoU失效的确切条件下，提供了显著更稳健和一致相似性信号。

picture.image

该鲁棒化度量对整体跟踪性能的直接影响详细见表4。从基准SO-HOTA 44.200开始，作者逐步添加了作者的贡献。在集成用于运动稳定的指数移动平均（EMA）（将SO-HOTA提升至47.916）之后，作者引入了作者的完整增强相似性度量，并将其分解为两个步骤。首先，添加边界框扩展将SO-HOTA提升至51.387。其次，添加距离惩罚提供了最显著的提升，最终将SO-HOTA提升至55.205。这证实了该鲁棒相似性信号，特别为具有挑战性的低位移条件设计并验证（如表3所示），直接转化为更优越的跟踪精度。

picture.image

参考

[1]. YOLOv8-SMOT: An Efficient and Robust Framework for Real-Time Small Object Tracking via Slice-Assisted Training and Adaptive Association.