MASF-YOLO刷新小目标检测SOTA | 多尺度特征聚合与注意力机制，性能效率全面超越YOLOv11 - 文章 - 开发者社区

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

精简阅读版本

本文主要解决了什么问题

小目标检测困难 ：无人机图像中目标像素比例极小，导致特征提取困难，容易漏检或误检。

显著尺度变化 ：无人机拍摄角度变化导致目标的尺度和形状变化较大，增加了检测复杂性。

复杂背景干扰 ：复杂背景信息对目标检测性能造成显著干扰，降低了检测精度。

模型效率与轻量化需求 ：无人机任务需要检测模型具有轻量化和高速度的特点，以满足实时性和资源限制。

本文的核心创新是什么

多尺度特征聚合模块（MFAM） ：通过并行多尺度卷积和特征融合，显著提高了小目标的检测精度，同时降低计算成本。

改进的高效多尺度注意力模块（IEMA） ：通过特征分组、并行子网络和跨空间学习机制，增强了目标区域的关注，有效抑制了背景噪声干扰。

维度感知选择性集成模块（DASI） ：通过自适应加权和高维特征融合，进一步增强了多尺度特征融合能力，提升了小目标检测性能。

小目标检测层（P2层） ：引入高分辨率小目标检测层，充分利用细粒度特征图，显著提升对小尺度目标的特征表征能力。

Shortcut结构 ：在Neck分支网络中添加Shortcut，保留更多浅层语义信息，缓解深层网络中的语义信息损失。

结果相较于以前的方法有哪些提升

性能提升 ：与YOLOv11-s相比，在VisDrone2019验证集上，

提升了

，

提升了

。 2. 2. 效率优势 ：MASF-YOLO-s在仅需约

的参数和

的计算成本的情况下，性能优于YOLOv11-m。 3. 3. 竞争力对比 ：与当前最先进的检测器相比，MASF-YOLO-s在检测精度和模型效率方面均保持明显的竞争优势。

局限性总结

计算成本 ：尽管MASF-YOLO在参数量和计算成本上有一定优化，但多模块的设计仍可能增加一定的推理时间，影响极端实时场景下的应用。

数据依赖性 ：模型性能高度依赖于训练数据的质量和多样性。对于极端天气条件或低质量图像，模型表现可能受限。

通用性限制 ：MASF-YOLO主要针对无人机视角的小目标检测进行了优化，其在其他领域（如地面视角或普通遥感图像）的应用效果可能需要进一步验证。

深入阅读版本

导读

随着无人机（UAV）和计算机视觉技术的快速发展，从无人机视角进行目标检测已成为一个重要的研究领域。然而，无人机图像中目标像素比例极小、目标显著尺度变化以及复杂背景信息给检测带来的挑战，极大地限制了无人机的实际应用。为应对这些挑战，作者提出了一种基于YOLOv11的新型目标检测网络——多尺度上下文聚合与尺度自适应融合YOLO（MASF-YOLO）。首先，为解决无人机图像中检测小目标的困难，作者设计了一个多尺度特征聚合模块（MFAM），通过并行多尺度卷积和特征融合显著提高了小目标的检测精度。其次，为减轻背景噪声的干扰，作者提出了改进的效率多尺度注意力模块（IEMA），通过特征分组、并行子网络和跨空间学习增强了目标区域的关注。第三，作者引入了维度感知选择性集成模块（DASI），通过自适应加权和高维特征融合进一步增强了多尺度特征融合能力。最后，作者在VisDrone2019数据集上对所MASF-YOLO进行了广泛的性能评估。与YOLOv11-s相比，MASFYOLO-s在VisDrone2019验证集上

提升了

，

提升了

。值得注意的是，MASF-YOLO-s在仅需约

的参数和

的计算成本的情况下，性能优于YOLOv11-m。此外，与当前最先进检测器的对比实验表明，MASF-YOLO-s在检测精度和模型效率方面均保持明显的竞争优势。

引言

近年来，无人机（UAV）和深度学习技术的快速发展为农业、应急救援和交通监控等多个领域带来了革命性的变革[1],[2],[3]。无人机已成为数据采集和实时决策的关键工具，凭借其灵活性、成本效益以及进入难以到达区域的能力。与此同时，深度学习算法在处理复杂遥感图像数据方面显示出优于传统方法的性能，使无人机能够更高效地执行目标检测和分割等任务。无人机与深度学习的结合为跨多个领域的信息采集提供了创新的解决方案。

基于空中视觉的目标检测是无人机任务中的关键环节。目前，基于深度学习的图像目标检测方法主要可分为两阶段检测算法和单阶段检测算法。两阶段检测算法通过"区域 Proposal "和"分类回归"两个阶段实现目标检测，代表性算法包括Fast R-CNN [4]、Faster R-CNN [5]和Mask R-CNN [6]。其优势在于高精度和多任务处理能力：通过精细化的区域 Proposal 和分类回归。其缺点包括高计算复杂度和实时性能差，使其不太适用于高速要求的应用。相比之下，单阶段检测算法在单次前向传递中完成物体分类和定位，显著提高了检测速度。代表性单阶段检测算法包括YOLO系列[7][8][9]和SSD[10]。YOLO通过将图像划分为网格实现端到端检测，每个网格负责预测物体的位置和类别。而SSD采用多尺度特征图进行检测，结合 Anchor 机制有效应对不同尺度物体的检测需求。受益于其快速检测速度可实现实时推理，单阶段检测器已被广泛采纳为无人机应用、自动驾驶等时间关键系统的首选解决方案。然而，为了提升其在复杂场景下的性能，仍需进一步改进。

尽管无人机遥感目标检测在许多任务中取得了显著成就，但它仍然面临诸多技术挑战。首先，由于无人机拍摄距离较远，大多数目标在图像中仅占极小的像素比例，这使得特征提取变得困难，并容易导致漏检或误检。其次，图像中复杂的多样化噪声增加了检测难度。此外，由于无人机拍摄角度的变化，图像中目标的显著尺度形状变化进一步增加了检测的复杂性。另外，无人机任务还要求检测模型具有轻量化和高速度。因此，解决这些挑战是提高无人机目标检测效率和鲁棒性的关键途径。这些研究对无人机相关应用领域具有重要的理论和实践价值。

为应对这些挑战，本文提出了一种高精度算法，其框架轻量，专门用于无人机图像中的小目标检测，命名为MASF-YOLO。通过严格的实证分析和实验验证，作者系统地展示了MASF-YOLO中为这一特定任务所融入的多个创新设计概念的有效性。

更详细地说，作者工作的创新点和贡献可以列举如下：

为解决小目标因反复下采样而丢失细节信息的问题，作者构建了一个高分辨率小目标检测层。该架构融合P2级细粒度特征图，充分利用其保留的丰富空间细节，显著提升了模型对小尺度目标的特征表征能力。此外，作者在 Neck 分支网络中添加了 Shortcut ，以保留更多浅层语义信息，有效缓解了深层网络中的语义信息损失。

在小目标检测任务中，目标通常包含有限的像素信息，因此需要更丰富的上下文信息来辅助检测。为应对这一挑战，作者提出了一种新的多尺度特征聚合模块（MFAM），该模块能够有效捕获目标的丰富上下文信息。这种架构实现了更有效的特征提取，显著提升了小目标的检测精度。

背景噪声始终是影响无人机应用中目标检测性能的关键因素。为了有效抑制这种干扰，作者提出了一种改进的高效多尺度注意力模块（IEMA），通过特征分组、并行子网络和跨空间学习实现特征交互和增强。该模块有效提升了目标区域特征表示，同时显著抑制了背景噪声干扰，从而提高了复杂场景下的目标检测性能。

为克服无人机小型目标检测中的多尺度特征融合挑战，作者引入了维度感知选择性集成模块（DASI），以自适应融合低维特征和高维特征。该模块显著提升了 Neck 网络的多尺度表征能力，从而增强了检测性能。

相关工作

A. 飞行器遥感目标检测

与传统图像不同，遥感图像通常从俯视角度拍摄，导致目标具有任意方向和显著尺度变化的特点。这些特点使得为传统图像设计的传统目标检测方法在处理遥感图像时效果不佳。为解决这些局限性，研究行人从多个角度改进了这些方法，以更好地适应遥感图像的独特属性。为应对尺度变化，LSKNet [11] 引入了一种大选择性核机制，动态调整空间感受野，从而更好地建模目标上下文信息。同时，PKINet [12] 采用多尺度卷积核提取不同尺度目标局部特征，并结合上下文 Anchor 点注意力（CAA）模块捕获长距离上下文信息，从而增强模型对尺度变化的适应性。针对小目标检测，Chen等人 [13] 提出了一种高分辨率特征金字塔网络（HR-FPN），在提高小尺度目标检测精度的同时避免特征冗余。为减轻背景干扰，FFCAYOLO [14] 构建了一种空间上下文感知模块（SCAM），建模目标的全局上下文，从而抑制无关背景信息并突出目标特征。

B. 上下文特征表示

在计算机视觉任务中，图像中的物体与其周围环境密切相关。适当的上下文特征表示能够有效建模局部和全局信息，从而增强模型的检测能力。为捕获长距离依赖关系同时避免过高的计算开销，Guo等人[15]对大核卷积进行分解，并提出线性注意力机制，在网络性能和计算成本之间取得了平衡。Ouyang等人[16]设计了一种高效多尺度注意力（EMA）模块，有效建立短期和长期依赖关系，增强了模型捕获多尺度上下文信息的能力。此外，考虑到单尺度特征在建模上下文信息方面的局限性，Xu等人[17]提出了一种多扩张通道细化（MDCR）模块，通过设计多扩张率卷积层捕获不同感受野大小的空间特征，提高了模型的多粒度语义表示能力。

C. 多尺度特征融合

作为目标检测领域的重要里程碑，特征金字塔网络（FPN）[18]通过自顶向下的通路开创了多尺度特征融合。基于FPN，PAFPN [19]引入了额外的自底向上的通路，从而能更好地从低层传递细节信息。此外，BiFPN [20]结合了可学习权重，对不同输入特征进行加权融合，使网络能够学习每个特征的重要性，并实现高效的特征集成。另外，渐近特征金字塔网络（AFPN）[21]采用渐进式方法，逐步融合不同层级的特征，避免了非相邻层级之间的语义鸿沟。

提出方法

picture.image

本节将详细阐述所提出的MASF-YOLO模型。MASF-YOLO网络的整体架构如图1所示。具体而言，作者在 Baseline 模型中添加了一个小目标检测层（P2层），使网络能够专注于检测小目标。其次，考虑到目标尺度变化的影响，作者通过优化PKINet[12]设计了一个多尺度特征聚合模块（MFAM）。这种特征聚合方法帮助 Backbone 网络捕获丰富的上下文信息，从而提高网络检测小目标的能力。

此外，为了增强特征传播并保留细粒度细节，作者在 Neck 网络中浅层和深层特征图之间引入了跨层 Shortcut ，称为Fusion。这些Fusion为从早期层传输高分辨率空间信息建立了直接路径，有效补偿了深度网络操作造成的语义信息损失。此外，为了减轻背景噪声的干扰，作者提出了受EMA[16]启发的改进高效多尺度注意力（IEMA）模块。这种注意力机制通过特征分组、并行子网络和跨空间学习实现特征交互和增强，有效应对背景噪声带来的挑战。最后，作者引入了维度感知选择性集成（DASI）[17]模块，以增强 Neck 网络的多尺度特征融合能力。这种融合机制自适应地聚合低维和高维特征，在提高网络检测精度方面发挥着关键作用。

A. 多尺度特征聚合模块 (MFAM)

与通用目标检测不同，目标显著尺度变化给遥感目标检测带来了巨大挑战。具体而言， Backbone 网络阶段提取的有限有效语义信息使得难以从背景中区分小目标。

picture.image

为应对这一挑战，作者提出了MFAM来捕获目标的丰富上下文信息，从而增强 Backbone 网络提取小目标特征的能力。MFAM的整体结构如图2所示，其基于PKINet[12]并采用优化设计原则。其不同之处在于MFAM模块利用两个条带卷积

和

实现类似大核卷积

的效果，同时移除大核卷积

，显著降低计算成本。此外，将

卷积改为并行运行，进一步增强多尺度特征表示，避免串行连接可能导致的微小目标语义信息损失。MFAM的数学表达式可写为：

\begin{array} { c } { { Y \_ { \_ { 1 } } = D W C o n \nu \_ { \_ { 3 \times 3 } } ( \ O X ) } } \ { { \nonumber } } \ { { Y \_ { \_ { 2 } } = D W C o n \nu \_ { \_ { 5 \times 5 } } ( \ O X ) } } \end{array}

₁

₂

₃

₄

表示一个卷积核大小为

的深度可分离卷积操作。

表示一个卷积核大小为

的标准卷积操作。符号

表示特征图的逐元素相加操作。

是输入特征图。

和

表示应用了四种不同卷积核大小的深度可分离卷积操作后得到的输出特征图。

是多尺度特征

和输入特征

逐元素相加后得到的结果特征图。

是 MFAM 的输出特征。

与PKI模块[12]相比，MKAM通过多尺度卷积学习更丰富的上下文特征，显著提升了小目标的检测能力，同时保持了更轻量级结构。

B. 改进的高效多尺度注意力(IEMA)

在 Backbone 网络中经过MFAM处理后，特征图已经包含了充分的局部上下文信息。然而，背景噪声的影响仍然对网络的检测性能构成显著挑战。为应对这一挑战，有必要有效地建模目标与背景之间的全局关系。受EMA[16]和InceptionNeXt[22]的启发，作者构建了IEMA模块，如图3所示。

picture.image

与EMA相比，IEMA主要通过引入多尺度深度可分离卷积来优化并行子网络内的局部特征提取组件，包括

，和

核，以及额外的恒等路径。这种优化增强了方向性特征提取，使模型能更有效地捕获多尺度表示，从而改进全局目标-背景关系的建模，并加强复杂背景干扰的抑制。同时，IEMA通过并行子网络和跨空间学习机制保留了EMA的全局建模能力，促进了特征交互与增强。

C. 维度感知选择性集成模块（DASI）

在无人机遥感小目标检测中，特征图在 Backbone 网络中经历多个下采样阶段，导致高层特征丢失小目标细节，而低层特征缺乏上下文信息。多尺度特征聚合有效融合不同层级的语义信息，显著提高小目标检测精度。为解决这一问题，作者引入了维度感知选择性集成模块（DASI）[17]，该模块自适应融合低维特征和高维特征。

picture.image

如图4所示，DASI首先通过卷积和插值等操作将低维特征和高维特征与当前层特征对齐。然后，沿通道维度将三种特征分为四个等分，确保每个部分对应一个分区。在每个分区中，使用Sigmoid激活函数获取当前层特征的激活值，然后利用这些激活值对低维特征和高维特征进行加权融合。最后，将每个分区的结果沿通道维度连接，并采用残差结构以保留当前层特征的语义信息。通过利用当前层特征自适应融合低维特征和高维特征，DASI的多尺度特征融合机制不仅提高了网络检测小目标的能力，还增强了其对复杂遥感场景的适应性。

实验

本节首先介绍了数据集、实验设置、训练策略以及用于评估模型目标检测性能的指标。随后，以YOLOv11-s作为 Baseline ，通过消融实验验证了每项创新对 Baseline 的影响。此外，作者将MASF-YOLO与其他当前最优（SOTA）方法进行比较，以展示其竞争性能。为了便于直观评估，作者展示了MASF-YOLO与 Baseline 方法之间检测结果的对比可视化，这些定性的展示与定量指标表现出高度一致性，共同验证了作者改进策略的有效性。

A. 数据集

由天津大学机器学习与数据挖掘实验室的AISKYEYE团队开发的VisDrone2019数据集是一个大规模的航拍图像数据集，包含288段视频、261,908帧图像和10,209张静态图像，这些图像由不同无人机在各种场景中拍摄。该数据集覆盖了中国14个城市，涵盖了城市和乡村环境，并对行人、汽车、自行车等多个目标类别进行了标注。数据集包含从Sparse到拥挤的场景图像，以及不同光照和天气条件下的图像。由于其具有大量小目标、目标重叠和复杂背景等特点，检测任务具有高度挑战性。该数据集为无人机视角下的目标检测与跟踪研究提供了高质量的实验资源，具有重要的学术和实践价值。

B. 训练集

本文提出的模型使用PyTorch实现，基于CUDA版本11.3。实验环境包括操作系统Ubuntu 20.04及NVIDIA GeForce RTX 4090D 24G显卡。模型训练采用随机梯度下降（SGD）优化器，初始学习率设置为0.01，动量为0.937，并采用余弦退火策略动态调整学习率。训练阶段批处理大小设置为12，训练轮数为100。此外，训练阶段所有图像均调整为640x640像素。

评估指标

为了全面评估作者提出的模型的性能，作者采用了目标检测任务中常用的几个关键指标：精确率（P）、召回率（R）、

参数（Params）和GFLOPs。本节概述了计算这些指标的公式。

picture.image

精确率是正确预测为正类的实例数（TP）与所有被预测为正类的实例数（TP和FP之和）的比值。TP表示正确识别为正类的实例数，而FP表示被错误识别为正类的实例数。精确率的计算公式如下：

召回率是正确预测的正例（TP）与所有实际正例（TP与FN之和）的比率。FN表示被错误识别为负例的假负例的数量。召回率的公式如下：

mAP（平均精度均值）是所有类别中AP（平均精度）的平均值。当IoUIoU设置为常数时，类别

的平均精度是精度-召回（P-R）曲线下的面积。AP和mAP的公式如下：

此处，

是通过在IoU阈值为0.5时计算mAP得到的，而

是通过在0.5到0.95的IoU阈值范围内以0.05为步长平均mAP值计算得到的。

D. 消融研究

为验证本文所提出模型的有效性，作者选取YOLOv11-s作为 Baseline 网络，并通过消融实验评估P2层、MFAM、融合模块、IEMA和DASI模块对 Baseline 网络的影响。如表1所示，当每个模块被添加到 Baseline 网络时，大多数性能指标均呈现上升趋势。因此，这些消融实验验证了本文所提出方法的有效性。

picture.image

如表2所示，通过调整网络的深度和宽度，作者在VisDrone2019验证集和测试集上评估了MASFYOL和YOLOv11的不同模型尺寸。很明显，作者提出改进策略在所有版本中均实现了最佳性能。令人惊讶的是，在YOLOv11-s上应用作者的贡献后，其性能甚至超越了YOLOv11-m，在无人机场景中展现出更优的精度-效率权衡。

E. 与当前最先进技术的比较

如表3所示，与当前最先进的目标检测器相比，所提出的模型保持了优异的精度，并展现出强大的竞争力。此外，在图5中，作者展示了两个具有高度代表性的检测结果，其中 Baseline 模型漏检的小目标（但MASF-YOLO-s成功检测到）用红色边界框突出显示。可以看出，MASF-YOLO-s实现了显著更准确的检测。

picture.image

结论

在本工作中，作者通过多项改进提升了无人机遥感中小目标检测的准确性。首先，作者引入了小目标检测层，显著增强了网络检测小目标的能力。其次，作者将MFAM模块嵌入到 Backbone 网络中，以从目标中提取丰富的上下文信息。此外，作者在颈网络中加入了 Shortcut ，以保留浅层语义并减少深层网络信息损失。进一步地，作者采用IEMA模块来增强特征表示，同时减少背景噪声干扰。

最后，作者采用DASI模块来自适应融合低层和高层特征，提升了颈网络的特征融合能力。实验结果验证了该改进策略的有效性和潜力，为小目标检测的进一步研究提供了有价值的见解。

参考

[1]. MASF-YOLO: An Improved YOLOv11 Network for Small Object Detection on Drone View

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image