提升YOLO系列模型,FA-YOLO在目标检测精度上的显著进步 ! - 文章 - 开发者社区

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

想要了解更多：

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」

行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码，加入「 集智书童-知识星球 」，日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑，期待交流！

免责声明

凡本公众号注明“来源：XXX（非集智书童）”的作品，均转载自其它媒体，版权归原作者所有，如有侵权请联系我们删除，谢谢。

picture.image

近年来，YOLO系列模型已成为目标检测领域的主导方法之一。许多研究通过修改其结构、提高数据质量和发展新的损失函数来改进这些基础模型。

然而，现有的模型在处理特征图时仍然存在一些缺陷，例如忽略跨尺度特征的融合以及缺乏动态特征调整的静态融合方法。为了解决这些问题，本文提出了一种高效的细粒度多尺度动态选择模块（FMDS模块），它对细粒度多尺度特征图施加更有效的动态特征选择和融合方法，显着提高了复杂环境中小、中、大型目标的检测准确性。

此外，本文还提出了一种自适应门控多分支聚焦融合模块（AGMF模块），该模块利用多个并行分支对由门控单位分支、FMDS模块分支和三元组注意分支捕获的各种特征进行互补融合，从而进一步增强了特征融合的全面性、多样性和完整性。

本论文将FMDS模块和AGMF模块集成到Yolov9中，开发了一种名为FA-YOLO的新的目标检测模型。

大量的实验结果表明，在相同的实验条件下，FA-YOLO在PASCAL VOC 2007数据集上的平均精确度（mAP）达到了66.1%，比YOLOv9的65.1%提高了1.0%。此外，FA-YOLO对小、中、大目标的检测精度分别为44.1%，54.6%和70.8%，分别比YOLOv9提高了2.0%，3.1%和0.9%。

1 Introduction

目标检测，作为计算机视觉的基础任务，旨在识别物体类别并确定它们的位置。它在各个领域都有广泛的应用，包括多目标跟踪[1; 2]，自动驾驶[3; 4]，机器人学[5; 6]，以及医学图像分析[7; 8]。随着Transformer的广泛应用，研究行人已经使用Transformer的编码-解码架构开发了一系列端到端目标检测模型，例如DETR [9], Conditional DETR [10], Deformable DETR [11]，和DINO [12]。尽管基于Transformer的检测器在检测性能方面表现出显著的优势，但在速度方面仍然落后于基于CNN的模型。近年来，对于基于CNN的检测网络进行了大量研究，在速度方面取得了显著的进步。目标检测框架已经从两阶段模型（例如Faster RCNN [18]和Mask RCNN [20]）进化到一阶段模型（例如YOLO [13]），从基于 Anchor 点（例如YOLOv3 [21]和YOLOv4 [14]）到 Anchor-Free 点（例如CenterNet [22]，FCOS [23]和YOLOX [15]）。研究行人如Golnaz Ghiasi [24; 25; 26]通过NAS-FPN和其它方法探索了目标检测任务的优化网络结构，而其他研究者[27; 28; 29]则研究了蒸馏作为一种提高模型性能的方法。 YOLO系列，基于CNN模型，在业内广泛受到关注，原因在于其简单结构和速度与准确性之间的平衡。然而，YOLO系列模型在特征选择方面存在显著局限。首先，它们在捕捉细粒度特征和其静态特征融合方法在动态调整能力方面存在不足，这直接影响了模型在复杂现实世界环境中的有效性。其次，在层间信息融合，传统结构如FPN [24]无法无损地传输信息，限制了YOLO中的信息融合。因此，本文提出了一种高级特征选择模块，名为FMDS模块（Fine-grained Multi-scale Feature Dynamic Selection Module）。通过适应性和动态地选择细粒度多尺度特征，该模块显著增强了特征融合能力，从而改善了在复杂环境中小、中、大尺寸目标的检测精度。"

关于该模块和互补特征融合能力的引入，该文还设计了一种名为AGMF模块的主动多分支融合模块，该模块包括FMDS模块分支， gated单元分支和Triplet Attention分支。该模块通过这些分支的互补融合来提高特征融合效率并增强特征图的表达能力。在PASCAL VOC 2007数据集的广泛实验中，表明实施提出的FMDS模块和AGMF模块后，FA-YOLO模型在所有指标上在PASCAL VOC 2007数据集上的目标检测性能均得到显著提高。

本文的贡献总结如下：

本论文从特征选择的角度对YOLO系列目标检测模型进行了理论分析，揭示了在特征捕获和融合以及特征传输和转换过程中存在的局限性和大量信息损失。根据这些发现，设计并实现FMDS模块和AGMF模块，达到了优秀的结果。
本论文设计的 FMDS模块通过适应性和动态地选择细粒度多尺度特征增强了特征融合能力，提高了在复杂环境中不同尺寸目标的检测精度。
本研究设计的AGMF模块通过互补多分支融合实现了更高效的特征融合并增强了特征图的表示能力。
大量实验结果表明，在实现提出的FMDS模块和AGMF模块后，FA-YOLO模型在PASCAL VOC 2007数据集中所有指标上的目标检测性能都有显著提高。

2 Related work

Realtime object detectors

在当前实时目标检测中，主要的实时目标检测器是YOLO系列。YOLOv1-v3 [13; 30; 21] 建立了YOLO的初始框架，具有单阶段检测结构，包括backbone、neck和head，并利用多尺度分支预测不同尺寸的物体，从而成为单阶段目标检测模型的代表。YOLOv4 [14] 优化了之前使用的Darknet backbone，并引入了诸如Mish激活函数、PANet和高级数据增强技术的改进。YOLOv5 [31]，继承了YOLOv4 [14]的框架，具有改进的数据增强策略和更广泛的模型变体。YOLOX [15] 集成 Multi Positives、Anchor-free 和 De Coupled Head 进入模型结构，为YOLO模型设计树立了新的范例。YOLOv6 [39; 38] 首次采用重参化技术，引入 EfficientRep Backbone 和 Rep-PAN Neck。YOLOv7 [41] 专注于分析梯度路径对模型性能的影响，提出了 E-ELAN 结构，以增强模型能力而无需破坏现有的梯度路径。YOLOv8 [44] 借鉴了前YOLO模型的优势，并有效集成。YOLOv9 [36] 采用 GELAN 改进由PGI提出的架构和训练过程，成为顶级实时目标检测器。尽管此前

Multi-scale features for object detection

不同层次的特征携带不同尺寸物体的位置信息。大的特征图包含低维纹理细节和小型物体的位置，而小的特征图涵盖高维信息和大型物体的位置。为了有效提高目标检测的性能，方法如SSD [17]和DSOD [52]在 Backbone 网络后添加了多个卷积层，并在不同大小的特征图上进行预测，以实现多尺度预测。

Tsung-Yi Lin等人[24]提出了特征金字塔网络(FPN)，通过跨尺度连接和信息交换合并多尺度特征，从而提高不同大小目标检测的准确度。DSSD [53]利用反卷积进行特征上采样，并通过逐元素乘法实现多尺度特征融合。PAN等人[24]在FPN基础中添加了自底向上路径，以进一步增强信息融合，使高分辨率图像具有强大的语义信息。EfficientDet [47]引入了一种新的可扩展模块（BiFPN），以提高不同 Level 信息融合的效率。Ping-Yang Chen [54]使用双向融合模块来改善深度和浅层之间的交互。与这些层间方法不同，Chen等人[55]利用聚集特征金字塔(CFP)方法对单个特征信息进行探索。此外，为了解决FPN在检测大型物体时的限制，Quan等人引入了SAFNet [56]，具有自适应特征融合和自增强模块。然而，基于FPN的融合结构仍面临速度慢、跨 Level 信息交换和由于网络中过多的路径和间接交互方法而出现信息损失的问题。

Multi-branch Architectures

卷积神经网络[57; 58; 59; 60]使用多路径结构丰富特征空间，证明了多样化连接、不同感受野、以及多路径组合的重要性。多样化分支块[61]采用多路径拓扑概念，然而，它与Diverse Branch Block的主要区别在于两点：

①Diverse Branch Block是一个可以在各种架构上使用的模块；

②Diverse Branch Block内的每个分支都可以转换成一个卷积，使这些分支可以合并为一个卷积。

刘等人[62]将一个四通道的RGB-D图像输入到 Backbone 网络，并从每个次级分支（单流网络）获得显著性输出。陈等人[63]使用了双 Backbone 网络来分别提取RGB和深度特征，然后使用级联互补策略（双流网络）将它们融合。陈等人[64]介绍了一种由两个独立模态 Backbone 网络和一个并行跨模态蒸馏分支组成的网络结构，致力于学习互补信息。然而， previous multi-path structures rarely considered the integration of convolutional branches with attention branches, leading to the excessive weighting of redundant information。具有融合门控单元、FMDS模块和TripletAttention的AGMF模块能够生成更全面和丰富的特征图。

3 Method

Overview

在本节中，根据前一个问题分析，作者将详细解释FMDS模块和AGMF模块的动机和具体结构。同时，作者还将阐述这两个模块如何在FA-YOLO框架中集成，并为您提供一个关于FA-YOLO的全面总结。

FMDS Module Design

3.2.1 Motivation

尽管YOLO模型系列在检测速度方面表现出色，但这种优势往往是以牺牲对细节特征的敏感性为代价的。尤其是在处理小目标检测或复杂场景中的细微变化时，它们往往无法捕捉到足够的细节信息，导致检测效果不理想。主要原因是未能充分获取细粒度特征以及缺乏能根据不同场景动态调整特征处理策略的特征融合方法。

此外，当整合跨层特征时，YOLO模型系列通常采用类似特征金字塔网络（FPN）的结构来实现特征融合。然而，这种结构在上传和下载信息时容易遇到信息丢失的问题，通常导致细节信息的损失。这种信息的损失限制了模型在复杂环境中处理信息和做出决策的能力，从而影响了检测性能。

3.2.2 FMDS Module

FMDS模块通过在细粒度多尺度特征图上实现更高效的动态特征选择融合方法，增强了复杂环境中小、中、大目标检测的准确性。如图1所示。首先，FMDS模块将输入特征图分成多个更小的区域块，如公式1所示，使模型能更好地捕捉不同大小的目标的精细特征。

picture.image

其中，X表示输入特征图，B表示批量大小，H和W分别代表特征图的高度和宽度。X_Blocks表示特征图被分成多个更小的区域块。接着，每个区域块由不同尺度的卷积核独立处理，如图2所示。这种方法不仅增强了特征的局部敏感性，还使模型能捕获更详细的 spatial 分层信息。

picture.image

在这个框架中，代表深度卷积，其中、和分别表示深度卷积核的大小、步幅和填充。同样，代表点积卷积，其中、和分别表示点积核的大小、步幅和填充。经过不同尺度卷积核处理后的X_Blocks'表示被独立处理后的区域块。

接下来，处理后的细粒度多尺度特征被集成，如图3所示。

picture.image

方程3中，是将多个处理后的区域块重新组装成一个处理后的特征图。

将原始特征图与方程3得到的特征图在第一个方向上进行拼接，形成一个新的特征图，如图4所示。

picture.image

模型中的是通过将原始特征图与方程式3中得到的特征图在第一个方向上拼接而成的新特征图。

随后，新特征图根据不同区域块和尺度的特征的重要性进行动态评估，以优化特征的权重分布，如图5所示。

在这个模型中，指的是经过自适应特征选择处理的特征图。K、S和P分别表示卷积核的大小、步幅和填充。

这种细粒度、多尺度动态特征选择和融合方法显著提升了模型在复杂环境中小、中、大目标检测的能力。对于小尺寸目标检测，模型通过聚焦于更细的特征细节提高了识别率；对于中等到较大尺寸的目标，它通过集成多尺度特征以获得足够的上下文支持，从而实现更准确的局部定位和识别。

AGMF Module Design

3.3.1 Motivation

不同的数据特征，如纹理、颜色和语义内容，可能需要不同的处理策略。单个处理分支往往无法全面捕获复杂数据的多个维度特征，尤其是在这些特征交织互动的情况下。然而，单个处理分支可能难以适应不同类型数据的变异和需求，可能导致重要信息的丢失或特征表示不足。尽管传统多卷积分支在空间特征提取方面具有更强的能力，但仍可能导致无关信息的过重强调。另一方面，注意力分支关注数据内的关键信息和关系，优化全局上下文解析能力。卷积分支与注意力分支的结合可以使模型不仅能准确捕获细节，还能把握整体数据的 essential 特征和趋势。

3.3.2 AGMF Module

AGMF 模块主要包含三个并行处理分支：门控单元分支、FMDS 模块分支和三元注意力分支。每个分支都负责捕捉和处理数据的不同方面，在高效协作的同时，这些分支也保持了模型的灵活性和高性能。模块的整体结构如图2(b) 所示。

门控单元分支调控特征图的信息流，使其能够根据数据的动态变化自适应地调整。它过滤掉对当前任务至关重要的信息，抑制无关或冗余的信息传输，从而提高模型的关注度和效率，如图6和7所示。

在这个配置中，表示输入特征图，而表示门控单元分配给的权重。

在方程7中，表示门控单元分支的输出。

FMDS 模块分支可以有效地捕捉和选择多尺度和细粒度的数据特征，使它可以从输入数据中收集一系列从细节到全局的特征尺度。三元注意力分支利用三元注意力注意力机制来关注增强模型的识别和处理关键特征的能力，从而提高模型识别重要数据特征的能力。经过上述三个分支独立处理的数据，各自的特征输出被收集到融合层。这个层考虑了每个分支输出的重要性和互补性，将这些特征集成形成最终的高质量特征表示。

Architecture Design of FA-YOLO

在确保后续消融实验的一致性方面，FA-YOLO 采用了与 YOLOv9 相同的数据增强策略和超参数设置。FA-YOLO 和 YOLOv9之间的主要区别在于，在 RepNCSPELAN4 模块中引入了 FMDS 模块和 AGMF 模块。这些额外的模块显著增强了特征融合和特征表示能力，从而在复杂环境中提高了各种大小目标物的检测精度。结构图如图3 所示。

4 Experiment and Result analysis

第四实验与结果分析部分的开始。

Setups

4.1.1 Datasets

作者在PASCAL VOC 2007数据集上进行了大量实验来验证所提出的FA-YOLO增强算法。作者的所有实验都未使用预训练模型，而是从零开始训练所有模型。最后，作者在PASCAL VOC 2007数据集上与其他主流的YOLO系列模型比较了FA-YOLO的检测性能。

4.1.2 Implementation details

这篇论文采用了YOLOv9的设置，使用相同架构和训练配置，除了RepNCSPELAN4结构外。优化器和其他设置也与YOLOv9相同，即随机梯度下降（SGD）具有动量和余弦衰减 learning rate。作者使用 Warm up 、分组权重衰减策略和指数移动平均（EMA）。作者采用的数据增强方法是Mosaic和Mixup。批处理大小设置为32。总训练次数为500个周期。在设置学习率时，作者在第一、二、三个周期中使用线性 Warm up ，后续周期根据模型规模设置相应的衰减方式。对于最后的15个周期，作者关闭Mosaic数据增强。

Results

本文提出的算法与YOLO系列模型进行了比较，结果如下表1和表2所示。实现结果显示，作者提出的FA-YOLO在检测性能上超过了目前主流的YOLO系列模型。相较于YOLOv5-L，FA-YOLO在mAP上的提升达到了14.7%，其参数数量仅为30.7 M，后者大约是其三分之二。相较于YOLOv7，FA-YOLO的参数数量少了6.2 M，占FA-YOLO模型总参数的20%，且其mAP和AP50分别比YOLOv7提高了10.7和7.2个点。FA-YOLO的参数数量只有YOLOv8-L的70.3%，但在mAP上实现了0.8点的提升，与YOLOv8-L的吞吐量（批次大小为1）和GPU延迟几乎相同。相较于YOLOv9，FA-YOLO在平均精确率（mAP）上的提升为1.0%，对于检测小型、中型和大型目标的准确率分别提高了2.0%、3.1%和0.9%。此外，FA-YOLO的计算量为101.9 GFLOPs，低于YOLOv9的102.8，表明FA-YOLO相对于YOLOv9所需的计算成本较低。

picture.image

Ablations

为了验证作者特征融合分析的有效性并评估提出的FMDS模块和AGMF模块，作者独立检查了FA-YOLO中的每个模块，重点是mAP，，，和，具体见表3。结果表明，FMDS模块通过在细粒度多尺度特征图上实现更高效的无动态特征选择和融合方法，显著提高了复杂环境中小、中、大目标检测的准确性，实现了0.4%mAP性能提升。尤其是，小型和中型目标的检测准确率分别提高了2.0%和3.1%。AGMF模块通过集成FMDS模块、TripletAttention分支和Gated Unit分支的输出，对多个分支捕获的不同特征进行互补融合，形成最终的高质量特征表示，实现了1.0%的性能提升。

picture.image

在本文中，作者提出了FMDS模块，该模块通过实现适应性动态特征选择和融合方法的细粒度多尺度特征的更高效融合。此外，AGMF模块将FMDS模块、TripletAttention分支和Gated Unit分支的输出相结合，实现了不同分支捕获的特征之间互补融合，从而有效提高了特征融合效率，增强了特征图的表达能力。为了验证这些设计的有效性，本文采用YOLOv9和FATOLO同一层特征图的视觉化对比，如图4所示。图4（b)展示了YOLOv9的特征图可视化结果，而图4（c）呈现了FA-YOLO特征图的可视化结构。如图4所示，集成了FMDS和AGMF模块的FA-YOLO在图像的检测和定位能力方面取得了显著改进。

5 Conclusion

在这篇论文中，作者对YOLO系列模型在特征捕获和融合方面的局限性进行了深度分析，特别识别出在特征传输和转换过程中重要特征的大量损失。为了解决这个问题，作者设计了FMDS和AGMF模块，并通过实验验证了其有效性。

FMDS模块通过自适应动态选择细粒度的多尺度特征，显著提升了模型在复杂环境中针对各种大小目标的检测精度。此外，AGMF模块通过互补融合的方式整合了FMDS模块的分支、门控单元和三元组注意力。基于FMDS和AGMF模块的设计，作者提出了一种名为FA-YOLO的新目标检测模型。相比最新的YOLOv9，FA-YOLO在性能上有所提升：平均精确率（mAP）提升1.0%，提升0.6%，提升0.3%。特别是在不同大小目标的检测精度方面，小型目标（）的改进达到2.0%，中型目标（）的改进达到3.1%，大型目标（）的改进达到0.9%。这些结果显著地证明了FA-YOLO在目标检测任务中的效率和准确性。

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image

点击下方“ 阅读原文 ”，

了解更多AI学习路上的「武功秘籍」