点击下方卡片,关注「集智书童」公众号
由于PAFPN在多尺度特征融合方面的有效性,它已成为基于YOLO检测器中广泛采用的组件。然而,PAFPN在整合High-Level语义线索与Low-Level空间细节方面存在困难,限制了其在实际应用中的性能,尤其是在存在显著尺度变化的情况下。
在本文中,作者提出了MHAF-YOLO,这是一种具有多分支辅助特征金字塔网络(MAFPN)灵活设计的检测框架,该网络由两个关键模块组成:表面辅助融合(SAF)和High-Level辅助融合(AAF)。SAF通过融合浅层特征,有效地以高保真度传递关键的Low-Level空间信息。同时,AAF在更深层的 Neck 层中整合多尺度特征信息,向输出层提供更丰富的梯度信息,进一步增强了模型的学习能力。
为了补充MAFPN,作者引入了全局异构灵活核选择(GHFKS)机制和重新参数化的异构多尺度(RepHMS)模块以增强特征融合。RepHMS全局集成到网络中,利用GHFKS为不同的特征层选择更大的卷积核,扩展垂直感受野,并在空间层次间捕捉上下文信息。局部上,它通过在同一层中处理大和小卷积核来优化卷积,扩展横向感受野,并保留检测小目标所需的关键细节。
MHAF-YOLO的小型版本在COCO上实现了48.9%的AP,仅使用7.1M参数,相比YOLO11s减少了24.4%,同时性能提升了1.9%。此外,MHAF-YOLO在实例分割和旋转目标检测方面均表现出卓越的性能和泛化能力。
代码:https://github.com/yang-0201/MHAF-YOLO
- 引言
近年来,为了实现高性能的实时目标检测,开发了多种算法。其中,从YOLOv1到YOLO11的一系列YOLO算法,由于它们在速度和精度之间的折中,在目标检测领域发挥着越来越重要的作用。
特征金字塔网络(FPN)[19]采用自上而下的架构,将高层语义信息丰富到低层特征中,有效地生成多尺度特征图。在FPN的基础上,路径聚合特征金字塔网络(PAFPN)[20]引入了自下而上的路径,使得来自低层的精确定位信息能够更有效地向上传递。这种增强提高了特征金字塔的整体定位能力。此外,由于其简单高效的融合机制,PAFPN在YOLO系列模型中得到广泛应用。在图1(a)中,层P2-P5代表 Backbone 网络不同层级的输出信息。YOLO系列模型的 Neck 结构采用传统的PAFPN,其中包含两个用于多尺度特征融合的主要路径。然而,作者发现PAFPN仍然存在两个显著的局限性。
首先,PAFPN结构主要关注合并相似尺度的特征图,但在有效处理和整合来自不同分辨率层的多尺度信息方面存在不足。这种保守的特征融合方法可能会阻碍模型在各个层面充分参与的能力,可能导致深层中详细信息的丢失,并在每个尺度上产生过于简单的结果。例如,在PAFPN的Block1中,输入将上采样的P5层与相邻的P4层合并,忽略了P3层中存在的关键浅层、Low-Level空间细节。同样,在Block2中,与P2层的直接融合明显缺失,这对于捕捉小目标细节至关重要。这种不足在Block3和Block4中也有所体现,限制了特征融合过程的整体有效性。
其次,小目标检测层的架构策略采用单一路径自上而下和两个相关块的设计。这种配置显著降低了模型有效学习和表示小物体特征的能力,因为小目标检测层缺乏来自额外特征层的充足补充信息。此外,PAFPN中的每个特征提取模块通常由改进的跨阶段部分网络(CSPNet)[21]和固定的卷积组成,这限制了网络的灵活性并限制了其捕获更大感受野的能力。在实际应用中,这些限制可能导致PAFPN在同时分布或密集小物体场景中具有不同尺度的物体时表现不佳。例如,在图1(b)和(c)中,与本文提出的MAFPN相比,带有PAFPN的YOLOv10模型在密集小人群中的激活水平显著较低。
作者进行了广泛的实验以验证MHAFYOLO的有效性,通过扩展模型规模,提供了轻量级-Nano、Tiny、Small和Meduim变体,以适应不同的应用场景。如图2所示,MHAFYOLO在参数更少和计算成本更低的情况下实现了最高的准确率,超越了所有最先进的(SOTA)YOLO检测器。降低的计算负载在计算资源有限的设备上尤其有价值。
本文的主要贡献总结如下:
- • 作者提出了一种新的即插即用型 Neck 结构,称为多分支辅助特征金字塔网络(MAFPN),以实现更丰富的特征交互和融合。在MAFPN中,浅层辅助融合(SAF)通过双向连接保持浅层 Backbone 信息,增强了网络检测小目标的能力。此外,High-Level辅助融合(AAF)通过多向连接丰富了输出层的梯度信息。此外,MAFPN可以无缝集成到任何其他检测器中,以增强其多尺度表示能力。
- • 作者设计了具有高参数利用率的Reparameterized Heterogeneous Multi-Scale RepHMS模块。该模块通过并行执行大核卷积和多个小核卷积来扩展感知范围,同时不增加额外的推理成本,并保留对小物体的信息。RepHMS可以无缝集成到 Backbone 网络或FPN中,从而提升任何网络的表现。
- • 作者提出了一种全局异构灵活核选择(GHFKS)机制,通过调整网络不同分辨率特征层中的RepHMS核大小,自适应地扩大整个网络的有效感受野。
- • 多分支异构辅助融合YOLO(MHAFYOLO)以其极高的参数利用率,在COCO数据集的目标检测任务中实现了最先进的性能,超越了现有的实时目标检测器。此外,MHAFYOLO在实例分割和旋转目标检测方面也表现出优异的性能,展示了其强大的泛化能力。
- 方法
2.1 宏观架构
如图4所示,作者将一阶段目标检测器的宏观架构分解为三个主要部分: Backbone 网络、 Neck 和 Head 。在提出的MHAF-YOLO中,输入图像首先通过 Backbone 网络,该网络由四个阶段组成:P2、P3、P4和P5。MAFPN被设计为 Neck 结构。在第一个自底向上的路径中,SAF模块负责从 Backbone 网络提取多尺度特征,并在 Neck 浅层进行初步辅助融合。同时,AAF通过第二路径中的密集连接从每个深层层收集梯度信息,最终引导 Head 在三个分辨率上获取多样化的输出信息。上述两种结构都采用RepHMS模块进行特征提取,无缝集成GHFKS概念,利用动态大小的卷积核,在不同层之间实现自适应感受野。最后,检测 Head 根据每个尺度的特征图预测目标边界框及其对应类别,以计算其损失。
2.2 全局自适应异构柔性核选择机制
一个重要的因素是,transformers的有效性归功于它们的自注意力机制,该机制在全局或更大的窗口范围内执行 Query - Key-Value 操作。同样,大型卷积核可以捕捉局部和全局特征,而使用适度大的卷积核来增加有效感受野已被多项工作证明是有效的。Trident Network [25] 进行的研究表明,对于检测较大物体,具有较大感受野的网络更受欢迎,而较小尺度的目标则从较小的感受野中受益。YOLOMS [14] 引入了异构核选择(HKS)协议的概念。在主干网络中采用3、5、7和9的增量卷积核设计以平衡性能和速度。受此启发,作者将该工作扩展到全局异构灵活核选择(GHFKS)机制,将异构大卷积核的概念整合到整个MHAF-YOLO架构中。除了主干网络中RepHMS的逐步增加的卷积核外,作者还引入了5、7和9的大卷积核到MAFPN中,以适应不同分辨率的需求,从而逐步获得多尺度感知场信息。
2.3 多分支辅助特征金字塔网络
精确定位依赖于浅层网络提供的详细边缘信息,而精确分类则需要更深层网络来捕捉粗粒度信息[3]。作者认为,一个有效的特征金字塔网络(FPN)应该支持浅层和深层网络信息流的充分和充分融合。
2.3.1. 表面辅助融合
在 Backbone 网络中保留浅层空间信息对于增强对小物体的检测能力至关重要。然而, Backbone 网络提供的信息相对基础且易受干扰。因此,作者将浅层信息作为辅助分支融入更深层的网络中,以确保后续层学习的稳定性。遵循这些原则,作者开发了SAF模块,如图5所示。SAF的主要目标是整合 Backbone 网络中多尺度特征层嵌入的深层信息与浅层空间信息,旨在保留丰富的定位细节以增强网络的空间表示。
此外,作者使用卷积来控制浅层信息中的通道数,确保在concat操作中占比较小,同时不影响后续学习。令,和表示不同分辨率的特征图,其中,和分别表示 Backbone 网络的特征层和MAFPN的两个路径。符号表示上采样操作。代表全局平均池化,Down表示带有批量归一化层的下采样卷积,代表silu函数,Conv表示控制通道数的卷积。应用SAF后的输出结果如下:
2.3.2. High-Level辅助融合
为进一步提升特征层信息的交互利用,作者在MAFPN的深层使用AAF模块进行多尺度信息集成。具体来说,图6展示了中的AAF连接,涉及浅层高分辨率层、浅层低分辨率层、同级浅层以及前一层之间的信息聚合。
此时,最终输出层P4可以同时合并来自四个不同层次的信息,从而显著提升中等大小目标的性能。AAF还采用卷积控制通道来调节每一层对结果的影响。通过实验,作者发现当采用SAF中的策略,即三个浅层层的通道数设置为深层层通道数的一半时,会导致性能略有下降。借鉴FPN的传统单路径架构,作者推测初始引导信息已经嵌入到MAFPN的浅层中。因此,作者将每一层的通道数相等化,以确保模型获得多样化的输出。应用AAF后的输出结果如下:
在上一节设计了MAFPN结构之后,另一个挑战在于高效地设计整个架构中的特征提取模块。本节提出了一个强大的编码器架构设计,该架构能够高效地学习具有表达力的多尺度特征表示,并具有极高的参数利用率。RepHMS的结构如图7(a)所示。最初,输入信息经过卷积和Split操作,产生N个信息流。第一个分支保留原始的浅层信息。从第二个分支开始,输入信息通过M个级联块来增强特征提取能力。结合ELAN的思想,每个块的输出都被保留并集成到最终的输出层。
此外,每个分支都包含了级联的概念,使得即使是并行分支也能从上一个分支接收浅层信息,从而丰富了梯度流。最后一个分支输出最深层次的信息,最终的拼接和 卷积操作整合并输出不同分支的信息。通过调整系数 M 和 N,作者可以轻松控制 RepHMS 的特征提取能力。RepHMS 尽可能地保留了每个分支中的梯度流信息,并通过级联连接逐步整合来自前一层的更深层次信息。随着过程的进行,分支中的信息变得越来越多样化,特征提取也变得更加彻底,最大限度地优化了信息的表示。因此,RepHMS 模块可以无缝集成到任何High-Level检测器中,显著提升其性能。
如图7(b)所示,每个块由多个深度可分离卷积(DW convolutions)组成,并结合先进的重新参数化技术以实现高参数效率。第一个卷积用于扩展通道数,每个RepHConv之后跟随一个点卷积以补偿深度可分离卷积的性能损失。最后的卷积用于缩放通道数。
2.5. 重新参数化的异构深度可分离卷积
首先,作者在全局架构中采用了深度可分离卷积和大型核来实现上述GHFKS机制。作者的研究还表明,虽然较大的卷积核可能通过编码更广泛的区域来提高性能,但它们可能会无意中掩盖与小型目标相关的细节,从而留下进一步改进的空间。因此,作者将全局架构中的异构思想转移到单个卷积中,并引入了重新参数化的概念[26, 27, 28],以实现RepHConv。具体来说,作者通过同时运行大核和小核卷积来补充小型目标的检测。不同尺寸的卷积核增强了网络的ERF和特征的多样化表示。
如图7(b)和(c)所示,该块在训练和推理过程中表现出一定的差异。在训练过程中,网络运行n个不同大小的并行深度卷积(DWConv)操作,而在推理过程中,这些卷积被合并成一个,从而不会降低推理速度。作者认为RepHDWConv是一种更优的卷积策略,它以最小的损失提升了多尺度下的表示能力。
7 x 7 RepHDWConv的重参化步骤如图8所示。其中,μ、σ、γ、β分别表示BN层的累积均值、标准差以及学习到的缩放因子和偏置。代表RepHDWConv的参数。表示输入特征图,和表示使用核的卷积的权重和偏置。
首先,在RepHDWConv中,一个的大DWConv和多个的小DWConv将被并行化。每个DWConv后面跟着一个批量归一化(bn)层。然后,每个卷积核的参数将与对应bn层的参数合并。
设 和 分别代表BN融合后的卷积操作的参数和偏置。提取融合的参数 和 得到:
然后,融合了bn层后的卷积层可以表示为:
在第二步中,通过填充将许多小的DWConv等价于一个大的DWConv,然后进行重新参数化。这些异构DWConv的参数和偏置通过累积构建,得到新的RepHDWConv,其输出特征图为:
其中 且 是满足 的最大整数。
- 实验
3.1 实验设置
数据集。为了验证所提方法的有效性,作者在三个权威的公开基准数据集上进行了实验,涉及三个不同的任务:目标检测、实例分割和旋转目标检测。所使用的数据集如下:
- • MS COCO [29]。COCO数据集由微软于2014年发布,旨在提供一个大型且具有挑战性的多任务图像数据集。作者使用train2017集(包含118,287张用于训练的图像)和val2017集(包含5,000张用于验证的图像)在该数据集上评估了目标检测任务。此外,作者还对COCO数据集进行了实例分割,以评估MHAF-YOLO的多元任务能力。
- • Pascal VOC [30]。作者遵循了大多数主流VOC数据集配置,该配置包含20个类别,使用train2012、val2012、train2007和val2007数据集进行模型训练,共计16,551张图像。包含4,952张图像的test2007集用于验证和测试。
- • DOTA-v1.0 [31]。DOTA-v1.0 是一个专门为遥感图像中的旋转目标检测设计的数据库,包含 2,806 张图像,涵盖 15 个类别,共有 188,282 个实例。作者采用默认配置,使用 1,411 张图像作为训练集,458 张图像作为验证集,937 张图像作为测试集。
3.2 实施细节
目标检测与实例分割。作者的实现基于YOLOv10框架。对于目标检测任务,所有实验均在4块NVIDIA GeForce RTX 2080Ti GPU上完成,MHAF-YOLO的所有尺度均从头开始训练了500个epoch,没有依赖其他大规模数据集,如ImageNet [32]或预训练权重。作者主要遵循YOLOv10的设置,并使用SGD优化器进行训练,并将原始的mixup数据增强策略替换为RTMDet [11]中的更先进的cached-mixup策略,并使用了低概率 Copy-Paste [33]方法。最后10个epoch关闭了这些强烈的数据增强策略。对于实例分割任务,作者遵循了YOLOv8、RTMDet和YOLO11的配置,仅将MHAF-YOLO的目标检测Head修改为实例分割头以适应此任务。作者还使用了与目标检测任务相同的超参数配置和训练epoch,从零开始训练模型。
旋转目标检测。首先,作者将MHAF-YOLO的目标检测Head替换为YOLO11的旋转目标检测Head,并将交并比(IOU)替换为旋转IOU以实现此任务。作者将训练过程统一为200个epoch,并可选择应用多尺度离线数据增强、旋转增强和垂直翻转。此外,为了与其他旋转目标检测任务进行基准测试,作者在ImageNet数据集上对MHAF-YOLO的主干网络进行了300个epoch的训练,这也可以作为进一步微调的基础。对于单尺度训练和测试,原始图像被裁剪成1024 1024的块。在多尺度训练和测试的情况下,原始图像被缩放到0.5、1.0和1.5的尺度,然后裁剪成1024 1024的块。每个块有500像素的重叠。对于评估指标,作者使用与PASCAL VOC2007 [30]相同的mAP计算方法,不同之处在于作者使用旋转IOU来确定匹配的目标。
3.3 RepHMS分析
在本小节中,作者将对RepHMS模块进行一系列的消融研究。默认情况下,所有实验中作者使用MHAF-YOLO nano。
3.3.1 探索RepHMS的可行性
首先,作者在表1中进行了RepHMS模块与来自其他先进YOLO模型的多种计算块的消融实验。所有模块均用于网络的 Backbone 和 Neck 。为确保实验的公平性,作者设置了相似的深度和宽度系数,使得每个改进模型的参数数量尽可能接近。与其它模块相比,RepHMS模块通过利用重新参数化的DWConv和多尺度感受野,实现了参数数量和准确率之间的最佳平衡,从而在参数效率方面表现出色。
3.3.2. RepHMS的消融研究
如表2所示,作者对RepHMS模块进行了消融研究,RepHMS中的每个 Bottleneck 层默认包含一个的DWConv。当采用大核(LK)策略时,模型根据GHFKS策略在 Backbone 网络和 Neck 使用大卷积核,最大可达。当应用额外的RepHConv策略时,每个大卷积核通过重新参数化技术并行结合多个较小的核。
根据表2的第一行和第三行,使用大卷积核导致性能提升0.7%,在大物体上的提升最为显著,达到0.8%,而小物体的提升较小。当将大DWConv替换为RepHConv时,模型的参数和计算成本保持不变,但整体性能提升了0.4%,在小目标检测方面有明显的提升。这可以总结如下:使用大卷积核有效地增加了感受野,从而带来性能提升。当与RepHConv策略结合时,模型可以优化不同尺度物体的性能。此外,级联策略也是实现无损性能提升的好方法。
3.4 MAFPN分析
在本小节中,作者对MAFPN的每个模块进行了消融实验,并通过在不同实验中将 Neck 结构替换为不同的算法,展示了MAFPN的即插即用能力。
3.4.1. MAFPN的消融研究
本实验结果如表3所示,模型默认的 Neck 结构设置为PAFPN,包含四个C2f块。首先,作者将SAF模块集成到 Backbone 网络和 Neck 的浅层,这使得性能提升了0.5%,参数量增加了0.1M,值得注意的是,通过SAF,作者实现了对小目标性能的0.6%提升。其次,仅通过添加AAF模块,作者观察到在所有尺度上的目标检测性能均有所提升。接着,作者在MAFPN中将C2f替换为RepHMS。
模型的参数量和计算成本基本保持不变,而整体性能提升了0.5%,这证明了RepHMS在 Neck 结构中的强大有效性。最终,将三种策略整合到MAFPN后,模型的整体性能提升了2.1%,小目标检测提升了2.4%,这表明MAFPN有效地解决了传统PAFPN在小目标检测上的性能不足问题。此外,得益于多样化的感受野,中等和大型目标检测性能也取得了显著提升。
3.4.2. 探索MAFPN的可行性
MAFPN可以作为其他模型的即插即用模块,结果如表4所示。首先,作者在MHAF-YOLO中实验了不同的FPN结构,最终发现只有MAFPN能够在模型参数和性能之间达到更好的平衡。然后,作者通过在主流单阶段检测器YOLOv8n中将PAFPN替换为MAFPN,并调整通道数以保持模型较小,展示了该结构的通用性。YOLOv8n-MAFPN使用更少的训练轮数(-200轮)和更少的参数,获得了1.7%的AP提升,反映了MAFPN的出色性能。
此外,作者还使用两阶段检测器Faster-RCNN [34]验证了MAFPN的有效性。通过将Faster R-CNN中的FPN替换为MAFPN,作者实现了AP提升1.2%,而参数数量仅略有增加。相比之下,用PAFPN替换FPN并没有带来显著提升,这突显了MAFPN即使在经典的二阶段检测器中也保持了强大的性能。
3.5 MHAF-YOLO的消融研究
如表5所示,作者对 Baseline 模型YOLOv10n进行了一系列改进。首先,作者将MAFPN作为 Neck 结构进行整合。增强的特征融合使得性能提升了1.6%。然而,由于额外模块和连接的增加,参数数量和计算成本分别增加了0.3M和1.0G。接下来,作者引入了RepHMS模块。得益于其高效的深度卷积,MHAF-YOLO实现了高参数利用率,性能提升了1.1%,而参数数量实际上减少了0.5M。
添加GHFKS后,性能提升了0.7%,参数数量仅略有增加。在此阶段,网络仅包含大核卷积。最后,通过整合RepHConv,由于重新参数化,模型大小保持不变,但丰富了MHAF-YOLO模型的多尺度表示。最终,这导致了42.3%的性能提升。
3.6 不同数据集上不同任务的检测器
3.6.1. COCO上实时检测器的比较
表6展示了作者提出的MHAF-YOLO与其他最先进的实时目标检测器的比较结果。首先,作者将MHAF-YOLO与作者的 Baseline 模型YOLOv10进行比较。在N/S/M三个变体上,MHAF-YOLO在参数更少的情况下实现了3.8%/2.6%/1.6%的AP提升。与其它YOLO模型相比,MHAF-YOLO在准确性和计算成本之间也表现出更优的权衡。
例如,与Gold-YOLO相比,MHAF-YOLO在参数利用效率上表现出非凡的效率,MHAF-YOLO在N/S/M上的参数数量比Gold-YOLO分别减少了60%/67%/63%,但仍然实现了2.4%/3.5%/2.9%的性能提升。MHAF-YOLO在更小规模的模型上也具有显著优势,与YOLOv6-n、YOLOv7-t、YOLOv8-n、YOLOv9-t、YOLOv10-n相比,MHAF-YOLO-litenano模型通过显著减少30%至77%的参数和30%至66%的计算需求,同时保持可比的平均精度(AP)得分,展现了其轻量化的潜力。
与最新的YOLO11相比,作者的三个尺度模型参数更少,分别比YOLO11-n、YOLO11-s和YOLO11-m高出2.8%、1.9%和1.2%。这突显了MHAF-YOLO在实现高性能的同时,资源消耗最小化的卓越性能,使其非常适合效率与紧凑性至关重要的应用。此外,作者还展示了几个基于两阶段和Transformer的检测器,MHAF-YOLO在这些检测器中表现出优异的性能且更轻量。
此外,得益于MAFPN和多尺度感受野模块,MHAF-YOLO在检测多尺度目标方面显著优于其他模型。如图9所示,作者以条形图的形式展示了针对三种不同尺度目标的检测性能,其中MHAF-YOLO在所有指标上均持续优于YOLOv10和YOLO11。图10展示了不同算法在COCO验证集上的检测结果。
3.6.2. VOC实时检测器的比较
作者在VOC数据集上对主流YOLO系列模型进行了300个epoch的训练,并在表7中报告了系统级比较结果。结果显示,与 Baseline YOLOv10n和YOLOv10s相比,MHAF-YOLO在AP上分别提高了2%和1.7%。与表现最佳的YOLOv9相比,MHAF-YOLO在指标上仍然显示出显著的优越性。MHAFYOLO n/s在YOLO11 n/s上也实现了1.4%和0.9%的性能提升,这表明MHAF-YOLO在VOC数据集上具有优越的泛化能力。
3.6.3 语义分割结果
除了目标检测任务外,作者还在COCO数据集上对实例分割任务进行了性能评估。如表8所示,nano/small模型在分割AP方面分别比YOLO11 n/s高出3.6%和2.2%,同时参数更少,计算成本更低。这表明MHAF-YOLO在实例分割任务中也展现出良好的潜力。
3.6.4. 旋转目标检测结果
在表9中,作者比较了MHAF-YOLO-obb与DOTA-vl.0数据集上之前最先进的方法。在单尺度训练和推理中,该模型面临着小目标检测的更复杂问题。MHAFYOLO-n-obb和MHAF-YOLO-s-obb分别实现了79.36%和80.31%的mAP,超过了几乎所有之前的单尺度方法。具体来说,nano模型与RTMDetR-l模型相比,参数和计算成本仅为后者的1/20,性能提升了0.51%,最终达到79.36%的AP。
在没有ImageNet预训练的情况下,作者的小型模型也达到了79.52%的AP,超过了使用最先进 Backbone 网络PKINet-S [46]的O-RCNN [45]方法1.13%,同时参数数量减少了46.7%。在多尺度训练和测试中,YOLOv8和YOLO11采用了COCO预训练策略,显著提升了性能。在相同的训练策略下,MHAF-YOLOn-obb在没有预训练的情况下,分别比YOLO11-n-obb和YOLO11-s-obb高出1.37%和0.27%。
MHAF-YOLO-s-obb在多尺度设置下实现了81.10%的AP,几乎与最先进的旋转目标检测方法相匹配。例如,RVSA需要一个非常大的模型和在大型数据集上的预训练才能勉强超过81 AP。与最先进的方法LSKNet-T相比,MHAF-YOLO在参数数量和计算成本方面都显示出明显的优势。作者相信,通过更强的预训练和在旋转目标检测方面的进一步优化,MHAF-YOLO在未来可以实现更先进的性能。
- 结论
本文回顾了YOLO网络中常用的PAFPN架构及其在特征融合方面的局限性,并在此基础上提出了一种鲁棒的多尺度特征融合网络MAFPN,该网络既高效又灵活,可以无缝集成到任何目标检测器中以提升性能。MAFPN在其浅层和深层分别集成了两个专用模块,即SAF和AAF模块。SAF模块策略性地从浅层 Backbone 网络中整合更多信息,显著提高了定位精度和小目标检测能力。AAF模块采用更丰富的连接机制,使得多尺度特征信息在 Neck 区域能够进行广泛交互。随着网络的迭代更新,这些特征相互补充和优化,最终在输出层产生更具信息量的梯度。作者还从全局和局部两个角度考察了多尺度感受野的重要性。
全局上,作者引入了GHFKS机制,该机制根据目标层维度自适应调整卷积核大小,逐步扩大网络的总体感受野。
局部上,作者设计了重新参数化的异构卷积,以减轻过大核导致的对小目标信息的损失。基于上述创新,作者开发了MHAF-YOLO模型,该模型实现了卓越的参数效率和最先进的性能。与类似模型相比,MHAF-YOLO在COCO、VOC和DOTA-v1.0三个基准数据集上表现出色,在目标检测、实例分割和旋转目标检测任务中均取得了最先进的结果。作者希望这项工作能为构建更高精度的实时目标检测器提供新的见解。
尽管MHAF-YOLO在可比的计算成本下实现了高精度,但其推理速度仍落后于YOLOv10和YOLO11等前沿模型。这主要是由于MAFPN的相对复杂性和大核深度卷积的不效率。在未来的工作中,作者旨在保持高精度,同时优化模型的推理速度,以更好地满足工业应用的需求。
参考
[1]. MHAF-YOLO: Multi-Branch Heterogeneous Auxiliary Fusion YOLO for accurate object detection
扫码加入👉「集智书童」交流群
(备注: 方向+学校/公司+昵称 )