点击下方卡片,关注
「集智书童」
公众号
导读
本文针对传统 Bottleneck 结构(由于过度强调批处理统计导致实例可区分性降低)和解耦 Head (计算冗余)在目标检测框架中的固有局限性,提出了两个新颖的模块:全通道全局自注意力的实例特定 Bottleneck (ISB)和实例特定非对称解耦 Head (ISADH)。ISB模块创新性地重构特征图,通过批处理统计和实例特定特征的协同融合,建立了一个高效的全通道全局注意力机制。与之相辅相成的是,ISADH模块开创了一种非对称解耦架构,通过双流批处理-实例表示融合,实现了分层多维度特征集成。
在MS-COCO基准数据集上的大量实验表明,在YOLO-PRO框架中协调部署ISB和ISADH,在所有计算尺度上均实现了最先进的性能。具体来说,YOLOPRO在AP(N/S/M/L/X尺度)上比YOLOv8高出1.0-1.6%,在关键M/L/X组别中比YOLO11高出0.1-0.5% AP,同时保持了有竞争力的计算效率。这项工作为开发适用于边缘设备的超高精度检测器提供了实用见解。
- 引言
作为单阶段目标检测领域最具代表性的算法,YOLO(You Only Look Once)[1]在其发展历程中展现了显著的进化轨迹。自2016年Joseph Redmon等人[1]提出YOLOv1架构以来,该系列在架构设计和性能优化方面实现了革命性的突破,直至2024年发布YOLO11[16]。从技术演化的角度来看,YOLO系列的发展主要体现在三个关键技术维度:网络架构优化和图像增强技术的根本性创新,特征提取机制和损失函数设计的变革性进步,以及通过Transformer架构[21]集成实现的突破性范式转变。在注意力机制[22, 23, 24]优化、轻量级模型[18, 16]设计和多尺度特征融合[25, 26, 27, 28]方面取得了尤为显著的突破。值得注意的是,硬件计算能力的指数级增长与算法优化形成了正反馈循环,这不仅显著提高了平均精度(AP)[29]指标,还实现了前所未有的推理速度优化。这些技术创新极大地扩展了算法在自动驾驶[30]、智能安全[31]、医学图像分析[32]和工业检测[33]等领域的应用边界,确立了其在计算机视觉领域实时目标检测基准算法中的关键地位。这一进展为下一代目标检测技术的发展提供了理论基础和实践范例。
YOLO系列算法的推理过程可以系统地分为三个关键阶段:图像预处理、模型推理和后处理。在图像预处理阶段,自YOLOv5[6]版本以来,方法已经稳定,主要包括HSV颜色空间增强、仿射变换、马赛克数据增强[4]、MixUp[34]混合和Copy-Paste[35]技术。这些预处理技术的核心目标是增强输入数据的随机性和多样性,从而有效提高模型的一般化性能。在模型推理阶段,性能优化主要依赖于网络架构和功能模块的创新设计。精心设计的模型结构或模块不仅显著提高了平均精度AP,还优化了推理效率。YOLO系列中的代表性结构模块包括残差块[36]、跨阶段部分网络(CSP)[25]、空间金字塔池化(SPP)[37]、特征金字塔网络(FPN)[26]、路径聚合网络(PAN)[27]和解耦头[10]。这些模块的协同作用共同构建了高性能的YOLO模型框架。在后处理阶段,非极大值抑制(NMS)[1]是核心方法,通过过滤冗余边界框,显著提高了检测结果的准确性,从而优化了AP指标。然而,NMS对检测效率的负面影响不容忽视,其优化已成为一个关键的研究方向。例如,YOLOv10[15]创新性地引入了双重分配策略,成功消除了对NMS的需求,实现了更快、更高效的目标检测性能。
本研究采用YOLOv8[13]作为 Baseline 框架,并系统地优化了 Backbone 网络和 Neck 网络中的 Bottleneck 结构[36],以及解耦 Head 架构,以实现AP和推理效率的协同提升。通过对现有 Bottleneck 结构的分析,作者识别出双层3
3卷积-批量归一化-激活(Conv-BN-Activation)[36]的两个关键局限性。首先,批量归一化操作过度强调批量样本的统计特征,导致单个实例特征表示的区分度减弱。其次,当前架构缺乏对空间位置信息的显式建模能力,阻碍了像素级全局上下文关系的捕捉。为了解决这些问题,作者提出了具有全通道全局自注意力的实例特定 Bottleneck (ISB)。该结构将基于实例归一化的卷积层与全通道全局自注意力机制相结合,不仅增强了通道特征在批量 Level 特征之上的区分度,而且实现了真正的全通道全局自注意力机制,从而有效地强化了全局加权特征之间的上下文关系,并强调了空间位置表示。
为了解决解耦头中的计算冗余问题,作者提出了一个实例特定非对称解耦头(ISADH),通过以下两个关键设计实现:1)构建非对称分支结构,以区分处理分类和回归任务中的特征流;2)在分类预测和边界框回归分支中构建并行特征处理路径,其中额外的分支采用实例归一化(IN)操作(卷积-归一化-激活)通过双流特征融合实现实例特定的差异化。通过这些设计,不仅有效地减少了解耦头结构的参数和GFLOPs,而且还能实现针对批量样本特征的实例特定特征补偿,从而实现提高AP和效率的双重目标。
贡献,所提出的YOLO-PRO模型基于YOLOv8 Baseline 架构,在N/S/M/L/X计算规模变体上分别实现了1.0%、1.6%、1.4%、1.0%和1.1%的一致AP提升(图1)。此外,它在关键的M/L/X规模组中相对于YOLO11的对应模型实现了额外的AP提升,分别为0.1%、0.5%和0.2%,从而证实了其卓越的多尺度检测能力。
本研究的三个主要贡献如下:
-
- 作者提出了一种新颖的 Bottleneck 结构——全通道全局自注意力实例特定 Bottleneck (ISB)。该架构在卷积层上实现实例归一化(Conv-IN-Activation),以显式区分和放大实例间的通道特定判别特征。通过策略性地将图像块展开到通道维度,通过空间重组,作者构建了位置敏感的特征表示,这些表示与全通道信息与空间上下文内在相关。所YOLO-PRO在通道特征和空间位置之间建立了显式关联,同时保持相对于输入大小的线性复杂度增长。
-
- 作者提出了一种新型的解耦 Head ——实例特定非对称解耦 Head (ISADH)。所提出的网络架构采用非对称解耦 Head [28]设计,根据损失函数与检测 Head [28]之间的计算逻辑为不同的分支配置卷积核大小。具体来说,分类分支采用3
3的核,而边界框回归分支采用1
1的核,有效减少了结构的参数和GFLOPs。 3. 3. 此外,该架构引入了一个实例特定特征分支,通过与原始分支的特征融合来补偿批量样本中实例 Level 的特征变化。这种创新的集成机制实现了双重优化目标:显著减少模型参数和GFLOPs,同时通过增强特征表示能力保持具有竞争力的AP。
- 相关工作
2.1. Bottleneck
作为YOLO系列算法中 Backbone 和 Neck 网络的核心组件, Bottleneck 结构主要关注四个关键研究维度:计算效率优化、特征融合增强、梯度传播稳定性和模型轻量化设计。这些研究目标在YOLO系列算法的进化优化过程中始终得到体现。具体而言,在计算效率优化方面,代表性的方法如残差 Bottleneck [36]采用1
1卷积核进行通道减少,有效降低了后续大卷积核的计算复杂度。在特征融合增强方面,残差 Bottleneck 和ELAN Bottleneck [40]都利用残差连接来保留多尺度特征信息。在梯度传播稳定性方面,这些 Bottleneck 结构通过 Shortcut [36]来解决深层网络中的梯度消失问题。模型轻量化主要通过深度可分离卷积[41]和重新参数化[42]技术实现。分析YOLO系列的演变过程揭示:YOLOv3[3]中引入的残差 Bottleneck 一直延续到YOLOv5;YOLOv6[11]采用了RepBottleneck和RepVGG风格的架构;YOLOv7[12]和YOLOv8分别实现了ELAN及其改进版本;YOLOv9[14]回归到Rep-Bottleneck;而YOLOv10-11[15, 16]保持了YOLOv8的 Bottleneck 结构。总体而言, Bottleneck 结构的进展展示了渐进式改进,保持了基本的“Conv-BN-Activation”范式,并辅以RepVGG[42]的轻量化策略。值得注意的是,当前方法在特征提取方面表现出同质性,缺乏对实例特定特征差异化的考虑,并且在特征处理中对注意力机制的探索不足。
2.2 解耦 Head
自YOLOX[10]中首次引入解耦 Head 机制以来,YOLO系列后续迭代广泛采用了这种架构范式,并在实施中进行了渐进式改进。解耦 Head 主要解决耦合结构中存在的两个关键局限性:1)由于分类和回归任务之间参数共享冲突导致的次优优化性能;2)由于不同任务之间特征分布差异引起的性能下降。为了解决这些问题,解耦 Head 将分类和定位任务分配给独立的子网络,为每个任务建立专门的计算路径和特征通道。这种架构分离已经在实验中被证明可以提升网络AP、加速模型收敛,并在训练过程中减轻梯度冲突。在YOLOX之后,优化的解耦 Head 变体已被系统地集成到主流衍生版本中,包括YOLOv6、YOLOv8-v11和YOLOCS[28]。然而,尽管在缓解任务冲突和提高推理效率方面取得了显著进展,现有的解耦 Head 设计存在一个关键的疏忽:它们没有考虑到不同检测场景中实例特定的特征变化。具体来说,任务特定分支的分离无法动态适应不同目标实例固有的异质特征表示,这可能会限制模型对复杂或模糊案例的判别能力。
- YOLO-PRO
Bottleneck 结构是YOLO系列算法中 Backbone 网络和 Neck 网络的关键组成部分。其主要形式包括YOLOv5中的残差块结构(图3(a))、YOLOv7中的ELAN结构(图3(b))以及YOLOv8中的改进ELAN结构(图3(c))。甚至YOLOv10和YOLOv11也采用了YOLOv8的 Bottleneck 结构。这些结构不仅通过多级特征融合增强了特征提取能力,还提高了梯度传播的稳定性,防止了梯度消失。此外,它们在计算效率和模型轻量化方面表现出色,显著提升了推理速度,增加了模型的AP值,并增强了实时推理能力。然而,在作者对这些 Bottleneck 结构的研究中,作者发现所有这些结构中的卷积层都利用BN对批量样本的特征进行归一化,并通过可训练参数调整特征分布。虽然这种方法有效地增强了模型的一般化能力,但它忽略了单个样本通道特征之间的差异。过分强调批量的统计特征可能导致具有相似或模糊特征的物体类别(例如,远处的飞机和鸟)被错误分类。这可能导致在用新样本进行推理时AP值下降,并在训练过程中优化模型权重时产生梯度冲突。此外,这些 Bottleneck 结构主要是继承或仅作最小程度调整自图像分类网络[36]。应强调的是,图像分类任务侧重于识别整个图像的全局语义信息,其中物体定位和数量估计是不相关的。相比之下,目标检测需要精确识别多个实例,包括准确的空间定位和类别识别。因此,直接移植或轻微调整面向分类的 Bottleneck [36]结构与检测目标不完全匹配。其关键局限性在于它们仅关注特征提取,而缺乏显式的空间位置建模能力,因此无法建立像素级的全局上下文相关性。这种架构缺陷直接导致检测网络的位置不敏感,从而降低了AP性能。为了解决这些问题,作者提出了一种新的 Bottleneck 结构,命名为实例特定 Bottleneck 与全通道全局自注意力(ISB)(图4)。
ISB结构向YOLOv8的瓶 Neck 分引入了一个额外的分支。该分支的主要目标是增强模型学习单个实例特征表示的能力,同时提高模型对全局上下文关系的关注度,并增加其对空间位置信息的敏感性。基于这两个目标,ISB分支被设计为包含四个关键组件:实例特定模块、特征 Patch -通道重构器、自注意力模块和特征 Patch -通道重组器。
实例特定模块(图4(a))的构建相对简单。第一层由一个
卷积层、一个IN层和SiLU[43]激活函数组成,主要用于压缩输入特征图。假设输入通道数为
,该层将通道数从
减少到
,其中
(3的系数用于计算自注意力模块[21]中的Q、K和V)。这里,
默认设置为8,代表压缩比。这种通道压缩不仅提高了模型效率,还细化了特征。第二层位于分支的末端,由一个
卷积层、一个IN层和SiLU激活函数组成。该层将压缩后的通道数
(不乘以3,因为自注意力模块的Q、K和V的结果已经计算)恢复到
,其中
。此模块的主要目标是独立归一化每个样本的内部实例(通道)特征,而不依赖于批处理统计。这增强了单个实例的独特特征,同时避免了由于批处理归一化可能导致的统计估计不准确的问题。此外,通过通道压缩和扩展,该模块有效地减少了参数和GFLOPs,从而提高了模型的推理效率。
特征 Patch 通道重构器是一个关键模块,旨在通过三阶段转换重构输入特征图。给定输入
,它首先通过展开非重叠的
(默认为4) Patch (步长为K)分解空间结构,将其展开成一个扁平化的张量
,其中
。随后,该张量被 Reshape 为
以解耦通道和 Patch 维度,接着通过交换
和
轴来生成最终的表示
。这种层次化的重组明确地隔离了空间局部
和通道
的交互,从而促进了下游任务中特征重建的高效性。此模块旨在为自注意力模块重构特征,从根本上区别于视觉Transformer(ViT)[21]和Swin-Transformer[44]的特征处理范式。具体来说:
- • 在ViT中,输入特征图被展平成一个长度为
的序列,通道
被划分为
个头,形成一个张量
。随后,在每个头内部计算自注意力,以实现局部特征交互
,这本质上限制了范围,仅限于头内部的局部注意力,而不是全局依赖性。
- • 尽管Swin-Transformer采用了窗口划分策略,但它也采用了类似的限制。它将特征重构为xs ∈ RB×(CK2)×( HK × WK )(其中
是窗口大小),将通道划分为
个头
,并在每个头内部计算注意力
。虽然这种设计提高了计算效率,但它仍然将注意力限制在局部头内部区域,未能捕捉全局上下文关系。除了其窗口划分策略外,Swin-Transformer还利用了移位窗口自注意力机制。然而,这种方法仅在固定窗口内传播局部特征交互,并在头内部维度计算注意力,未能实现全局注意力,同时产生了较高的计算成本。这些限制使其不适合实时目标检测模型。
与ViT和Swin-Transformer相比,YOLO-PRO在输入自注意力特征图的构建上进行了根本性的重新设计,通过将多头机制中的 Head 分离方法[21]替换为特征块大小自适应(图6(a))。处理后的特征图(
)被输入到自注意力模块中,基于特征块内的固定位置像素推导出低分辨率的全通道全局加权特征(图6(b))。这些部分特征随后被聚合,形成全面的全通道全局表示(图6(c))。为了解决块内像素信息交互不足的问题,作者实现了一个
卷积层(CIS),以促进每个块内跨像素特征共享,从而实现完整全通道全局注意力加权。这种方法不仅有效地捕捉了特征块 Level 的跨通道全局依赖关系,而且显著提高了自注意力机制的计算效率。此外,考虑到与分类任务相比,目标检测模型对位置敏感性的提高,作者提出的全通道注意力机制在建模特征块及其组成像素之间的全局空间关系方面表现出卓越的能力,最终提高了目标检测的AP值。
与ViT相比,自注意力模块的计算过程得到了改进。给定输入特征图
和输出特征图
,具体的计算过程如下:
在softmax函数作为激活函数,且
代表特征块数量时,与ViT相比,该方程的改进之处在于对
进行早期除以缩放因子
。这种调整旨在防止
和
矩阵乘法中出现过大值的问题,这可能导致训练过程中出现NaN值。
特征 Patch 通道重排器通过三个关键的计算阶段运行:首先,由自注意力模块处理的特征张量
进行维度排列,其中
和
维度进行转置,生成中间特征
。随后,对
应用张量 Reshape 操作,将其转换为二维特征矩阵
。最后,折叠操作将
重排为特征图
,随后这些特征图被输入到卷积层进行后续处理。
总结来说,ISB模块的设计初衷是通过融合实例级特征到批量级特征表示中,从而增强实例特征的区分度。同时,ISB模块创新性地跳出了传统的具有子空间划分的多头注意力范式,将特征图重构为特征块,并在每个块的全通道维度和空间固定位置上建立全局注意力关联。随后,使用卷积层来实现跨块特征交互,从而构建了一个高效的完整通道全局自注意力机制。这种结构不仅加强了上下文依赖建模和空间位置感知表示,还在AP上实现了显著的提升。
3.2 实例特定非对称解耦 Head (ISADH)
解耦头的优化一直是研究的重点,因为其将分类和回归任务解耦到独立的网络分支中,这必然导致模型参数和计算成本(GFLOPs)的大幅增加,从而降低模型的总体推理效率。此外,由于解耦头直接生成最终的检测输出,其结构设计对AP有重要影响。为了解决这两个目标,作者通过架构精炼和计算效率提升来优化解耦头,提出了两个关键设计创新。
第一个关键设计(如图7(b)中橙色虚线框所包围的区域)涉及将YOLOv8解耦头(图7(a))中边界框预测分支的 Kernel 大小从
减小到
。这种修改显著减少了解耦头的参数和GFLOPs,同时保持了AP性能。作者的设计理念借鉴了YOLOCS对检测Head与损失函数之间逻辑关系的分析[28]。在目标检测中,置信度分支(在YOLOv8中与分类分支合并)主要处理全局网格预测,使得边界框回归在任务优先级上从属于分类。因此,战略性地最小化分配给回归任务的参数不仅保持了检测精度,还提高了解耦头的效率。
第二个关键设计(图7(b)中绿色虚线框所包围的区域)涉及向分类和回归任务分支引入并行实例特定分支。具体来说,作者在每个任务分支中构建了一个专用的特征处理路径,该路径包含一个
卷积层、实例归一化层和激活函数。这种结构旨在从单个样本中提取实例特定的通道归一化特征,并自适应地将它们与批量 Level 的统计特征融合,从而增强解耦检测Head表征样本独特判别特征的能力。所提出的双流特征融合机制不仅融合了批量归一化中的全局统计信息,还保留了实例特定特征。通过这些互补特征的协同优化,这种方法在检测Head的AP上实现了显著提升。
总之,这两个关键设计共同构成了作者提出的实例特定非对称解耦 Head (ISADH)模块。该结构旨在实现双重目标:1)通过优化参数和GFLOPs,显著提高推理效率;2)通过协同整合实例特定特征与批统计特征,显著提升检测精度,如AP的显著提升所示。
- 实验
作者的实验框架基于YOLOv8作为 Baseline ,所有配置均严格与原始实现保持一致,以确保可比性。受控实验设置包括四个关键方面:1)数据增强 Pipeline :保持相同的预处理策略(Mosaic增强、MixUp混合和Copy-Paste合成);2)网络架构:保留Backbone、Neck和Detection Head的结构完整性(仅替换目标模块);3)后处理:一致应用非极大值抑制(NMS);4)超参数:完全继承原始训练配置。提出的ISB和ISADH模块直接集成到YOLOv8架构中,以进行端到端训练和验证。为了与最先进(SOTA)方法进行综合比较,作者在MS-COCO 2017基准数据集[29]上进行了实验,遵循标准划分:train2017[29]用于模型训练,val2017[29]用于性能验证,test2017[29]用于最终评估。所有模型均使用配备8个NVIDIA RTX3090 GPU的计算集群训练了500个epoch。
4.1 可视化分析
可视化分析采用了Eigen-CAM[45]对从val2017数据集中选取的代表性样本生成注意力 Heatmap 。选取的样本被分为五类:单类单目标、单类多目标、单类重叠目标、多类重叠目标和多类多目标。使用 Baseline YOLOv8模型、最先进的YOLO11模型以及作者提出的YOLO-PRO模型对这些样本生成注意力 Heatmap ,随后进行了比较分析。
在单类单目标类别组(图8(a))中,作者提出的YOLO-PRO模型在注意力 Heatmap 中对目标特征区域的覆盖比其他模型更精确,背景噪声干扰最小。在单类多目标类别(图8(b))中,YOLOv8模型在目标之间的注意力 Heatmap 分布不均匀,显示出对位于中心的目标的偏好。YOLO11模型为每个目标生成了更宽的注意力 Heatmap 区域,但遭受了过多的背景噪声和对外围目标的注意力分配不一致的问题。相比之下,作者的YOLO-PRO模型在所有目标之间实现了均匀的注意力分布,同时保持了最小的背景干扰。
对于单类重叠目标组(图8(c)),YOLOv8和YOLO11都表现出不同程度的注意力偏差,未能区分重叠区域内的不同实例。然而,YOLO-PRO模型却产生了均匀分布的注意力 Heatmap ,能够清晰地区分重叠实例。在多类重叠目标组(图8(d))中,YOLO11模型对特定类别(例如,优先检测“狗”)表现出严重的注意力偏差,而YOLOv8为共存类别生成了不均匀的 Heatmap 。YOLO-PRO模型在两者之上,实现了平衡的注意力分布,没有类别特定的偏差。
在多类别多目标组(图8(e))中,YOLO11模型继续表现出显著的关注偏差。YOLOv8模型在相邻目标之间(例如,最左侧和第二左侧的人实例)存在特征混淆,并优先考虑高频类别(例如,MS-COCO中的“人”类别),导致全局注意力分配不理想。
YOLO-PRO模型避免了过度优先考虑主导类别,并减轻了大型目标对小型目标的压制。虽然所有三个模型都表现出不均匀的全局注意力分布,但YOLO-PRO在抑制过度的大型目标主导和类别优先级方面表现出更优越的性能。可视化分析最终证明了YOLO-PRO的卓越性能。
4.2 消融实验
为了验证所提出模块的有效性,作者在MS-COCO数据集上进行了消融实验。基于 Baseline YOLOv8架构,作者逐一引入创新的ISB和ISADH模块,并组合使用这些模块,同时比较了AP指标的变化,并评估了参数(Params)和计算成本(GFLOPs)的变化。表1所示的实验结果展示了与 Baseline 模型相比的AP提升,绿色高亮表示提升幅度。
在将ISB模块集成到 Baseline 架构中后,作者观察到关键检测指标AP提升了0.9%,同时参数增加了200万,计算成本上升了8.3 GFLOPs。通过最小资源开销实现的成绩提升证实了该模块的结构有效性。值得注意的是,将ISADH模块集成到 Baseline 模型中不仅使AP提升了0.2%,而且分别将参数和计算成本减少了0.4M和1.5 GFLOPs,展示了其优化能力。ISB和ISADH模块的联合集成最终实现了1.0%的AP提升,额外参数增加了160万,计算增量达到6.7 GFLOPs,证实了双模块协同作用在可接受的资源约束内实现了最佳性能提升。
4.3 比较实验
本研究通过同时调整网络深度因素和宽度因素,同时约束最大通道数,进行多尺度模型比较实验,从而构建了五个计算尺度模型变体(N/S/M/L/X),具体细节如表2所示。为确保实验可比性,所有尺度模型的深度缩放比、宽度缩放比和最大通道配置均严格符合YOLOv8 Baseline 模型规范(参数配置见表2)。所有模型均在MS-COCO数据集上进行了训练和评估,以AP作为主要评估指标,并比较分析了包括参数(Params)、GFLOPs和推理延迟在内的关键指标。在标准硬件条件下进行了延迟测量:使用配备TensorRT加速框架的NVIDIA T4 GPU和半精度浮点(FP16)模式。为了减轻硬件环境波动引起的测量偏差,最终延迟数据基于每张图像的最小推理时间确定。
如表3所示,在多个计算尺度上对所提出的YOLOPRO模型与YOLOv8 Baseline 模型进行的比较分析表明,YOLO-PRO变体在AP(平均精度)上比其YOLOv8对应模型提高了1.0%-1.6%,同时保持了可比的推理延迟、参数(Params)和GFLOPs(每秒十亿次浮点运算)。所有YOLO-PRO变体在AP指标上均优于 Baseline 模型。值得注意的是,YOLO-PRO的L尺度变体在AP上与Xscale YOLOv8模型相当,同时展现出更优的计算效率。这些结果证实了YOLO-PRO在保持资源效率的同时实现了全面的性能突破,确立了该领域领先的性能地位。
为进一步验证模型进步,本研究对YOLO-PRO与最先进的YOLO11模型(见表4,其中红色高亮表示AP劣势,绿色高亮表示优势)进行了多维性能比较。实验结果表明,YOLO-PRO变体(M/L/X)在AP上优于其YOLO11对应版本0.1%至0.5%。然而,由于YOLO11与YOLOv8在基本架构上的方法差异,YOLO-PRO在参数、GFLOPs和推理延迟等效率指标上与YOLO11存在微小的差距。关键的是,YOLO-PRO在核心检测精度指标上保持了持续的优越性,这证实了其在目标检测任务中的最先进有效性。
4.4 与SOTA的比较
如表5所示,本研究在统一的基准框架下,对提出的YOLO-PRO与当代SOTA目标检测器进行了系统性的比较分析。评估涵盖了五个关键维度:主要检测准确度指标(AP)、输入分辨率、参数(Params)、GFLOPs和推理延迟。值得注意的是,表中加粗的数值表示在其各自的计算规模组(N/S/M/L/X)中实现最优AP性能的检测器。
如表5中的实验数据所示,所提出的YOLOPRO在中等(M)和大型(L)计算规模组别中实现了最优的平均精度(AP),同时与同类模型相比,保持了可比的参数(Params)、GFLOPs和推理延迟。这一核心指标的系统性比较证实了YOLO-PRO在目标检测任务中的架构进步,证实了其SOTA(最先进的技术)地位。
- 结论
本研究系统地探讨了传统 Bottleneck 结构和解耦头的固有局限性,提出了两种创新解决方案:具有全通道全局自注意力的实例特定 Bottleneck (ISB)模块和实例特定非对称解耦头(ISADH)模块。ISB模块通过特征图重建协同整合批量统计特征和实例特定特征,建立了一个高效的全通道全局自注意力机制。同时,ISADH模块开创性地提出了一种非对称解耦头架构,通过协同整合批量统计特征和实例特定表示,实现多维度特征的层次融合。大量实验证实,两种模块的协同部署有效地克服了现有的性能 Bottleneck ,同时保持了计算效率,最终在目标检测领域建立了新的SOTA基准。
参考
[1]. YOLO-PRO: Enhancing Instance-Specific Object Detection with Full-Channel Global Self-Attention
扫码加入👉
「集智书童」
交流群
(备注:
方向
学校/公司+
昵称
)