比YOLOv8更小更准:YOLO-ROC用70%瘦身换2%mAP跃升,精度暴增16.8%

机器学习算法人工智能与算法
精简阅读版本

本文主要解决了什么问题

    1. 现有道路损伤检测模型在处理多样化目标(如裂缝、坑洼等)时,多尺度特征提取能力不足,导致小尺度损伤的漏检率较高。
    1. 主流模型庞大的参数数量和计算需求,阻碍了其在实际应用中进行高效、实时检测的部署。
    1. 现有方法难以在精确的多尺度特征提取和模型轻量化之间取得有效平衡。

本文的核心创新是什么

    1. 提出了一种新型双向多尺度空间金字塔池化快速(BMS-SPPF)模块,整合了多尺度空间注意力(MSSA)机制和多头通道自注意力(MHSA)单元,以增强多尺度特征提取能力,特别针对小目标检测。
    1. 提出了一种分层通道压缩策略,通过降低Backbone网络的最大通道宽度和关键模块的重复频率来减少参数数量和计算开销。
    1. 设计了YOLO-ROC模型,将BMS-SPPF模块和分层通道压缩策略有机结合,实现了高精度和轻量化的平衡。

结果相较于以前的方法有哪些提升

    1. 在RDD2022_China_Drone数据集上,YOLO-ROC实现了mAP50为67.6%,较Baseline YOLOv8n提升了2.11%。
    1. 小目标D40类别的mAP50提升了16.8%,显示出对小目标检测的显著改进。
    1. 模型参数数量从3.01M压缩至0.89M(减少70.4%),GFLOPs从8.1降至2.6(减少67.9%),最终模型大小仅为2.0 MB。
    1. 在RDD2022_China_Motorbike数据集上展现出优异的泛化性能,取得了mAP50为86.6%的成绩,与Baseline YOLOv8n(86.9%)具有竞争力,但参数量和GFLOPs仅为后者的30%。

局限性总结

    1. 在某些复杂场景下仍存在局限性,特别是在非均匀照明或高空无人机视角下检测微小目标时,可能导致漏报。
    1. 在分类D20(鳄鱼裂缝)样本时存在一定误分类问题。
    1. BMS-SPPF模块在极端光照条件下存在注意力分散问题。
深入阅读版本

导读

道路损伤检测是保障交通安全和维护基础设施完整性的关键任务。尽管基于深度学习的检测方法已得到广泛应用,但它们仍面临两大核心挑战:首先,现有网络在处理裂缝、坑洼等多样化目标时,其多尺度特征提取能力不足,导致小尺度损伤的漏检率较高;其次,主流模型庞大的参数数量和计算需求,阻碍了其在实际应用中进行高效、实时检测的部署。为解决这些问题,本文提出了一种高精度轻量级模型YOLO - Road Orthogonal Compact(YOLO-ROC)。作者设计了一种双向多尺度空间金字塔池化快速(BMS-SPPF)模块以增强多尺度特征提取,并实施了一种分层通道压缩策略以降低计算复杂度。BMS-SPPF模块利用双向空间通道注意力机制提升了小目标检测性能。同时,通道压缩策略将参数数量从3.01M压缩至0.89M,GFLOPs从8.1降至2.6。在RDD2022_China_Drone数据集上的实验表明,YOLO-ROC实现了mAP50为67.6%,较 Baseline YOLOv8n提升了2.11%。值得注意的是,小目标D40类别的mAP50提升了16.8%,最终模型大小仅为2.0 MB。此外,该模型在RDD2022_China_Motorbike数据集上展现出优异的泛化性能。

1 引言

随着全局经济的快速发展,道路基础设施已成为社会发展和运输效率的基石。道路网络的质量与安全直接关系到经济活力和公众生活质量。然而,道路表面持续受到交通荷载和环境侵蚀的损害,导致出现各种类型的损坏,如裂缝和坑洼。这些缺陷对行人和车辆都构成了显著的安全风险[1]。传统的道路损坏评估方法长期依赖人工目视检查,这一过程不仅劳动密集且耗时,而且容易受到人类检查员主观判断的影响[2]。虽然基于专用传感器的自动化系统已被开发以提高效率[3],但它们的大规模应用受到设备成本高昂和缺乏标准化技术协议的阻碍。为了克服传统方法的效率和成本 Bottleneck ,研究行人越来越多地转向目标检测算法。早期的机器学习方法,包括支持向量机(SVM)和随机森林,由于过度依赖人工设计的特征,在复杂多变的道路条件下泛化能力有限,因此效果有限[4]。近年来,以仅一次检测(YOLO)系列[5]为代表的基于深度学习的目标检测算法已成为主流范式。它们端到端特征学习能力推动了检测准确性和速度的显著突破。然而,现有用于该任务深度学习模型仍存在两个基本挑战。首先,它们通常表现出多尺度特征提取能力不足,难以同时准确识别大面积裂缝和微小坑洼。其次,这些模型参数数量庞大且计算复杂度高,难以部署在资源受限的移动或嵌入式设备上进行实时应用。

为解决这些核心问题,当前研究主要探索了三个优化方向。(1)改进空间金字塔池化快速(SPPF):YOLOv9 [6]等模型在融合多尺度特征的同时未丢失空间信息,但它们在复杂场景(如光照不均或路面杂物)下仍存在对小型目标(如小坑洼)的漏检或误检问题。(2)集成注意力机制:为提高小目标检测精度并适应多样化道路条件,已引入多种注意力机制。例如,Dal-yolo [7]和YOLO9tr [1]分别利用可变形和部分注意力模块,动态调整核形状并聚焦显著特征。然而,此类模块的引入会增加计算负载和推理延迟。(3)模型压缩和轻量级架构:MED-YOLOv8s [8]等模型采用受MobileNet系列 [9]和ShuffleNet [10]启发的轻量级 Backbone 网络,有效减少模型参数和复杂度,提升推理速度。但这也往往以降低精度为代价,尤其是在目标被遮挡时,简化模型可能缺乏处理此类复杂性的能力。这凸显了持续存在的权衡:现有方法难以在精确的多尺度特征提取和模型轻量化之间取得有效平衡。因此,开发一种高效且精度保持高的道路损坏检测技术至关重要。为解决复杂场景中多尺度特征提取不足、模型参数过多以及轻量化设计与精度之间的权衡等关键挑战,本文提出了一种高精度、轻量级改进型YOLO模型,命名为YOLO-ROC。本研究目标为:(1)设计一种新型多尺度特征增强模块,以解决传统SPPF [11]在复杂干扰下过滤特征的局限性;(2)通过通道压缩和结构优化实现模型轻量化,避免现有轻量化方法常见的精度下降问题;(3)在公开道路损坏数据集上验证模型性能,展示其在检测精度与计算效率之间更优的平衡。

本文的主要贡献总结如下:

    1. 一种新型双向多尺度模块用于特征增强。作者引入了双向多尺度空间金字塔池化快速(BMS-SPPF)模块,以解决小尺寸和不规则道路损伤的多尺度特征提取不足问题。通过整合多尺度空间注意力(MSSA)机制和多头通道自注意力(MHSA)单元,BMS-SPPF能够有效捕获裂缝和坑洼等目标的形态特征,同时抑制背景干扰,使小目标D40类别的mAP50提升了16.8%。
    1. 一种用于模型轻量化的分层压缩策略。为解决主流模型的高计算和部署成本问题,作者提出了一种分层通道压缩策略。该方法将模型的参数数量减少70.4%(从3.01M减少到0.89M),将GFLOPs减少67.9%(从8.1减少到2.6)。借助BMS-SPPF的特征增强能力,压缩后的模型避免了典型的精度权衡问题,相较于 Baseline YOLOv8n实现了2.11%的mAP50提升。
    1. 高效且鲁棒的路面损坏检测器。所构建的模型YOLO-ROC在准确性和效率之间建立了新的顶尖平衡。在RDD2o22_中国_无人机和RDD2022_中国_摩托车数据集上验证,YOLO-ROC实现了67.6%的mAP50,优于多种当代YOLO模型,同时保持仅0.89M参数的最小模型尺寸(2.0MB模型大小),展示了其在实时应用中的高实用价值。

本文其余部分组织如下:第二节回顾了基于YOLO的轻量级模型、多尺度特征优化以及注意力机制与轻量化协同设计的相关工作。第三节详细阐述了整体模型架构、BMS-SPPF模块的设计原则、分层通道压缩策略以及损失函数。第四节描述了数据集、实验设置和评估指标。第五节呈现并分析了实验结果,包括对比实验和泛化实验,并提供了视觉证据以验证作者改进的有效性。最后,第六节总结全文并讨论未来研究方向。

2 相关工作

近年来,基于深度学习的道路损伤检测方法在准确性和实时性能方面取得了显著进展。然而,在复杂场景中的多尺度特征提取与模型轻量化之间平衡仍然是一个基本挑战。本节对现有研究进行全面综述,分为三个关键领域:轻量级检测模型、多尺度特征优化以及注意力机制与轻量化架构的协同设计。作者分析其局限性,以阐明YOLO-ROC的创新点。

2.1 基于YOLO系列的轻量级检测模型

YOLO系列已成为道路损坏检测领域的主流框架,这得益于其高效的端到端检测能力。例如,YOLOv8n[12]通过解耦头和 Anchor 点无关设计显著提升了推理速度,但其对小目标的检测精度仍不足,尤其是在低分辨率图像中。为解决深度网络中的信息损失问题,YOLOv9t[6]引入了一种新型架构,该架构包含可编程梯度信息(PGI)和广义高效层聚合网络(GELAN)。虽然这种设计相较于YOLOv8n减少了参数数量,但模型在复杂光照条件下仍难以有效检测细微裂缝。随后,YOLOv10n[13]通过设计一种无需非极大值抑制(NMS)的端到端架构,进一步探索了模型效率。然而,其在RDD2022_China_Drone数据集上的性能仅达到mAP50为62%,未能显著优于YOLOv8n。尽管这些模型在轻量化设计方面取得了突破,但它们普遍缺乏对复杂背景干扰的鲁棒性,难以同时满足实际工程对精度和速度的要求。

2.2 基于SPPF的多尺度特征融合优化

SPPF模块[11]已成为目标检测模型中的关键组件,通过多尺度池化核聚合上下文特征,以增强多尺度感知能力。研究行人持续寻求优化SPPF结构。例如,YOLOv9[6]引入了SPPELAN模块,该模块通过级联扩展卷积和残差连接重构池化路径,提升了特征融合效率。类似地,其他研究探索了动态池化核选择机制,根据输入特征图的空间分布自适应调整核大小[14]。同样,基于Transformer的检测器探索了迭代聚合方法,以高效利用多尺度特征[15],但这些方法通常引入了不适合超轻量级模型的架构复杂性。然而,这些传统的SPPF优化方法往往缺乏对通道间语义相关性的显式建模。因此,改进后的SPPF模块在复杂干扰下(如小目标、遮挡和非均匀光照场景)仍难以实现精确的特征过滤和增强。这一局限性在YOLOv9t的性能中得到了体现,其在RDD2022_China_Drone数据集上的mAP50仅为61.4%。

2.3 注意力机制与轻量化协同改进

为增强模型对小目标的敏感性,研究行人尝试将注意力机制与轻量级设计相结合。例如,赵等人[8]提出了MED-YOLOv8s,该模型用轻量级的MobileNetv3替换了标准 Backbone 网络,并集成了ECA注意力机制,以在减小模型尺寸的同时提高精度。类似地,兰等人[7]引入了Dal-yolo,该模型将可变形注意力机制集成到 Backbone 网络中,以更好地捕获无人机图像中的小目标细节。尽管这些注意力策略有效,但它们属于更广泛的机制家族,包括基础卷积块注意力模块(CBAM)[16],该模块开创了空间和通道注意力的结合。尤等人[1]开发了YOLO9tr,该模型在YOLOv9架构中添加了部分注意力模块,以增强路面损坏的特征提取。除了基于CNN的方法外,像EF-RT-DETR[17]这样的基于Transformer的模型也被提出用于此任务,尽管它们在全局特征建模和计算成本之间呈现出不同的权衡。虽然这些方法显示出前景,但它们通常面临注意力机制和轻量级模块之间的兼容性问题,使得在保持高精度的同时实现高效推理变得困难。例如,添加复杂的注意力模块会增加推理延迟,而激进的模型剪枝则可能在复杂的背景干扰中导致假阳性率增加。显然,现有方法通常面临权衡,难以在保持高精度的情况下实现高效推理。为克服这些局限性,本文通过动态注意力机制和结构化压缩的协同设计,提出了一种高精度轻量级改进YOLOv8模型,YOLO-ROC。具体而言,作者用作者提出的BMS-SPPF模块替换了YOLOv8中的SPPF模块。该模块采用MSSA机制捕获裂缝和坑洼的形态特征,随后通过CAP模块降低空间维度以生成紧凑的特征描述符。最后,MHSA机制抑制背景干扰,以更好地融合多尺度信息。此外,作者引入了一种分层通道压缩策略,将 Backbone 网络的最大通道数减半,并减少了C2f模块的重复次数。这种压缩策略确保了最终模型在保持高检测精度的同时显著更轻量。

3 方法论

本节针对现有YOLOv8模型在道路损伤检测中存在的挑战,即多尺度特征提取不足、模型参数过多以及轻量化设计与精度之间的不平衡问题,提出了一种高精度轻量级框架。该框架通过动态多尺度特征增强与结构化压缩策略的协同集成,优化模型在复杂道路场景中的鲁棒性与部署效率。具体而言,作者首先引入BMS-SPPF模块,该模块利用MSSA机制和MHSA单元增强小尺度目标(如裂缝和坑洼)的形态学特征提取,同时抑制背景干扰。其次,作者提出了一种分层通道压缩策略,通过降低 Backbone 网络的最大通道宽度和关键模块的重复频率来减少参数数量和计算开销。最后,采用动态损失函数策略对框架进行优化,以进一步提升遮挡和非均匀光照等挑战性条件下的检测精度。后续章节将详细阐述整体模型架构、BMSSPPF模块设计、通道压缩策略以及损失函数。

3.1 模型概述

YOLOv8框架虽然作为通用目标检测的强大 Baseline ,但在道路损伤检测这一专业任务中存在两个主要局限性。首先,其标准特征提取流程难以充分捕捉道路损伤多样且通常细微的多尺度特征,导致漏检细小裂缝或小坑洼。其次,其庞大的参数数量和计算需求为在资源受限的移动或边缘设备上实现实时部署构成了重大障碍。为克服这些挑战,本文引入YOLO-ROC,这是一种高精度超轻量级模型,旨在实现检测精度与计算效率之间的协同平衡。如图1所示,所提出的模型架构基于稳健的YOLOv8框架,但包含两项主要创新。首先,为解决多尺度特征提取的挑战,作者将 Backbone 网络中的标准SPPF模块替换为作者的新型双向多尺度空间金字塔池化快速(BMS-SPPF)模块。该组件专门设计用于增强模型对细粒度空间细节和复杂特征相互依赖性的感知能力,这对于在噪声道路背景下稳健识别小型或不规则形状目标至关重要。其次,为实现适合实时应用的轻量级设计,作者采用分层通道压缩策略。该方法系统性地减少 Backbone 网络和 Neck 的网络宽度和深度,大幅削减模型的参数数量和计算复杂度(GFLOPs)。YOLO-ROC的整体架构保留了YOLOv8经过验证的三段式结构,包括用于特征提取的 Backbone 网络、用于特征融合的 Neck (通常采用特征金字塔网络(FPN)[18]等结构实现)以及用于检测的 Head 。作者的创新策略性地集中在 Backbone 网络,以增强其特征表示能力,同时创建更紧凑高效的模型。关键在于,BMS-SPPF模块提供的先进特征增强补偿了压缩策略可能导致的任何潜在信息损失,使作者的轻量级YOLO-ROC模型能够保持甚至超越显著更大的 Baseline 的检测精度。这些核心组件的具体设计将在后续章节中详细阐述。

picture.image

3.2 双向多尺度空间金字塔池化快速(BMS-SPPF)

为了克服传统SPPF模块在复杂道路环境中提取多尺度特征时的不足,作者提出了BMS-SPPF。

该模块被设计用于动态捕捉多样的形态学特征,从而提升道路损坏的检测精度,特别是细小裂缝和小坑洼,同时保持计算效率。如图2所示,BMS-SPPF架构以标准的SPPF模块为起点,随后引入一种由三个连续阶段组成的新注意力机制:多尺度空间注意力(MSSA)、通道注意力准备(CAP)模块和多头通道自注意力(MHSA)。这些组件协同工作,增强了多尺度特征表示和背景噪声抑制。本节将详细阐述每个组件,分析其单独贡献和协同效应。

picture.image

3.2.1 SPPF模块

多尺度上下文特征融合为有效应对道路损伤目标在尺寸和形态上的显著变化,模型必须具备强大的多尺度特征提取能力。为此,BMS-SPPF模块首先保留YOLOv8中高效的SPPF模块作为聚合多尺度上下文信息的初始阶段。SPPF模块的核心优势在于其能够在低计算成本下融合多尺度感受野。具体而言,对于输入特征图

,SPPF模块将多个 ConCat 最大池化层的输出进行拼接。整个过程可表述为:

其中

表示初始卷积后的特征图,

表示最大池化操作,

表示最终融合卷积。该结构从不同的感受野中聚合上下文信息,增强对不同尺寸目标的感知能力。

3.2.2 多尺度空间注意力(MSSA)

为有效捕捉道路损伤的各向异性特征,如裂缝的线性结构,作者首先引入一种多尺度空间注意力机制。受CBAM [16]等开创性工作的启发,该工作展示了分离空间和通道注意力的强大能力,作者的处理过程始于选择性地增强空间显著特征。该过程首先沿水平和垂直轴分离空间信息。对于输入特征图

,作者通过在正交维度上进行平均来生成两个1D特征表示。这隔离了方向性上下文,可表示为:

捕获水平上下文,

捕获垂直上下文。为了赋予模型多尺度感知能力,这些1D特征向量的通道被分为四个并行组。然后,每个组通过一个具有特定 Kernel 大小

的不同1D深度可分离卷积进行处理。这种策略使模型能够同时捕获局部纹理细节和长距离空间依赖关系。输出结果被连接起来,通过一个组归一化层进行归一化,并通过一个Sigmoid门控函数进行调制,以生成最终的空间注意力权重,

。原始特征图

然后使用这些注意力图进行动态重新加权。这种增强通过逐元素乘法实现,如下面的方程所示:

其中

表示逐元素乘法。该操作使模型能够通过显式建模其在多个尺度上的方向特征来关注显著的损伤区域。

3.2.3 通道注意力准备 (CAP)

在MSSA模块的空间增强之后,特征图

会经过转换,以生成一个紧凑且信息丰富的描述符,用于后续的通道注意力机制。该CAP模块通过两种不同的可配置策略之一来降低空间维度:有损池化或无损重组。第一种策略采用标准的空间池化函数

(例如平均池化),以有损方式对局部区域进行总结并降低空间分辨率。第二种更复杂的策略是一种无损的空间到通道重组。该操作通过将特征图X' E RCHW划分为大小为

的非重叠空间块,并将这些块重新排列到通道维度,从而保留所有特征信息。该转换,记作

,可以表示为:

该过程在将细粒度空间细节编码到扩展的通道维度时降低了空间分辨率。随后应用一个统一的逐点(1x1)卷积

。当使用重组时,这一步至关重要,因为它融合了新扩展通道中的特征信息,并将通道深度恢复到原始维度

。如果使用池化,则该卷积相当于恒等映射。这可以表示为:

最后,使用组归一化层

对生成的特征图进行归一化,以稳定其分布,从而为注意力机制提供支持:

完成了特征变换,得到一个归一化、紧凑的描述符,准备进行通道级重新校准。

3.2.4 多头通道自注意力(MHSA)

为了建模通道之间的复杂相互依赖关系并动态重新校准特征响应,作者采用多头自注意力(MHSA)机制。这使模型能够捕获比依赖简单全局池化方法的更复杂、更依赖于上下文的通道相关性。使用前一步骤中归一化和压缩的特征图

,作者通过并行、高效的1x1深度可分离卷积生成 Query (

)、键(

)和值(

)投影。然后对这些投影进行 Reshape 以分离注意力头(

),使模型能够联合关注来自不同表示子空间的信息。注意力输出使用缩放点积注意力公式计算:

其中

表示每个注意力头的维度,作为确保数值稳定的缩放因子。得到的注意力驱动特征图被 Reshape ,通过计算该输出在其空间维度上的均值并应用Sigmoid门控函数生成最终的通道注意力向量

。该向量包含表示每个通道相对重要性的权重。BMS-SPPF模块的最终输出

是通过对空间增强特征图

应用通道级重新校准产生的。

这一最终步骤确保模型放大最具信息量的通道特征,同时衰减那些相关性较低的特征,从而得到更鲁棒和更具判别性的最终特征表示。

3.3 层级信道压缩策略

为解决高参数量问题,作者引入了一种分层通道压缩策略。该方法遵循MobileNets [9]和ShuffleNet [10]等开创性轻量级网络所确立的原则,通过有效利用通道宽度缩减来平衡效率与性能。具体包括 (1) 降低 Backbone 网络的最大通道维度,以及 (2) 优化模块重复频率。原始YOLOv8 Backbone 网络的最大通道宽度为1024,作者将其压缩至512。此外,作者还降低了浅层网络中C2f模块的重复次数

该联合优化实现了67.3%的参数减少和67.9%的GFLOPs降低。BMS-SPPF中的注意力引导特征筛选补偿了压缩导致的信息损失。具体的架构调整详见表1。

3.4 损失函数

YOLO-ROC训练采用了YOLOv8 Baseline 中建立的多元分量损失函数,确保了稳定且有效的收敛过程。这使得评估能够完全聚焦于作者架构创新的性能提升。总损失

是分类损失

、定位损失(

)和目标性损失

)的加权和:

其中

项为相应的平衡系数。该复合函数通过将二元交叉熵(BCE)损失与完整IoU(CIoU)损失相结合,用于边界框回归 [19],有效处理分类和定位的双重任务,为作者的架构改进提供了坚实的基础。

4 实验细节

4.1 数据集

本研究利用RDD2022数据集[20]中的两个子集:RDD2022_China_Drone和RDD2022_China_Motorbike,这两个子集包含在中国收集的道路损坏图像。RDD2022_China_Drone子集用于主要模型训练和验证,包含2401张训练图像和3068个标注标签。这些图像由六旋翼无人机(DJI M600 Pro)在南京东街拍摄,每张图像分辨率为512×512像素。RDD2022_China_Motorbike子集用于评估模型的泛化能力,包含2477张图像(1977张用于训练,500张用于测试),训练集中有4650个标签。这些图像通过安装在以约30公里/小时速度行驶的摩托车上的智能手机拍摄,同样采用512×512像素分辨率。两个数据集均标注了四种主要类型道路损坏:纵向裂缝(Doo)、横向裂缝(D10)、鳄鱼裂缝(D20)和坑洼(D40)。

4.2 实现细节

所有实验均在运行Ubuntu 22.04的工作站上进行,配备NVIDIA GeForce RTX 4090D GPU(24GB显存)。使用的深度学习框架为支持CUDA 11.8的PyTorch 2.1.2,编程语言为Python 3.10。在RDD2022.China_Drone数据集上进行训练时,作者使用了动量为0.937、权重衰减为0.0005的随机梯度下降(SGD)优化器。初始学习率设置为0.01,并使用线性学习率衰减调度器在300个epoch内动态调整。批处理大小设置为64,输入图像大小调整为640×640像素。对于RDD2022_China_Motorbike数据集,作者使用了Adam优化器,其他设置保持一致。为增强泛化能力,启用了混合精度训练,并应用了多种数据增强技术,包括马赛克增强、随机水平翻转、HSV颜色空间抖动、随机擦除和RandAugment自动增强。

4.3 评估指标

为定量评估模型在道路损伤检测任务中的性能,本研究采用主要调查文献[21,22]中建立的一整套标准指标。检测精度通过精确率(P)、召回率(R)和平均精度均值(mAP)进行衡量。mAP在两个阈值下进行报告:mAP50(IoU阈值为0.5)和mAP50:95(在0.5到0.95的IoU阈值范围内以0.05为步长进行平均)。模型复杂性和效率通过参数数量(Params)(以百万计,M)和每秒千亿次浮点运算(GFLOPs)进行评估。部署成本通过模型大小(以兆字节计,MB)衡量,推理速度则使用每秒帧数(FPS)进行评估,以衡量模型在实时检测任务中的响应速度。

4.4 比较方法

为了对提出的YOLO-ROC模型进行全面客观的评估,作者将其性能与一系列具有代表性的 Baseline 模型和当前最先进方法进行比较。首先,作者从YOLO系列中选择主流的实时目标检测模型,包括YOLOv8n Baseline 及其后续版本YOLOv9t、YOLOv10n。其次,为了专门验证作者核心的BMS-SPPF模块的有效性,作者引入了先进的SPPF改进方案进行比较,例如SPPELAN模块。此外,为了评估模型在检测小目标方面的改进能力,作者还包含了其他整合了近期文献[8]中各种注意力机制的YOLOv8模型。最后,为了验证YOLO-ROC在其特定应用领域的竞争力,作者将其与其他当前最先进的道路损坏检测模型(如RT-DSAFDet [23])进行比较。

5 实验

为全面评估所提出的YOLO-ROC模型的性能,设计了一系列实验。第5.1节通过在RDD2022_China_Drone数据集上与主流模型进行比较,验证了该模型的优势。第5.2节在RDD2022_China_Motorbike数据集上评估了该模型的泛化能力。第5.3节研究了信道压缩策略的影响。第5.4节通过可视化进行了定性分析。最后,第5.5节分析了误差来源。

5.1 对比实验

作者在RDD2022_China_Drone数据集上针对主流模型进行了对比实验,结果展示在表2和表3中。数据显示YOLO-ROC在检测精度、模型参数和计算复杂度之间取得了极佳的平衡。与 Baseline 模型YOLOv8n相比,YOLO-ROC在mAP50上实现了2.1%的相对提升(从66.2%提升至67.6%),同时显著减少了参数数量(从3.01M降至0.89M,减少了70.4%)和GFLOPs(从8.1降至2.6,减少了67.9%)。模型大小从6.3 MB压缩至仅2.0 MB。与其他最先进的道路损伤检测模型如RT-DSAFDet相比,YOLO-ROC在显著更少的参数和GFLOPs下展现出更高的精度。这种性能提升归因于BMS-SPPF的协同设计,该设计增强了多尺度特征提取能力,以及分层通道压缩策略,该策略在减少网络冗余的同时保持了精度。如图3所示,与其他模型相比,YOLO-ROC的验证损失曲线呈现出更平滑的下降趋势,并收敛到更低的水平,表明其收敛特性得到优化。

picture.image

picture.image

为验证YOLO-ROC的泛化能力,作者在RDD2022_China_Motorbike数据集上进行了测试,结果如表4所示。YOLO-ROC取得了mAP50为

的成绩,与 Baseline YOLOv8n

具有竞争力,但参数量和GFLOPs仅为后者的

。这表明模型在不同数据集上均能保持高检测精度,展现了其出色的适应性和效率。模型泛化能力的提升归功于BMS-SPPF模块和分层通道压缩策略,这些设计确保了模型在未见数据上的鲁棒性,同时保持了轻量级特性。

5.3 通道压缩的消融研究

为验证分层通道压缩策略的有效性,作者比较了在不同最大通道宽度设置下的模型性能:1024、512(作者提出的模型)、256和128。结果详细见表5。数据显示通道压缩显著降低了计算负载。与1024通道版本相比,作者提出的模型(Ours_512)参数减少了69.4%,GFLOPs减少了65.8%,mAP50仅略微下降1.5%。这表明性能保持度高。相比之下,更激进的压缩(Ours_256和Ours_128)导致准确率急剧下降,表明过度压缩损害了模型的表达能力。因此,作者提出的配置在检测准确率和模型效率之间实现了最佳平衡。

picture.image

5.4 可视化分析

为了直观地验证性能,作者进行了可视化分析。检测结果的定性比较如图4所示,特征热力图如图5所示。在检测结果(图4)中,像YOLOv8n这样的 Baseline 模型在小裂缝上存在漏检。相比之下,作者的最终模型(Ours)凭借BMS-SPPF模块中的CAP和MHSA组件,实现了高精度定位,置信分数始终保持在0.70-0.80范围内,并覆盖了多尺度目标。热力图分析(图5)进一步证实了这一点。YOLOv8n的热力图显示特征响应分散。而YOLO-ROC的热力图则显示出更集中、高强度的激活区域,精确地位于损伤位置。这归因于BMS-SPPF模块的MSSA机制,该机制捕获各向异性特征并抑制背景噪声。

picture.image

picture.image

5.5 错误分析

尽管YOLO-ROC取得了显著改进,但在某些复杂场景下仍存在局限性。主要误差来源在于检测微小目标时的不足,特别是在非均匀照明或高空无人机视角下,这可能导致漏报。图6中的混淆矩阵揭示了模型的分类细节。虽然模型在D00(纵向裂缝)和D10(横向裂缝)上表现优异,分别以77%和82%的真正例率进行分类,但模型仍将相当一部分D20(鳄鱼裂缝)样本误分类。

picture.image

6 结论

本研究提出了YOLO-ROC,一种高精度轻量级模型,通过集成新型BMS-SPPF模块和分层通道压缩策略,优化了特征提取和计算效率。在RDD2022_China_Drone数据集上,YOLO-ROC实现了mAP50为67.6%,相较于YOLOv8n Baseline 提升了2.11%,同时参数量减少了70.4%,GFLOPs降低了67.9%。BMS-SPPF模块显著提升了多尺度和小目标的检测效果,而压缩策略有效减小了模型规模。这些结果验证了本方法在检测精度和模型效率之间实现稳健平衡的优越性。尽管YOLO-ROC已取得良好成果,未来工作将聚焦于两个方面:首先,引入融合高层语义特征的注意力引导机制,以解决BMS-SPPF模块在极端光照下存在的注意力分散问题;其次,研究动态可微通道剪枝,使网络能够自适应调整其压缩策略,从而在模型压缩和精度保持之间实现更好的平衡。

参考

[1]. YOLO-ROC: A High-Precision and Ultra-Lightweight Model for Real-Time Road Damage Detection

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论