YOLOv7如何升级?双注意力机制+MPDIoU损失优化还可以带来进一步的惊喜!

大模型机器学习数据库

点击下方卡片,关注

「集智书童」

公众号

点击加入👉

「集智书童」

交流群

picture.image

picture.image

picture.image

picture.image

picture.image

picture.image

导读

电力设备的正常运行在电力系统中起着至关重要的作用,因此对电力设备进行异常检测具有重要意义。本文提出了一种基于改进YOLOv7x的电力设备异常检测算法。

首先,引入了ACmix卷积混合注意力机制模块,以有效抑制背景噪声和不相关特征,从而增强网络的特征提取能力。

其次,在网络中添加了Biformer注意力机制,以加强对于关键特征的聚焦,提高网络灵活识别特征图像的能力。

最后,为了更全面地评估预测框与真实框之间的关系,将原始损失函数替换为MPDIoU函数,解决了预测框与真实框不匹配的问题。改进的算法提高了检测精度,对所有目标类别实现了

,精确度为

,召回率为

  1. 引言

随着中国电力工业的快速发展,电力设备安装的覆盖区域不断扩展。在这些组件中,绝缘子和仪表是关键要素。电力系统中已发生多起因绝缘子和仪表故障导致的设备故障事件,这突出了定期检查智能巡检获取的图像的重要性[1]。随着深度学习在图像检测领域的进步,目标检测算法在电力设备缺陷检测中的应用越来越广泛。

目标检测模型主要分为单阶段模型,如SSD [2]、RetinaNet [3] 和YOLO系列,以及双阶段模型,如Faster R-CNN [4]、SPPNet [5] 和Mask R-CNN [6]。单阶段模型速度更快,更适合电力设备中的实时缺陷检测。然而,这些算法在检测具有复杂背景的电力设备缺陷时往往难以保证准确性。由于电力设备的智能检测需要对复杂背景下的各种缺陷进行准确识别,因此需要进一步优化检测算法。

在这方面,已经进行了许多研究。例如,马侨辉等人[7]提出了一种基于裙部形态特征的故障检测算法,以解决电力设备中绝缘子故障检测的难题。虽然这种方法为绝缘子的智能检测提供了基础,但在评估绝缘子完整性方面仍有不足。TAO等人[9]提出了一种级联卷积神经网络结构,用于在电力设备中定位和检测绝缘子的缺陷。然而,这个级联网络只能检测自爆炸缺陷,限制了算法的鲁棒性。赵等人[10]改进了Faster R-CNN深度检测模型中的区域建议网络(RPN)中的 Anchor 点生成和非极大值抑制(NMS)方法,以提高检测精度,但该算法的计算负载较高。宋志伟等人[11]引入了一种改进的YOLOv7缺陷检测方法,该方法结合了全局注意力机制以增强显著特征。尽管它在检测绝缘子断裂缺陷方面取得了一些成功,但仍未能完全满足电力设备智能检测的要求。赵文清等人[12]通过提出一种结合CBAM注意力机制的方法,解决了使用Faster R-CNN在图像中定位和识别绝缘子的问题。虽然这提高了检测精度,但在复杂背景下准确定位缺陷仍然具有挑战性。

尽管上述算法在一定程度上取得了改进,但在处理复杂场景和检测多种类型的电力设备方面仍存在局限性。大多数当前的缺陷检测算法主要关注绝缘子,主要针对绝缘子断裂缺陷,对闪络缺陷或其他电力设备检查中常见的缺陷关注较少。

为了满足电力设备智能检测系统的要求,提高异常检测的准确性,并降低误检和漏检率,本文提出了几项创新:

    1. 首先,将ACmix卷积和自注意力混合模块集成到SPPCSPC结构中,使网络能够更好地提取各种目标特征。此外,通过剪枝卷积层以减少参数和计算复杂度,并将并行池化层修改为串行池化层。通过融合串行池化层的特征图,扩大了感受野同时提高了计算速度。改进后的SPPCSPC结构增强了网络识别不同尺寸异常目标特征的能力。
    1. 其次,将Biformer注意力机制融入Efficient Aggregation Network(EAGNet)中,以增强网络对关键特征的聚焦能力,提升其灵活识别特征图像的能力。
    1. 最后,将原始损失函数替换为MPDIoU函数,以提供对预测框与真实框之间关系的更全面评估,从而提高模型的检测性能。
  1. 相关技术


2.1 YOLOu7网络模型

YOLOv7模型的核心主要由CBS卷积层、高效聚合网络、MP-1模块和SPPCSPC模块组成。CBS卷积层用于从图像中提取初始特征。高效聚合网络通过控制不同长度的连接路径来丰富特征表示。MP-1模块通过两个分支——上分支和下分支——使用最大池化和卷积操作提取特征,然后通过Concat操作融合特征,使网络能够提取更有效的信息。SPPCSPC模块整合了不同感受野的特征,避免了从图像中进行冗余的特征提取,并增强了特征图的表示能力。模型的 Neck 采用路径聚合特征金字塔网络(PAFPN),以自上而下的方式提取语义特征,并将其与精确的定位信息相结合。

2.2 ACmix卷积混合自注意力机制模块

ACmix卷积混合自注意力机制模块[17]结合了卷积和自注意力,以捕捉局部和全局信息,提高特征表示能力。该模块分为两个阶段,如图1所示。

picture.image

在初始阶段,通过三个

卷积将特征投影,生成表示为

维的特征图子集。在后续阶段,从第一阶段获得的特征子集被送入两个独立的分支。

上分支遵循卷积路径,卷积核大小为

,从局部感受野收集信息。通过全连接层,特征被转换为

个特征图。这些生成的特征进一步处理以产生新的特征图。下分支遵循自注意力机制路径,其中特征被分为 N 组,每组包含 Query 、 Key和Value 张量。这些张量通过移位和求和等操作进行处理,以生成新的特征图。

最后,两个分支的输出通过加权求和进行组合,权重由两个可学习的标量确定,如公式(1)所示:

此处,

是路径的最终输出;

是自注意力分支的输出,而

是卷积注意力分支的输出。

2.3 BiFormerSparse注意力机制

BiFormerSparse注意力机制的核心是双级路由注意力(BRA)机制[18]。BRA的结构如图2所示。

picture.image

该机制将输入特征图划分为多个非重叠区域,然后对这些区域应用线性变换以获得用于 Query (Q)、Key(K)和Value(V)的张量,进而计算注意力权重。在这些聚焦区域内应用细粒度的词对词注意力,具体如方程(2)和(3)所述:

Kg=gather(K,Ir)  Vg=gather(V,Ir) \begin{array}{l} {{K^{g}=g a t h e r(K,I^{r})}} \ {{}} \ {{V^{g}=g a t h e r(V,I^{r})}} \end{array}

此处,"gather" 是一种收集张量的操作。由此得到的二层路由注意力(Bi-level Routing Attention,BRA)机制可表示为公式(4)所示:

在公式(4)中,LCE(V)代表1个局部上下文增强项。

picture.image

基于BRA模块,BiFormerSparse注意力机制采用四级金字塔结构,如图3左侧所示。在每个BiFormer模块中,首先使用

深度卷积来隐式编码相对位置信息。随后,依次应用BRA模块和两个MLP模块来分别建模跨位置关系和每个位置嵌入,如图3右侧所示。

picture.image

2.4 损失函数

YOLOv7的原损失函数为CIoU [19]。该损失函数考虑了预测边界框与真实边界框的重叠区域、中心点之间的距离以及宽度和高度之间的宽高比。损失函数的定义如公式(5)所示:

IoU表示预测边界框与真实边界框之间的交并比,cc代表两个边界框最小外接矩形的对角线距离,bb是真实边界框的中心点,

是预测边界框的中心点,

rho表示b与

之间的距离,

是一个权重函数,v描述了宽高比一致性。

的定义如下:

分别是真实框的宽度和高度,而

分别是预测框的宽度和高度。

  1. 改进的YOLOv7x检测方法

由于本文研究的各种电力设备缺陷中异常的大小差异显著,且绝缘子缺陷尺寸较小,原始网络难以准确提取这些异常的位置和详细信息。为了提高检测性能,对YOLOv7算法进行了以下改进:

首先,提出了一种AC-SPPCSPC结构来替代原始的特征提取结构。通过剪枝卷积层,减少了参数数量,同时最小化了小目标信息的过滤。此外,对池化层进行了修改,以增强特征融合,最终提高了网络的特征提取能力。

其次,将Biformer注意力机制添加到Efficient Aggregation Network(EAGNet)中,以增强网络对关键特征的聚焦。Biformer根据任务需求动态调整局部和全局注意力的比例,提高了网络在识别不同特征图像时的灵活性。

最后,为了解决推理过程中预测边界框不匹配的问题,损失函数被进行了替换。

改进的网络架构如图4所示。

picture.image

3.1 特征提取模块的改进

YOLOv7系列模型引入了SPPCSPC结构以增强特征提取能力。该结构通过使用不同大小的池化核在多个尺度上处理输入特征图,从不同层次提取特征并将它们连接成一个复合特征图,从而提高模型的特征表示能力。然而,SPPCSPC使用了大量的卷积层,这增加了计算复杂度。此外,重复的卷积可能会模糊特征细节,导致详细信息的丢失并负面影响检测性能。为了更好地增强网络模型的特征提取能力并解决不同尺度下电力设备的异常检测问题,本文对SPPCSPC特征提取模块进行了改进。

具体改进如下:

  1. ACmix卷积混合注意力模块介绍

在池化层之前引入了ACmix模块,增强了网络在处理特征图时的灵活性。这有效地区分了各种类型的缺陷,提高了模型提取多种类型异常特征的能力。此外,通过剪枝一些卷积层,网络在降低计算复杂度和参数尺寸的同时,减少了针对缺陷目标的空間信息过滤。

  1. 将并行池化层替换为串行池化层

与SPPCSPC中的并行特征提取方法相比,串行方法提供了相同的感受野,但检测速度更快,计算开销更低。此外,通过融合串行池化层的特征,网络增强了其表示缺陷位置特征的能力。

3.2 BiFormer 注意力机制的集成

YOLOv7中的高效聚合网络(EAGNet)采用多分支结构来分解和组合特征,有效提升了特征的多样性和表达能力。通过将输入特征通过不同的分支进行处理,并在最后进行特征聚合,它确保了多层特征的有效融合。

BiFormerSparse注意力机制强调关键信息,减少无关数据的干扰。通过Sparse选择机制,它动态调整特征权重,突出重要特征同时抑制无关特征。它还能更好地捕捉长距离和局部细节信息,实现丰富的特征表示。此外,Sparse注意力机制能够适应不同大小和类型的输入,提高网络处理不同尺度特征时的灵活性。

在目标检测中,特征信息对于准确定位和检测异常目标至关重要,因为这些目标可能被较大的无关目标或背景噪声所遮挡。BiFormer机制增强了图像场景的理解,通过加强特征表示来提高异常检测的准确性。此外,其强大的适应性允许灵活应用于涉及不同大小和类型异常目标的检测场景。

因此,本文将BiFormerSparse注意力机制嵌入到Efficient Aggregation Network模块中,并将其命名为Efficient Layer Sparse Attention Aggregation Network(ESAN)。详细结构如图6所示。

picture.image

3.3 损失函数的改进

YOLOv7的原损失函数是CIoU。该损失函数未考虑图像尺寸,因此在图像具有相同的纵横比但宽度和高度值完全不同的情况下,在优化预测框与真实框对齐方面效果较差。此外,CIoU中的宽度和高度变化往往表现出负相关性;即当一个维度增加时,另一个维度会减少。这可能导致预测框与实际目标不匹配,从而削弱CIoU在边界框预测中的性能。此外,CIoU对边界框旋转的敏感性不足,这影响了不同方向上的检测精度。

为了解决这些问题,本文引入了MPDIoU损失函数[20]。MPDIoU提供了一种更灵活的边界框相似度度量方法,有效处理了长宽比和旋转挑战,从而提高了边界框匹配的准确性。此外,MPDIoU同时考虑了边界框的面积和形状,增强了在复杂场景下目标检测的鲁棒性。

MPDloU评估边界框中心的距离,并利用这个距离来调整IoU计算,从而更准确地评估边界框的相似性。它包含了现有损失函数考虑的所有相关因素。计算过程如下:

²

²

²

²

²

²

在此,AA和BB代表输入图像,

和hh分别表示图像的宽度和高度。

是图像A左上角和右下角点的坐标,而

是图像B左上角和右下角点的坐标。

  1. 实验工作

4.1 实验环境设置

本实验的硬件环境包括一块GeForce GTX GPU、一块Intel Core i7-12700H CPU和16GB内存。软件环境包括Windows 11操作系统、PyTorch 2.1、Torchvision 0.16和CUDA 12.2。在消融实验中,使用了随机梯度下降(SGD)算法进行100个epoch的训练。初始学习率设置为0.01,最小学习率为0.0001,批大小为8。动量参数和权重衰减分别设置为0.937和0.0005。

4.2 数据集处理

本研究聚焦于电力供应网络中的绝缘子和仪表盘。数据集来源于一家电力公司多年来收集的现场数据。利用1,688张绝缘子图像和1,270张仪表盘图像,构建了一个包含大小和背景变化的电力设备缺陷数据集。使用LabelImg工具对构建的电力设备异常数据集进行标注。各种缺陷样本的示例如图7所示。

picture.image

标注标签及其对应的样本数量如下:

绝缘子损坏(jyz_sh):1,260个样本

绝缘子闪络(jyz_sl):2,723个样本

表盘模糊(bj_mh):459个样本

表盘损坏(bj_ps):605个样本

正常表盘(bj):406个样本

标注以.xml文件保存。数据集按照8:1:1的比例分为训练集、验证集和测试集。

  1. 实验结果与比较分析

作者应讨论研究结果及其如何从前人的研究和工作假设的角度进行解读。应尽可能在广泛的环境中讨论发现及其影响。还可以突出未来的研究方向。

5.1 消融研究

5.1.1 不同注意力机制的影响

为了研究不同注意力机制的影响,引入了四种注意力机制——SimAm [23]、SE [24]、CBAM [27] 和 BiFormer [18]——进行消融实验。实验结果如表1所示。

从表1的结果可以看出,在SimAm、SE、CBAM和BiFormer这几种方法中,本文引入的BiFormer注意力机制取得了最佳性能,其mAP值达到了92.6%。这比SimAm提高了1.3%,比SE提高了2.7%,比CBAM提高了2.1%。此外,在使用BiFormer注意力机制时,该数据集中各种异常的AP值也相较于其他三种机制最高。这证明了本文引入的BiFormer注意力机制的有效性。

5.1.2 改进前后特征提取模块的影响

为了验证改进的特征提取模块对目标检测精度的提升影响,进行了模块改进前后的热力图可视化对比。热力图的颜色强度代表网络对缺陷目标的关注度——颜色越深,对缺陷目标区域的关注度越高。对比结果如图8所示。

picture.image

从图8的结果可以看出,与原始的SPPCSPC模块相比,使用AC-SPPCSPC模块生成的 Heatmap 在缺陷目标区域显示的颜色更加集中,颜色更深。这表明,模型对缺陷目标的关注度有所提高,应用AC-SPPCSPC后感知区域变得更加准确。这证明了改进后的SPPCSPC模块可以增强模型对数据集中缺陷区域的关注,减少复杂背景的干扰,并提高模型检测缺陷的能力。

5.1.3 不同改进模块的消融研究

为了验证添加模块对原始网络检测性能的改进,作者进行了消融实验,以未进行任何修改的原始YOLOv7x作为 Baseline 。测试的方法包括集成改进的AC-SPPCSPC模块、嵌入BiFormer注意力机制以及优化损失函数。"

"表示使用特定的模块组合。具体的实验结果如表2所示。

picture.image

训练后,原始YOLOv7x达到了

的精确度、

的召回率和

的mAP。比较替换损失函数后的结果,发现用MPDIoU替换原始损失函数,使mAP提高了

,精确度提高了

,召回率也提高了

。进一步比较分别添加ACSPPCSPC和BiFormer注意力机制到YOLOv7x后的性能指标,分别揭示了mAP提高了

最终,本文提出的改进YOLOv7x网络模型相较于原始模型,在mAP上实现了4.3%的提升,同时提高了精确度和召回率。此外,在包含所提模块的情况下,参数数量从70.8M减少到67.3M。因此,最终的消融实验结果表明,所提的改进模块对原始网络的检测精度有积极影响,当所有三个模块同时应用时,取得了最佳结果。

5.2 比较实验

5.2.1 与主流模型的比较

为了验证改进模型的有效性,它在相同条件下与其他常用目标检测模型进行了比较,例如SSD [2]、YOLOv7 [21]、DETR [25]、TPH-YOLOv5 [26]和YOLOv8。所有模型均在统一的实验平台上进行训练,并使用了相同的训练和测试数据集。

从表3的结果来看,所提出的算法在绝缘子损坏、闪络以及表盘模糊和损坏等缺陷的mAP值方面优于其他主流算法。改进后的算法实现了93.5%的mAP值,相较于原始算法提高了4.3%,并且超过了其他常用的目标检测算法。

picture.image

与原始算法的详细比较揭示了针对特定缺陷类型,AP值(平均精度)的以下改进:

拨号模糊度(bj_mh):提高

拨号损伤(bj_ps):提高

绝缘损伤(jyz_sh):提高

绝缘闪络(jyz_sl):提高

实验结果强烈证明了本文提出的改进算法的有效性。

5.2.2 与原始模型的比较分析

为进一步验证所提模型改进的有效性,进行了改进前后检测结果的视觉比较,如图8所示。

从前三组的结果可以看出,原始模型在复杂背景和密集绝缘缺陷中存在误检。在第一组和第二组中,原始模型错误地将未损坏的绝缘体检测为损坏。在第三组中,它错误地将非闪络情况识别为绝缘体闪络。相比之下,所提出的模型准确检测了这些情况,并且置信度得分显著提高。

在第四组中,原始模型错误地将非模糊的仪表盘识别为模糊,而所提出模型没有出现这个问题。

这些结果表明,SPPCSPC结构的改进使得网络能够更有效地提取目标特征。此外,将BiFormer注意力机制嵌入到高效聚合网络中,增强了不同目标特征的区分度。更换损失函数有效地降低了误检率,从而提高了目标检测的准确性。

  1. 结论

本文提出了一种改进的YOLOv7x网络模型,用于电力系统设备中的异常检测。主要改进包括以下内容:

  1. SPPCSPC模块的改进

针对 Backbone 网络,提出了一种新的SPPCSPC结构。通过减少在池化层之前的卷积层数量,以降低参数数量,并引入ACmix卷积混合注意力机制模块,以增强在智能巡检过程中获取的电力设备图像的特征提取能力。此外,将SPPCSPC中的并行池化层替换为串行池化层,提高了模型聚焦于缺陷目标的能力。

  1. Sparse注意力机制的集成

将Sparse注意力机制融入高效聚合网络(EAGNet)中,从而形成了所提出的ESAN网络结构。这一改进提升了网络在识别不同类型设备缺陷时的灵活性。

  1. 损失函数的优化:

原始损失函数被MPDIoU函数所取代,以解决目标预测边界框不匹配的问题。

实验结果验证了所提算法的有效性,实现了

的平均精度(mAP)、

的精确度和

的召回率。改进的算法显著减少了漏检和误检的发生。

参考

[1]. Improved YOLOv7x-Based Defect Detection Algorithm for Power Equipment

picture.image

扫码加入👉

「集智书童」

交流群

(备注:

方向

学校/公司+

昵称

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论