YOLO 家族大对决:YOLOv11 与 Transformer 称霸两类目标检测 !

大模型机器学习数据库

点击下方卡片,关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

picture.image

picture.image

picture.image

picture.image

想要了解更多:

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF」

行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码,加入「 集智书童-知识星球 」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!

免责声明

凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。

picture.image

中国摘要随着全球工业生产的迅速发展,对电力设备可靠性的需求不断提高。确保电力系统运行的稳定性需要准确的方法来检测电力设备中的潜在故障,从而保证电力能源的正常供应。

在本文中,全面评估了YOLOv5、YOLOv8、YOLOv9、YOLOv10和最新的YOLOv11方法在电力设备目标检测方面的性能。

实验结果显示,这几种方法在公共数据集上的平均精度(mAP)分别为54.4%、55.5%、43.8%、48.0% 和57.2%,其中YOLOv11方法的检测性能最高。

此外,YOLOv11在召回率方面优于其他方法,并且在减少误检方面表现出色。

综上所述,研究结果表明,YOLOv11模型为电力设备目标检测提供了可靠和有效的解决方案,代表着增强电力系统运行可靠性的一个有前途的方法。

I. INTRODUCTION

近年来,全球经济行业的迅猛发展突显了环境保护的重要性。依赖燃烧传统能源源极大地增加了温室气体排放和有害污染物的释放 [1], [2]。因此,对可再生和低污染能源的需求急剧上升,与可持续发展目标相契合 [3]。可再生能源因其可再生性和对环境影响较小的特点,提供了实现这些目标的有前景的道路。随着可再生能源尤其是电力领域的广泛应用,人们对这些系统的稳定性和可靠性提出了更高的期望。然而,传统的手动检测方法在满足这些需求方面存在不足。此类方法不仅效率低下,还需要技术行人进行操作。

与传统的手工检测方法相比,深度学习在目标检测方面提供了显著的优势,包括高效性、精确性和成本效益。传统深度学习技术通常使用滑动窗口算法逐步扫描目标图像,生成多个候选区域进行进一步分析。然后,在这些区域内提取特征,并利用支持向量机(SVM)[5]等方法进行分类。主要的特征提取方法包括维基-琼斯检测器[6]、方向梯度直方图(HOG)检测器[7]以及基于AdaBoost的集成学习算法[8]。然而,这些方法往往依赖于人工设计的特征,容易受到背景噪声导致的误检影响。因此,传统基于机器学习的目标检测方法已经无法满足现代工业生产的需要。

近年来,人工智能的发展推动了深度学习能力的提升,特别是在图像处理任务方面。深度学习技术提供了无与伦比的速度和准确性,使其在工业应用中越来越受欢迎[9]。因此,研究行人开始将深度学习模型应用于电力设备的目标检测任务中[10]。其中,仅需观看一次(YOLO)算法,作为一种实时目标检测算法,受到了广泛关注。

与传统方法不同,YOLO算法无需预先生成候选区域,可以直接预测图像中目标的类别和位置。自从2015年首次提出以来,YOLO经历了显著的进步,最新的版本YOLOv11在检测速度和性能上展现出了显著提升[11]。鉴于这些特性,YOLO深度学习框架在电力设备目标检测方面具有巨大潜力,能够为满足现代工业需求带来的挑战提供一个稳健的解决方案。

II.EXPERIMENTAL DESIGN OF POWER EQUIPMENT OBJECT DETECTIONBASED ONYOLO

YOLO 是一种 renown 的一阶段目标检测算法,以其高效性和简洁性著称。YOLO 框架包含多个组件,包括构建目标检测数据集、图像预处理、使用目标检测训练数据集进行模型训练以及使用验证数据集验证结果。经过多次迭代,YOLO 的 Backbone 网络经历了显著进步,整合了更深层次的功能融合和多尺度特征提取,以增强其电力设备目标检测能力。

自 YOLOv5 [12] 起,通过引入 CSPNet 框架优化特征传播和网络容量,显著提升了检测效率和准确性。从 YOLOv8 [13] 开始,该系列首次采用 Anchor-Free 机制,使模型能够更好地适应不同尺寸电力设备目标的检测。与此同时,YOLO 系列的更新还包括对损失函数的创新改进,进一步细化了模型的检测精度。尽管原始的 YOLO 算法提供了卓越的检测速度,但其准确性仍然落后于两阶段检测算法。然而,随着迭代更新,新的 YOLO 版本在保留快速处理速度的同时,实现了检测准确性的大幅提升。

值得注意的是,YOLOv11 [14] 模型代表了一个重要里程碑,实现了速度与准确性的良好平衡,甚至超过了某些两阶段算法的性能。这使得 YOLOv11 在电力设备目标检测中非常有效,既具备现代应用所需的高度精准性又兼具效率。图1 展示了 YOLOv11 网络的整体架构。

picture.image

A.UpdateofYOLO model

YOLOv3 [15] 引入了多尺度预测,使模型能够在三个不同的尺度上检测边界框。这一增强显著提升了模型检测不同大小目标的能力。将空间金字塔池化(SPP)层整合到 Backbone 网络中进一步扩大了模型的感受野,增强了其特征提取能力。YOLOv5 通过在 Backbone 网络中采用 C3 模块进一步提升了这些能力,该模块降低了计算复杂度并提高了推理速度。它还引入了 Mosaic 数据增强方法,特别是 Mosaic4,这种方法随机组合和变换四张图像以增强特征表示能力和模型学习能力。此外,还增加了自适应 Anchor 框优化,使模型能够更好地处理不同大小的目标。YOLOv8 进一步细化了架构,用 C2f 模块替换了 C3 模块,提升了特征提取效率,并引入了 Anchor-Free 检测机制以提高小目标的检测性能。

Mosaic 数据增强过程得到了优化,在最终十次训练周期中不再使用,从而提高了模型的泛化能力。此外,还集成了特定任务的损失优化以提升检测精度。YOLOv10 [17] 引入了双头架构,包括一对多和一对一的 Head 。在训练过程中,两个 Head 都参与其中,而在推理时仅使用一对一 Head ,以提升预测精度。SPPF 模块之后加入的 PSA 模块促进了全局特征学习,并进一步提高了检测性能。最新的迭代版本 YOLOv11 用 C3K2 模块替换了 C2f 模块,C3K2 是一种定制的 CSP 缓冲层,包含两个较小的卷积层,可以提升处理速度而不牺牲性能。虽然保留了 YOLOv8 的 SPPF 模块,YOLOv11 引入了 C2PSA 模块,该模块结合了通道和空间信息以及多头注意力机制,以实现更高效的特征提取。

还对自适应 Anchor 框机制进行了优化,以适应多样化的数据集,从而提升检测精度。除了在电力设备中的目标检测外,YOLOv11 还将其功能扩展到了实例分割、图像分类、姿态估计和旋转边框检测(OBB),以应对广泛的计算机视觉任务和挑战。

为了进一步提高检测性能,YOLOv9 [16] 引入了渐进梯度集成(PGI)技术,解决了在极深架构中深度监督存在的局限性,并使轻量级架构更加实用。提出了一种新的网络架构,称为广义高效层聚合网络(GELAN)。

GELAN 结合了跨阶段部分网络(CSPNet)和高效层聚合网络(ELAN)的设计,平衡了模型的轻量化设计、推理速度和准确性。跨阶段部分连接被用于在不同阶段之间链接特征图,丰富了语义信息并改进了

B. Power equipment object detection method based on YOLOv11

YOLOv11目标检测方法通过最小化综合损失函数来提升其性能,该损失函数整合了多种组件。此损失函数包括分布式Focal Loss、边界框回归损失以及类别概率损失。优化过程涉及结合这些单独的损失项,并采用先进的优化算法以精炼模型在目标检测任务中的性能。YOLOv11损失函数的具体公式表示为:

其中, 是类概率损失,YOLOv11 模型训练过程中的一项关键组件。它用于量化预测类概率与真实标签之间的差异。该损失函数基于交叉熵原理,有助于提升模型在各类物体上的预测准确性。 是边界框损失,这是 YOLOv11 模型优化策略中的另一个核心部分,旨在提高边界框预测的精确度。通过最小化模型预测的边界框与其实际边界框之间的差异,并利用交并比(IoU)等指标来衡量重叠程度,从而引导模型的学习过程。 是 YOLOv11 模型的创新之处在于其能够识别和优先处理检测场景中的复杂样本。通过对这些复杂样本的损失权重进行调节,模型被激励更专注于它们的准确分类,并分配更多计算资源以增强其整体检测能力。

YOLOvl1模型由三个主要组件构成:Backbone、Neck和Head。Backbone作为基础部分,用于从输入图像中提取多尺度特征图,这通过一系列卷积层和特殊模块实现,旨在生成不同分辨率的特征图。这些特征图捕捉了后续处理所需的空间和语义信息。Neck作为中间阶段,负责聚合和增强来自多个尺度的特征,然后传递给Head网络进行预测。

这一过程通常涉及特征图的上采样和拼接,使模型能够高效地捕捉和利用多尺度信息。Neck在连接Backbone和Head组件方面发挥着关键作用,增强了特征表达能力并支持稳健的预测。Head负责生成最终输出,包括物体边界框和类别标签。它处理Neck传递过来的丰富特征图,以高精度预测物体的位置和分类。

总结而言,Backbone 提取了关键的特征表示,Neck 负责整合和精炼这些特征跨尺度信息,并生成最终的预测。Neck 作为关键的连接部分,通过上采样和拼接多尺度的Backbone特征,增强了其表达能力,从而为Head提供了一个坚实的基础,使其能够产生精确可靠的预测。

C. ExperimentSetup

在本文中,对YOLOv5、YOLOv8、YOLOv9、YOLOv10和YOLOv11进行了全面评估。每种模型均训练了100个周期,批量大小为32,使用随机梯度下降(SGD)作为优化器,并设置初始学习率为0.01。

实验配置包括10个工作线程、IoU阈值为0.5以及标准化输入图像尺寸为像素。实验在配备NVIDIA Tesla V100 GPU(16 GB)、10核心Intel Xeon Platinum 8160T CPU以及16 GB内存的云服务器上进行。开发环境包含Python 3.8、CUDA 11.3和PyTorch 1.10,运行于Windows 11操作系统上。

D.Experimentalresultsand analysis

在本文中,作者使用了一个电力设备目标检测的数据集来评估模型性能。具体而言,作者采用了一个从Roboflow平台获取的公开电力设备目标检测数据集。

该数据集包括两类已标注的目标:电线和 Transformer 。数据集中缺陷的分布情况如图2所示,总共包含497张图像。作者将数据集分割为训练数据集和验证数据集,其中397张图像分配给训练数据集,100张图像用于验证,比例为4:1。

picture.image

测试配置的性能结果呈现在图3中。可以观察到,YOLOv11模型在单个和多个电力设备目标场景下的检测准确性、漏检和误检方面均显示出显著的性能提升。

picture.image

因此,新开发的YOLOv11模型在电力设备目标检测方面具有显著的应用价值。为了展示YOLOv11模型出色的特征提取能力,作者使用Grad-CAM [18] 工具可视化了YOLOv5、YOLOv8、YOLOv9、YOLOv10和YOLOv11在识别电力设备目标时的检测结果。如图4所示,在电力设备目标检测区域的空间范围内,YOLOv11模型表现出明显的注意力集中现象。与之相比,其前辈生成的注意力图分布更加分散,无法像YOLOv11那样精确地确定电力设备目标检测区的具体坐标。这些可视化结果突显了YOLOv11模型在复杂环境中更加强化和识别关键特征的能力。

picture.image

本文使用了标准的图像检测评估指标,包括平均精确率(mAP)、召回率和精确率。

在目标检测中,真正例(TP)表示模型正确识别的目标数量。假正例(FP)对应于模型将背景元素误分类为目标的情形,而假负例(FN)表示模型未能检测到的目标。mAP 通过计算每个类别平均精度的平均值来评估模型在所有类别的整体性能。精确率(Precision)衡量预测为正样本的比例中有多少被正确分类,提供了模型产生假正例倾向的见解。召回率(Recall)量化了模型成功识别的实际正样本比例,反映了其减少假负例的能力。此外,所有检测结果指代模型识别为正样本的总数量,而所有地面真相则包含数据集中实际存在的所有正样本总数。这些指标共同提供了对模型检测性能的全面评估。

表1展示了YOLOv5、YOLOv8、YOLOv9、YOLOv10和YOLOv11在mAP、精确率和召回率方面的比较结果。最新的模型YOLOv11在mAP和召回率方面都取得了最高的成绩,分别为和。mAP反映了模型的整体检测性能,而召回率则突显了其减少假负例的能力。这些结果显示,YOLOv11模型在检测精度和降低误检率方面表现出色,使其在电力设备目标检测中具有很高的效用,并展示了其巨大的应用潜力。

表2展示了使用mAP作为评估指标,YOLOv5、YOLOv8、YOLOv9、YOLOv10和YOLOv11在电线和 Transformer 检测上的测试结果比较。最近开发的YOLOv11模型在检测效果上脱颖而出,展现出在两类目标检测领域的无与伦比的表现。这项研究实验框架内电力设备目标检测的这一卓越成就表明,YOLOv11不仅仅是一种渐进式的改进,而是一种在目标检测技术上的革命性飞跃。这些发现的意义深远,预示着YOLOv11在科学研究和实际应用场景中将迎来一个崭新的时代。

picture.image

参考

[0]. Comprehensive Performance Evaluation of YOLOv11, YOLOv10, YOLOv9, YOLOv8 and YOLOv5 on Object Detection of Power Equipment .

picture.image

扫码加入👉「集智书童」交流群

(备注: 方向+学校/公司+昵称 )

picture.image

点击下方“ 阅读原文 ”,

了解更多AI学习路上的 「武功秘籍」

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论