基于 YOLO 的检测，YOLOv8、v9、v11 及混合模型深度剖析！

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

想要了解更多：

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」

行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码，加入「 集智书童-知识星球 」，日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑，期待交流！

免责声明

凡本公众号注明“来源：XXX（非集智书童）”的作品，均转载自其它媒体，版权归原作者所有，如有侵权请联系我们删除，谢谢。

picture.image

头盔检测对于提升公共道路交通中的安全保护水平至关重要。这个问题陈述可以转化为一个目标检测任务。

因此，本文在头盔检测的背景下，比较了近期的一些YOLO模型，从可靠性和计算负载的角度进行了分析。

具体来说，使用了YOLOv8、YOLOnu和最新发布的YOLOvll。此外，本文还提出了一种改进的架构流程，该流程显著提升了整体性能。

这种混合YOLO模型（h-YOLO）与独立模型进行了对比分析，证明在头盔检测方面，h-YOLO比普通YOLO模型更优。

模型测试采用了多种标准目标检测指标，如召回率、精确率和mAP（平均精度均值）。同时，记录了训练和测试时间，以提供模型在实时检测场景中的整体范围。

引言

在许多国家，涉及摩托车和电动滑板的交通事故是伤害和死亡的主要原因之一。头盔被广泛认为是预防致命或严重 Head 伤害最有效的方法之一。头盔检测是一个目标检测挑战，模型必须准确判断骑手是否佩戴头盔，这通常在实时情况下进行。虽然传统的计算机视觉技术有其优点，但也面临着处理速度、准确性和适应各种环境等方面的局限性。基于深度学习的目标检测算法的出现，尤其是YOLO系列模型的引入，已经改变了这一领域。

YOLO（You Only Look Once）在快速、实时目标检测方面的能力使其特别适合头盔检测应用。本文分析了YOLOv8、YOLOv9和YOLOv11及其混合版本在识别自行车和摩托车骑行者头盔方面的性能。

YOLO模型系列因其平衡速度与准确性的高效性，被广泛应用于各种目标检测任务。最初由Redmon等人[1]提出，YOLO将目标检测任务框架化为一个单一的回归问题，与早期方法如循环卷积神经网络（R-CNN）或单次检测器（SSD）相比，显著减少了检测时间。随着YOLO每个后续版本的推出，David C. Wyld等人（编者）：DSML、ARIA、NLP、CSEN、BIBC、EDTECH - 2024，第83-93页，2024。CS & IT - CSCP 2024 DOI：10.5121/csit.2024.142406

建筑师们增加了改进措施，这些措施在准确性、降低延迟或降低计算负载等方面带来了益处。

确实，本研究重点关注的最关键的两个想法如下：头盔检测是提高道路安全的重要举措之一，尤其是头盔检测系统的自动化，尤其是在交通监控系统中的应用。根据国家安全委员会的数据，仅摩托车驾驶员佩戴头盔就能使预防致命伤害的效果提高37%。在这方面，这里提出的模型可以成为执法机构发现未佩戴头盔的骑行者的优秀工具。这样的系统可以减少自行车和摩托车事故的伤亡人数。

第二章文献综述

YOLO模型自诞生以来已发生了显著演变。该领域的一项关键工作是全面回顾YOLO架构，追溯其从YOLOv1到YOLOv8的发展历程。这项研究突出了模型的单阶段方法，即同时进行目标定位和分类，使其在自动驾驶汽车和视频监控等实时应用中效率极高[2]。另一项引人注目的研究提出了Complexer-YOLO，它将3D目标检测集成到YOLO框架中，利用语义点云进行扩展。这一扩展提高了模型在复杂环境中的检测准确性，从而增强了其在自动驾驶等现实任务中的性能[3]。此外，还有一项研究强调了将YOLO与滑动创新滤波器结合用于动态环境中的目标跟踪，解决了遮挡和干扰等挑战，并展示了YOLO在静态图像检测之外的适应性[4]。

在YOLO模型在速度上表现出色之际，其他方法则在准确性和计算复杂度之间提供了不同的权衡。例如，Faster R-CNN是一种两阶段目标检测器，它首先通过生成区域 Proposal 来显著提高精度，然后使用卷积神经网络对这些 Proposal 进行细化。尽管速度较慢，但在对准确性要求极高的任务中，如医学成像和精确定位，它仍然是一个优选方案。与YOLO类似，SSD（单阶段多框检测器）采用单阶段方法，但更注重在速度与比YOLO更简单版本提高的准确性之间取得平衡[7]。另一个重要的发展是RetinaNet，它引入了Focal Loss函数来解决类别不平衡问题，从而在检测小物体方面提高了准确性，这是现实应用中常见的问题[8]。Nkabulo等人首先将输入传递给YOLO模型，然后使用Faster R-CNN对输出进行细化，从而对Faster R-CNN和YOLO进行了集成。最后，Mask R-CNN将Faster R-CNN扩展到不仅检测物体，还能执行实例分割，使其在需要像素级精度的任务中非常有效，如机器人和自主系统[10]。

上述调查在表1中呈现，列出了此前对该研究具有高度启发意义的、与目标检测相关的重要工作。因此，表突出了现有方法与本文提出的方法之间的关键差异。

picture.image

尽管独立目标检测系统的文献数量占主导地位，但进一步深入研究组合架构仍有必要。因此，这项工作通过操纵YOLO流程，包括一个轻量级的定制（CNN）向YOLO模型提供特征以增强目标检测，比较了一系列最近的YOLO模型。关于整体流程设计如何实现的更多细节将在下一节中进行讨论。

提出方法

头盔检测系统的开发遵循一套旨在确保高精度和鲁棒性的系统方法。这种方法分为几个关键阶段，包括数据集收集、预处理、图像增强、模型训练、超参数调整和模型测试，如图1所示。

picture.image

3.1. 数据集收集

该过程始于收集展示个人是否佩戴头盔的图像。数据集主要来源于两个渠道：一个在线数据库[11]和用手机摄像头捕获的定制图像。这种多样性确保了图像中包含了来自不同视角和不同光照条件下的个人，这对于构建在实际场景中表现可靠的模型至关重要。图像总数超过3500张。

3.2 预处理

收集完数据集后，进行预处理以标准化图像并为其模型训练做准备。这包括将所有图像转换为RGB格式以保持一致性，并调整它们的分辨率以实现统一。同时，对像素值进行归一化处理，以缩放像素值，通过确保所有输入数据处于同一尺度，从而提高模型训练过程的效率。

为了进一步提升模型的鲁棒性，采用了图像增强技术。通过在数据集中引入旋转、翻转、缩放以及调整亮度和对比度的变化，模型得以接触到更广泛的可能图像场景，同时消除了对大量训练图像的需求[12]。这有助于防止过拟合，因为模型能够更好地适应现实世界中的变化，如光照和角度的变化。

3.3 模型训练

在将数据分为训练集和测试集之后，进入训练阶段。此阶段涉及特定的训练流程，该流程使用卷积神经网络（CNN）将特征输入到独立的YOLO模型中。具体来说，按照图1所示，连续使用了三个CNN模型。第一个CNN层如图2所示供参考，后续的CNN层与第一个层类似，只是在滤波器数量、尺寸和填充方面有所不同。从图2可以看出，在应用核之后，执行了批量归一化，随后是激活操作。

picture.image

规范化是构建鲁棒模型的关键部分，因为它允许不同类型的数据被纳入到共同的尺度中进行进一步处理。因此，它是一个非常流行的预处理工具。在卷积神经网络（CNN）的情况下，隐藏层的输出可以进行规范化，以加速训练过程。来自另一层的输入规范化被称为 BatchNorm 。这一过程也已证明可以增强CNN训练的稳定性。

3.4 超参数调优

超参数调优是机器学习模型训练过程中一个重要的步骤，它涉及到调整模型中的一些非学习参数，这些参数对模型的表现有显著影响，但并不直接从数据中学习。在深度学习中，常见的超参数包括学习率、批处理大小、隐藏层大小、激活函数类型等。有效的超参数调优能够显著提高模型的性能和泛化能力。

在实际操作中，超参数调优通常采用以下几种方法：网格搜索、随机搜索、贝叶斯优化等。网格搜索通过遍历所有可能的超参数组合来寻找最佳设置，但这种方法在超参数数量较多时效率较低。随机搜索则通过随机选择参数组合来减少搜索空间，提高效率。贝叶斯优化则结合了概率模型和优化算法，能够在有限的资源下找到更优的超参数配置。

近年来，随着人工智能技术的发展，一些自动化超参数调优方法也应运而生，如自动机器学习（AutoML）和强化学习（Reinforcement Learning）在超参数调优中的应用，进一步提高了调优过程的效率和准确性。

微调超参数是优化模型性能的关键步骤。重要的参数，如训练轮数、批量大小、学习率以及优化器的选择，都需要进行调整，以在训练效率和准确度之间取得平衡。选择Adam优化器是因为其自适应的学习率可以加快收敛速度。学习率被精心调整以确保有效学习，同时不会跳过重要的最小值。同样，批量大小和训练轮数也被调整以提升模型的训练速度和准确度。

3.5 模型测试

一旦训练完成，该模型将接受全面测试以验证其性能。采用如图像融合等技术，通过结合不同图像的输出以提高检测精度，并使用数据增强方法来克服高噪声带来的不足[15]。评价标准，如精确度和召回率，为分类性能提供了洞察。此外，还使用平均精度均值（mAP）分数，将交并比（IoU）设置为50%的置信阈值，以评估预测的边界框与图像中实际头盔区域的一致性。

3.6. 单个YOLO模型描述

总的来说，共使用了六种YOLO模型——h-YOLOv8、h-YOLOv9、h-YOLOv11及其对应的独立版本。

独立YOLO模型已被广泛研究，正如本论文的文献综述所证明。尽管独立模型能够提供令人满意，甚至在某些情况下出色的结果，但追求尽可能高的可靠性而不过度拟合模型至关重要。

独立YOLO模型与混合系统具有不同的架构。该架构与h-YOLO的步骤相同，但如图1所示，不包含混合化模块。从数据预处理到数据测试的所有其他步骤都保持不变。这种设置确保了独立版和混合版之间的比较是合理的，因为混合化模块将是唯一变化的参数。以下小节将给出独立YOLO模型的详细分析。

3.6.1. YOLOv8的翻译为：YOLOv8

YOLOv8在提升多目标检测精度以及改善在杂乱场景中对小目标的处理方面给予了高度重视[16]。此外，该模型已针对边缘设备进行优化，这意味着它能够在不消耗大量计算资源的情况下提供高精度检测。

YOLOv8的关键创新在于将注意力机制整合到网络中。这些机制使得模型能够专注于图像中的关键区域，从而在复杂场景中实现更优的检测效果。

3.6.2. YOLOv9

在YOLO（You Only Look Once）系列目标检测算法中，YOLOv9是最新一代的算法。它通过引入多种创新技术和优化策略，显著提升了检测速度和准确性。YOLOv9在模型架构、数据增强、损失函数等方面进行了改进，实现了在多个基准数据集上的高性能表现。

该模型在全局上下文感知方面取得了显著进步，这对于视频中的目标检测或空间依赖性重要的复杂场景等任务至关重要。YOLOv9是该系列中首次采用混合CNN-Transformer Backbone 网络的模型，这增强了其捕捉物体局部和全局特征的能力。引入GELAN（广义高效层聚合网络）和PGI（可编程梯度信息）等进步显著提升了特征提取和梯度 Stream 能力。[17]

YOLOv9还引入了一种新的损失函数，能够更好地处理类别不平衡问题，从而提高了其在具有偏斜目标分布的数据集上的准确性。该模型还从数据增强技术和自适应学习率的进一步改进中受益，使其更能抵御数据质量和规模的变化。正如将在结果与讨论部分所述，这一模型在所使用的数据中证明了具有最高的mAP分数，然而实现这些结果的时间有所延迟。

3.6.3. YOLOv11

YOLOv11是YOLO（You Only Look Once）目标检测算法的更新版本，它在YOLOv10的基础上进行了多项改进。这些改进旨在提高检测速度、准确性和鲁棒性。YOLOv11引入了新的数据增强技术，优化了网络结构，并采用了更高效的训练策略。

YOLOv11是YOLO模型系列的最新版本。由于改进了主干和 Neck 架构，它本身在特征提取能力上得到了提升[18]。本版本引入了增强的部署能力，支持云平台以及搭载NVIDIA GPU的系统。

尽管这些YOLO模型在各自的前身基础上都有所改进，但本研究采用了结合了预CNN优势的混合方法。由于CNN的轻量级特性，即它不包含成千上万的神经元构成的庞大互联网络，而是使用几十到几百个神经元[19]。这保证了虽然特征被提前输入到YOLO模型中，但预CNN并没有显著增加所需时间。然而，由CNN提供的特征导致了更高的召回率和mAP分数。因此，为了模型分数的显著提升，牺牲一点时间成本是合理的。

3.7 测试与评估

本研究的模型有效性通过文献中用于目标检测的一些标准指标进行评估。具体而言，本研究采用了精确率、召回率和mAP 分数。精确率可以定义为模型正确识别特定类别正例的能力。另一方面，召回率衡量模型在所有特定类别的实例中正确检测到的实例数量。这两个指标在下面的公式中进行了数学表达。

在此，TP代表真阳性，FP代表假阳性，FN代表假阴性。在调整模型超参数，如置信度阈值，以实现不同的精确度和召回率时，观察到通常存在精确度和召回率之间的权衡。

精确率和召回率具有不同的目的。例如，当需要严格控制误判为负数时，应追求更高的精确率；而在需要尽可能多地识别特定类别且可接受一定程度的误判为负数时，则应追求更高的召回率。然而，在大多数现实场景中，同时优化这两个指标至关重要，这时结合了召回率和精确率的F1分数就发挥了作用，它为分析者提供了对模型性能的全面视角。如下面的公式所示。

另一个用于评估模型的重要标准是平均平均精度（mAP）得分。这一标准建立在平均精度（AP）值之上，AP值实际上是跨一系列召回值和特定置信度阈值下精度得分的平均值。当这一平均值用于计算一系列置信度阈值下的精度-召回值时，就被称为平均平均精度的平均值，即mAP。在本篇论文中，考虑了在特定交并比（IoU）值下的mAP使用，即50%，因此记作。然而，为了便于详细分析以及更好地体现整体性能；本文更倾向于使用mAP而非F1。相反，由于AUROC（接收者操作特征曲线下的面积）依赖于真实的负例（TN），因此它不能被认为是一个适用于目标检测任务的合理指标。这是因为目标检测中的真实负例指的是所有不包含目标的边界框，在本例中是指头盔，因此TN实际上是无界的。

结果与讨论

通过对先前章节中提到的评分标准进行评估，对各种模型进行了评估。从表1可以看出，与普通YOLO模型相比，h-YOLO模型在精确度、召回率和mAP方面具有明显的优势。至于训练和测试时间，如表2所示，普通YOLO模型所需时间少于h-YOLO模型。

picture.image

在处理安全执法任务时，正如本文所述，作者应优先考虑更高的评分而非更快的处理时间，尽管这种优先级并非绝对，而是根据具体问题而变化。这意味着，只有在对比模型之间的准确率差异显著时，才应优先选择准确率更高的模型。因此，在准确率差异为2.31%的情况下，h-YOLO模型优于独立的YOLO模型，考虑到项目的目标可能涉及民用生活，这一差异是显著的。

随着非混合模型与混合模型的比较已经排序完成；自然而然，作者需要进行对比，以找出混合系统中的最佳者。

通过分析表1和表2的结果可以得出这一结论。h-YOLOv9模型在精确度、β召回率、β和mAP 指标上表现最佳，而h-YOLOvll虽然在精确度上略有差距，但仍然保持着显著更短的训练和测试时间。

h-YOLOv11模型的运行时间较短可以通过分析其底层YOLOv11模型的属性来解释。根据YOLOv11模型的官方文档，指出该模型已经经历了训练和推理 Pipeline 的增强。这种增强有助于提升系统的整体速度。此外，YOLOv11模型的参数数量比v8和v9版本更少。

因此，可以理解h-YOLOv11模型在检测能力和推理速度之间提供了可靠的平衡，使其成为实时检测任务的理想选择。

五、结论

概括来说，从公共安全以及自动化系统技术进步的角度来看，头盔检测是一项重要任务。YOLO 系列模型在实时目标检测领域占据了领先地位。本文着重对 YOLOv8、YOLOv9、最新的 YOLOv11 及其混合模型进行对比分析，从而在头盔检测应用场景下，就速度、准确性和计算负载之间的权衡开辟新的思路。

检测头盔或其他任何安全装备（比如后视镜或骑行鞋）的任务，在执行道路安全法规方面有众多应用。具体而言，利用机器学习算法和框架进行的此类自动检测，能让相关部门在必要时采取行动。

虽然本文不涉及开发可检测违规者的技术，但上一节的结果表明，已切实实现了以实用可靠的方式检测头盔这第一步。

因此，本文证实了以下几点：使用机器学习框架的整体可靠性；混合 YOLO（h - YOLO）相较于独立的 YOLO，平均精度均值（mAP）得分高出 2 - 3%，具有优越性；

尤其是 h - YOLOv11 平衡速度与性能的能力。未来的研究可以利用 h - YOLO 不仅检测头盔，还识别车辆牌照。这将使相关部门能够采取必要行动，加强道路安全管理。

参考

[1]. OPTIMIZING HELMET DETECTION WITH HYBRIDYOLOPIPELINES:ADETAILED A NALYSIS .

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image

点击下方“ 阅读原文 ”，

了解更多AI学习路上的「武功秘籍」

基于 YOLO 的检测，YOLOv8、v9、v11 及混合模型深度剖析 ！

参考