本文主要解决了什么问题
-
- 基于视觉的驾驶员疲劳检测方法在复杂条件下(如部分遮挡、侧面面部姿态和弱光环境)的鲁棒性差问题。
-
- 小物体(如手机)或被遮挡目标检测效果不佳的问题。
-
- 多尺度特征建模有限,难以同时捕获局部细节和全局上下文信息的问题。
-
- 现有方法在计算成本和实时性能之间的平衡问题,特别是在嵌入式系统上的部署瓶颈。
本文的核心创新是什么
-
- 提出了卷积与注意力融合模块(CAFM),通过局部CNN特征与基于Transformer的全局上下文集成,增强特征表达能力和上下文理解。
-
- 引入了矩形校准模块(RCM),通过捕获水平和垂直上下文信息,提高空间定位精度,特别适用于侧面面部和手机等小物体检测。
-
- 基于YOLO11n构建了轻量级高效的YOLO11-CR模型,通过CAFM和RCM的协同作用,实现了在复杂驾驶场景下的高性能实时疲劳检测。
结果相较于以前的方法有哪些提升
-
- 在DSM数据集上实现了87.17%的精确率、83.86%的召回率、88.09%的mAP@50和55.93%的mAP@50-95,显著优于基线模型(如YOLOv8、YOLOv10n和YOLO11n)。
-
- 消融研究表明,CAFM模块使召回率提升了3.20%,RCM模块使精确率提升了1.62%,两者结合时在所有指标上均达到最佳性能,体现了模块间的互补性和协同效应。
-
- 在分类性能上,正常面部类别的mAP@50达到98.6%,侧面面部为89.1%,手机类别为76.3%,特别是在小物体和被遮挡目标检测上表现突出。
-
- 混淆矩阵和PR曲线分析显示,YOLO11-CR在分类敏感性和特异性上均有提升,尤其在手机检测上正确分类率达到85%,远高于对比模型。
局限性总结
-
- 手机类别的检测性能(精确率75.8%,召回率65.9%)仍低于正常面部和侧面面部,主要受限于小尺寸和部分遮挡的挑战。
-
- 模型在低光照和极端遮挡条件下的鲁棒性有待进一步验证,当前实验主要基于DSM数据集,可能未覆盖所有真实驾驶场景。
-
- 尽管模型轻量化,但在嵌入式设备上的实时性能(FPS)并非最优,计算效率仍有提升空间。
-
- 研究未涉及时间建模和多模态数据集成(如热成像与可见光融合),这些可能是未来改进的方向。
导读
驾驶员疲劳检测对智能交通系统至关重要,因为它在减少道路交通事故方面发挥着关键作用。虽然基于生理和车辆动力学的方法提供了准确性,但它们通常是侵入性的、依赖硬件的,并且在真实环境中缺乏鲁棒性。基于视觉的技术提供了一种非侵入性和可扩展的替代方案,但仍然面临诸如小物体或被遮挡目标检测效果差以及多尺度特征建模有限等挑战。为了解决这些问题,本文提出了YOLO11-CR,一种专为实时疲劳检测定制的轻量级高效目标检测模型。YOLO11-CR引入了两个关键模块:卷积与注意力融合模块(CAFM),它将局部CNN特征与基于Transformer的全局上下文集成以增强特征表达能力;以及矩形校准模块(RCM),它捕获水平和垂直上下文信息以提高空间定位精度,特别是对于侧面面部和手机等小物体。在DSM数据集上的实验表明,YOLO11-CR实现了
的精确率、
的召回率、
的
和
的m
,显著优于 Baseline 模型。消融研究进一步验证了CAFM和RCM模块在提高敏感性和定位准确性方面的有效性。这些结果表明,YOLO11-CR为车内疲劳监测提供了实用且高性能的解决方案,在现实世界部署和未来涉及时间建模、多模态数据集成和嵌入式优化的增强方面具有强大潜力。
- 引言
随着车辆使用的全局快速扩张,疲劳驾驶已成为一个关键的公共安全问题[1]。随着驾驶员和车辆数量的逐年增长,疲劳直接导致了约
的交通事故,通常造成严重伤害或死亡[2]。因此,及时检测和干预对于减轻这些风险至关重要,使实时准确的疲劳检测和警报系统的开发与部署成为增强整体交通安全及减少事故造成的伤害和死亡的基本策略。
当前驾驶员疲劳检测的方法可大致分为三类:基于生理信号的方法[3]、基于车辆动力学的方法[4]和基于视觉的技术[5-7]。基于生理信号的技术,如脑电图[8-10],提供高准确性但需要侵入式测量[11-13],在信号整合方面面临计算复杂性,并且对环境和个体差异敏感[14-18]。基于车辆动力学的方法,通过异常驾驶行为如转向角波动[19-21]推理疲劳,允许非侵入式监测,但在不同驾驶条件和车辆型号上缺乏一致性。
基于视觉的方法因其非侵入性、易于部署和与实时应用的兼容性而越来越受欢迎。这些方法已从传统的手工特征方法发展到先进的深度学习框架。早期方法专注于使用手动设计的特征提取视觉线索,如眼睛状态、打哈欠和 Head 姿势。Deng等人[22]开发了DriCare系统,该系统从视频帧中捕捉眨眼频率和打哈欠以推理疲劳状态,证明了基于视觉的非侵入式监测的可行性。Knapik等人[23]提出了一种基于热成像的打哈欠检测方法,解决了可见光系统在不同光照条件下的局限性。Saurav等人[24]和Lima等人[25]通过结合卷积神经网络(CNNs)和支持向量机(SVMs)探索眼睛状态识别,实现了实时眨眼检测。这些方法虽然有效,但依赖于预定义特征,在部分遮挡或姿势变化等复杂场景中表现不佳。
将经典机器学习与特征提取机制相结合的混合模型也应运而生,以进一步提高基于视觉的方法的有效性。Magan等人[26]结合了CNN、循环神经网络(RNNs)和模糊逻辑以增强疲劳监测,而Younes等人[27]通过融合RNNs与3D CNNs实现了
的检测准确率,突显了时空建模的价值。比较研究,如Norah等人[28],验证了MobileNet-V2作为最佳表现者,在增强数据集上达到了
的准确率。Zhao等人[29]将MediaPipe Face Mesh与MobileNetV3和LSTM相结合,在定制数据上实现了
的准确率,展示了轻量级架构的潜力。
基于端到端目标检测框架的实施进一步提高了基于视觉的疲劳检测的功能和效率,其中YOLO模型使其能够进行实时推理。近年来,研究行人利用YOLO变体来检测与疲劳相关的场景,如闭眼、 Head 倾斜和手机使用[26,30,31]。Guo等人提出了一种基于YOLOv5的驾驶员疲劳检测方法,在BioID上达到
的mAP,在GI4E上达到
的mAP,在GTX 1650上达到43 FPS[32]。Wang等人提出了一种改进的YOLOv5模型,与原始模型相比,mAP提高了
,而FPS仅下降了8.3[33]。然而,随着模型性能要求的不断提高,基于早期YOLO版本的改进在复杂场景适应性和多维特征融合方面逐渐显示出局限性,这促使研究行人基于更新版本的YOLO模型进行更深入的探索。
值得注意的是,近期的研究集中于集成先进的注意力机制以应对这些挑战。例如,Li等人将通道空间注意力模块(CSAM)引入YOLOv4,通过动态加权通道和空间维度增强了小目标的特征表示[34]。类似地,Chen等人提出了多尺度特征注意力网络(MFAN),该网络能够自适应地聚合不同尺度的特征,提高了在不同光照条件下疲劳线索的检测准确性[35]。这些研究表明,注意力机制可以有效缓解传统CNN架构在捕捉细粒度细节方面的局限性。
随着YOLOv8的发布,研究采用了其增强的transformer Backbone 网络来捕获复杂的空间特征。Zhang等人构建了一个混合模型,将YOLOv8与LSTM时序模块相结合,通过整合时空上下文提高了微睡眠检测的敏感性。最近,YOLO11系列因其准确性和效率的平衡而受到关注。Huang等人[36]开发了LWYOLO11,这是一个轻量级变体,在保持侧面人脸和手机检测精度的同时减少了计算负载。Deng等人[37]将多尺度注意力机制整合到YOLOv6中,以提高在不同光照条件下对细微面部疲劳指标的敏感性。这些进展展示了一个向多目标、多尺度检测框架发展的趋势。YOLO模型在平衡高mAP与实时处理方面表现出色,使其适合在车载环境中部署。关键创新包括注意力机制、多尺度特征聚合和 Anchor-Free 点检测Head,这些创新增强了从面部表情到次要任务干扰等多种疲劳线索的识别能力。
然而,基于视觉的方法面临着关键障碍。在复杂条件下的鲁棒性,如被手或太阳镜部分遮挡、侧面面部姿态和弱光环境,仍然具有挑战性;例如,当被太阳镜遮挡时,标准模型难以检测闭眼状态。识别同时发生的行为(如使用手机和打哈欠)需要先进的时空推理能力,而许多模型缺乏这种能力[22]。在有限数据集上训练的模型通常无法适应不同的驾驶环境、摄像头角度或驾驶员人口统计特征[38-40]。尽管出现了轻量级模型,但在低功耗嵌入式系统上的实时性能仍然是广泛采用的 Bottleneck 。未来的研究应专注于增强被遮挡物体的特征表示,整合多模态传感(如热成像和可见光),并开发领域自适应模型。通过大规模实地试验进行时间建模和跨场景验证,对于弥合实验室准确性与现实世界可靠性之间的差距也至关重要。
为解决这些局限性,包括遮挡条件下的鲁棒性差、多尺度特征建模有限以及高计算成本。本文提出了YOLO11-CR,一种轻量级且高性能的检测模型。本文的主要贡献可总结如下:
-
- 设计卷积与注意力融合模块(CAFM)来替换C2PSA模块中的注意力层,形成增强的C2PSA_CAFM结构。该模块通过局部和全局分支整合CNN和Transformer以提取各自的特征,最终输出通过对这些流求和得到,用于建模局部-全局表示并增强特征表达能力和上下文理解。
-
- 引入矩形校准模块(RCM)来替代YOLO11n特定特征提取/融合阶段中的传统3×3和1×1卷积。RCM通过捕获水平-垂直全局上下文来增强YOLO11中的空间特征建模,实现更准确的多尺度目标定位/识别,并提高整体网络检测性能。
-
- 对YOLO11-CR进行微调和测试以用于疲劳检测场景,重点关注三个关键目标类别:正常面部、侧面面部和手机。
本文的其余部分组织如下:第2节详细介绍了提出的YOLO11-CR、CAFM的结构以及RCM的结构。第3节介绍了实验设置,包括数据集概述、训练超参数和评估指标。第4节对YOLO11-CR中的CAFM和RCM模块进行了消融研究,并对性能参数进行了全面分析。最后,本文在第5节进行了总结。
- 框架
为构建有效的疲劳驾驶检测系统,本文提出了YOLO11-CR,这是一种基于YOLO11的增强型单阶段目标检测框架,旨在解决驾驶员行为分析中的小尺度目标、部分遮挡和非正面面部朝向等挑战。如图1所示,YOLO11-CR集成了两个新颖的结构模块:CAFM和RCM,它们协同增强了多尺度表示学习、空间特征对齐以及复杂场景下的检测精度。采用典型的编码器-解码器设计,该网络包括用于分层特征提取的YOLO11n Backbone 网络、特征融合 Neck 和多尺度检测Head。检测目标被定义为正面面部、侧面面部和手机,它们作为疲劳检测系统中的关键语义线索。 Backbone 网络生成P3–P5 Level 的特征,分别以8、16和32的因子进行上采样,这些特征在传递到检测Head进行边界框回归和类别概率预测之前,会通过注意力增强表示进行增强。
2.1 卷积与注意力融合模块
为了解决在轻量高效的方式下同时捕获局部细粒度特征和全局上下文关系的基本挑战。受卷积操作和自注意力机制的互补优势启发,本节引入CAFM [41]来解决复杂检测场景的问题,如小目标检测、遮挡目标识别和疲劳特征提取。
如图2所示,CAFM由两个功能分支组成,局部分支旨在捕获对检测小尺度目标和保持边界精度至关重要的细粒度空间模式,通过卷积操作提取空间细节;全局分支则通过引入轻量级自注意力机制来解决卷积感受野有限的问题,以建模长距离空间依赖关系,这对于理解遮挡或分布特征至关重要。
给定输入特征图
,局部分支依次应用
卷积
来调整通道维度并增强特征交互,然后应用通道混洗操作
来改善通道间信息 Stream ,以及
深度卷积
来进一步提取空间局部特征,整个处理流程可以计算为:
虽然全局分支首先通过
卷积和深度
卷积生成 Query (Q)、键(K)和值(V)矩阵,然后通过在特征通道上计算注意力而非完整空间域来降低计算成本,最后应用公式化的缩放点积注意力:
其中
是一个可学习的缩放参数,用于控制softmax的锐度。然后,可以计算注意力增强的输出:
最后,融合输出
可以计算如下:
2.2 矩形校准模块
虽然传统的卷积操作和标准的注意力机制是有效的,但它们往往难以精确建模现实场景中常见的细长、轴向对齐和部分遮挡的结构,例如侧面人脸、手持物体或与疲劳相关的手势。为了应对这些挑战,RCM [42]被整合到网络中,如图3所示,RCM包含四个关键组成部分:轴向全局上下文聚合、形状自校准重建、局部-全局特征融合和残差细化。
为了建模矩形区域,RCM将2D全局注意力分解为水平池化(HP)和垂直池化(VP),其中水平池化沿每行平均特征响应以捕获水平上下文,垂直池化沿每列平均响应以捕获垂直上下文,这两个轴向全局上下文通过广播相加形成初始的粗略矩形注意力图,如下所示:
其中
是输入特征图,且
表示逐元素广播加法。
由于初始的矩形注意力图可能仍然粗糙或无法匹配实际物体轮廓,RCM整合了一个形状自校准功能,通过一个涉及大核条带卷积的过程动态调整注意力形状,随后进行Batch Normalization和ReLU激活函数处理,该操作在数学上定义为:
其中
表示条带卷积,
表示BatchNorm和ReLU,而
是Sigmoid激活函数,用于将输出限制在0和1之间。
为了通过局部空间细节丰富重新校准的注意力,输入特征
首先通过一个
的深度卷积处理,然后将校准后的注意力图与局部精炼的特征图进行逐元素相乘。局部-全局特征融合可以计算如下:
其中
表示Hadamard乘法。通过局部-全局特征融合,最终特征能够确保保留关键的局部纹理细节,同时充分利用全局上下文信息,从而为精确检测提供强有力的支持。
受残差学习策略的启发,RCM的输出通过一个轻量级MLP和批归一化层进行处理,并添加了一个残差连接:
其中
代表1个BatchNorm后接MLP变换,通过残差连接实现增强的特征重用和稳定的梯度流。
2.3 多尺度检测Head
多尺度检测Head在三种分辨率(P3, P4, P5)上运行,每个分辨率都嵌入了一个RCM块,用于在预测之前优化语义表示,其中最终的Detect模块在各个尺度上预测三个类别的类别概率和边界框,通过在 Backbone 网络尾部引入CAFM,并在检测尺度上引入RCM,YOLO11-CR通过融合注意力有效改善了正常面部的检测以捕获全局面部结构,通过矩形核改善侧面面部的检测以定位细长轮廓,并通过多尺度上下文和方向注意力改善手机的检测以抑制背景噪声和杂乱。
- 实验设置
为了验证所提出的YOLO11-CR模型在疲劳检测方面的有效性,作者设计并执行了一套全面的实验。本节详细介绍了实验设置,包括数据集选择、评估指标和实现细节。
3.1 实验数据集
为评估所提出的YOLO11-CR模型在检测疲劳相关行为方面的有效性,本研究采用了Driver State Monitoring (DSM)数据集,这是一个专门为驾驶员疲劳和分心检测整理的综合基准数据集。DSM数据集源自Ortega等人提出的公开可用的DMD数据集,该数据集是领域内最广泛采用的多模态驾驶员监测数据集之一。
DSM数据集包含超过180,000张RGB图像,这些图像是从车载视频录像中提取的,涵盖了城市道路、高速公路和夜间驾驶等多种环境。数据是通过安装在仪表盘和天花板上的高清摄像头收集的,确保了正面和侧面视角的覆盖。如图4所示,数据集中的几个典型样本展示了所捕获行为的多样性,包括面部表情和侧面姿势。每张图像都标注了特定行为的标签,包括"正常驾驶"、"闭眼"、"打哈欠"、"低头"、"使用手机"和"侧视",详细的标签分布见表1。该数据集包含边界框、面部标志和遮挡 Level 的标注,使得检测模型能够在不同的视觉条件下进行稳健评估。此外,该数据集还包含了各种人口统计特征,如不同年龄段、性别和配饰(例如太阳镜、帽子、 Mask ),使其成为需要在不同驾驶员间进行泛化的疲劳检测任务的理想选择。为了模型训练和评估的目的,该数据集按7:2:1的比例划分为训练集、验证集和测试集。
除了逐帧标注外,DSM数据集还支持时序分析,允许应用序列模型来检测渐进性疲劳症状,如眨眼频率降低或微睡眠。正如Ortega等人所强调的,其多模态结构和现实世界复杂性使其成为测试安全关键型汽车应用中疲劳检测系统的理想基准。
3.2 实现细节
所有实验均在使用配备AMD Ryzen 9 5950X CPU、NVIDIA GeForce RTX 3090 GPU和64 GB DDR5 RAM的高性能计算环境中进行。操作系统为Windows 11,实现使用Python 3.11.2和支持CUDA12.4的PyTorch 2.5.1完成。此配置确保了充足的计算资源,能够高效处理大规模训练任务。
在训练过程中,批量大小设置为64,并使用随机梯度下降(SGD)优化器,初始学习率为0.001。在训练过程中,使用余弦退火调度器动态调整学习率。SGD的动量系数设置为0.937,以促进稳定收敛。模型总共训练了100个轮次。未采用早停机制,使模型能够完成完整的训练计划并彻底探索优化景观。
为了增强泛化能力和鲁棒性,在训练过程中应用了数据增强技术。具体而言,采用了Mosaic增强和随机水平翻转来增加训练样本的多样性,并模拟各种真实世界的驾驶条件。
3.3 评估指标
为了评估所提出的YOLO11-CR模型的性能,采用了目标检测中的三个主要评估指标,例如:在IoU阈值为0.5时的平均精度均值
,在IoU阈值从0.5到0.95范围内的平均精度均值
,Precision和Recall。这些指标可以表示为:
其中
表示正确预测的真正例,
表示被错误预测为正例的假正例,
表示被错误预测为负例的假负例。
表示类别的数量。
- 实验结果与讨论
为了全面评估所提出的YOLO11-CR模型的有效性,作者进行了一系列与几个 Baseline 检测模型的对比实验。本节详细分析了结果,通过消融研究检验了各个模块增强的影响、分类检测精度、混淆矩阵洞察、精确度-召回率特性以及与最先进(SOTA)模型的比较。
4.1 消融实验
为了评估CAFM和RCM对整体性能提升的贡献,进行了一项消融研究。结果如表2所示。
将RCM模块添加到 Baseline 模型中导致了精确率
和mAP@50
的增加,同时召回率
也有轻微改善。这表明RCM主要增强了模型的定位能力,使边界框回归更加准确。矩形校准有效地将预测框对齐到人脸和移动设备的自然长宽比,从而提高了检测的精确率,同时不降低召回率。
集成CAFM模块使Recall显著提升了
,而与 Baseline 相比,Precision略微下降了
。这表明CAFM增强了特征提取能力,使其能够捕捉更多具有挑战性或部分被遮挡的物体。然而,Precision的轻微下降意味着特征融合过程可能会引入更多的误报,尤其是在区分小型手持设备与背景噪声时。
当同时集成CAFM和RCM时,模型在Precision、Recall、
和
指标上同时达到了最高值。组合模型不仅仅是简单汇总了各自的改进,而是进一步增强了整体鲁棒性,这表明CAFM和RCM之间存在强烈的互补关系。CAFM提高了检测灵敏度,而RCM优化了空间校准,从而在检测灵敏度和定位精度两方面都带来了显著提升。
鉴于手机类别通常涉及小尺寸物体,召回率和精度的综合提升表明YOLO11-CR在检测小型、被遮挡和非正面目标方面特别有效。这验证了先进的多尺度特征融合和自适应空间校准对于改善现实世界条件下的驾驶员监控系统至关重要的直觉。
总体而言,消融研究证实了这两个模块都独特且协同地贡献于YOLO11-CR模型的增强性能。
4.2 按类别性能分析
为了进一步研究模型在不同疲劳相关类别上的有效性,计算了每个类别的评估指标,如表3所示,可以观察到模型在正常面部类别上取得了出色的检测性能,Precision为
,Recall为
,以及极高的mAP
为
。这表明模型在捕捉清晰、正面的面部特征方面具有很强的能力,即使在不同的环境条件下。
侧面人脸类别的检测性能略低,特别是在Recall
方面,这表明由于可区分特征较少和面部外观变化较大,侧面姿势的检测更具挑战性。尽管如此,达到的mAP
为
,对于实际应用而言仍然令人满意。
手机类别在三个类别中表现出最低的检测指标,其精确率为
,召回率为
,mAP@50-95仅为
。这主要是因为手机在图像中通常尺寸较小,并且经常被手或方向盘部分遮挡,使其更难以检测。尽管面临这些挑战,YOLO11-CR模型仍然保持了合理的性能,这得益于CAFM带来的增强特征提取能力以及RCM实现的自适应空间调整。
4.3 混淆矩阵分析
为了获得更深入的模型性能见解,对四个评估模型的归一化混淆矩阵进行了分析,如图5所示。每个混淆矩阵展示了在四个类别上的预测准确率:侧面人脸 (pface)、正面人脸 (nface)、手机和背景。
在所有模型中,pface类别始终表现出最高的分类准确率,其中YOLO11-CR达到了
的正确预测率,优于YOLOv8、YOLOv10n和YOLO11n。这表明正面人脸因其独特且易于识别的特征,相对更容易被检测到。对于nface类别,YOLO11-CR表现出
的正确分类率,高于YOLOv10n的
和YOLO11n的
,并略微超过YOLOv8的
。这一结果突显了YOLO11-CR在处理部分面部视图方面的改进鲁棒性,这可能是由于CAFM模块增强了全局-局部特征提取能力。
手机类别的检测性能在各模型之间显示出显著差异。YOLO11-CR达到了
的正确分类率,显著优于YOLOv8
、YOLOv10n
和YOLO11n
。这突显了该模型在检测小目标和被遮挡物体方面的增强能力,这是RCM模块自适应空间校准的直接好处。在所有模型中,背景类别表现出相对较低的分类一致性,这是由于真实驾驶环境的多样性和复杂性所预期的。然而,YOLO11-CR保持了相当高的真阴性率,最大程度地减少了与疲劳无关区域的假阳性。
总体而言,混淆矩阵分析进一步证实,YOLO11-CR显著提高了分类敏感性(对于侧脸和手机等具有挑战性的类别具有更高的Recall)和分类特异性(在背景区域中具有更低的误报率),从而实现了平衡且稳健的性能,适用于现实世界的驾驶员监控应用。
4.4 Precision-Recall曲线分析
为了进一步评估不同模型的检测性能,分析了每个模型的精确率-召回率(PR)曲线,如图6所示。PR曲线描绘了在不同检测阈值下Precision和Recall之间的关系,全面展示了模型在平衡敏感性和特异性方面的稳健性。
YOLO11-CR模型在所有比较模型中获得了最有利的PR曲线轨迹。如图6(d)所示,与YOLOv8、YOLOv10n和YOLO11n相比,YOLO11-CR在整个召回率值范围内保持了更高的精确度。具体而言,即使在高召回率水平(例如,召回率
)下,YOLO11-CR仍保持了
以上的精确度,这证明了其在检测疲劳相关行为时的鲁棒性,且没有明显的性能下降。相比之下,随着召回率的增加,YOLOv8和YOLOv10n表现出更陡峭的精确度下降,特别是在手机类别中,物体尺寸和遮挡复杂性带来了更大的挑战。YOLOv8尽管实现了相对较高的召回率,但在召回率超过
后表现出精确度的显著下降,这表明在宽松阈值下有更高的假阳性率。
YOLO11-CR, YOLO11n, YOLOv10n和YOLOv8分别达到了
、
、
和
的mAP@50,进一步支持了基于PR曲线的这些观察结果。值得注意的是,YOLO11-CR和YOLOv8之间的性能差距在手机类别中尤为明显,其中YOLO11-CR达到了
的手机mAP,而YOLOv8仅为
。这突显了CAFM和RCM在增强小目标检测方面的有效性。
总体而言,PR曲线分析证实了YOLO11-CR模型具有优越的precision-recall平衡性和稳定性,确认了其在疲劳检测任务中实现高灵敏度和可靠性的有效性。
4.5 与SOTA的比较
最后,为了评估所提出的YOLO11-CR模型的有效性,作者与几个SOTA模型进行了对比实验,包括YOLOv8、YOLOv10n和YOLO11n。表4总结了这些模型在DSM数据集测试子集上的精确率、召回率、mAP@50、mAP@50-95、参数量、GLOPs和FPS等性能指标。尽管YOLO11-CR的FPS指标不是最优的,但考虑到所有其他性能指标都是最佳的,它在效率和准确性之间取得了理想的平衡。
图7展示了不同YOLO系列模型在驾驶场景图像上的疲劳检测结果。每一行对应一组来自驾驶场景的测试样本,涵盖了车内人脸和手持物体等复杂工况。YOLOv8、YOLOv10n和YOLOv11n在手持目标检测中都不可避免地存在漏检或误检问题。相比之下,本文提出的YOLO11-CR模型有效解决了手机等长条形物体的漏检和误检问题,实现了更高的检测精度。
- 结论
本文介绍了基于改进的YOLO11模型(称为YOLO11-CR)的轻量级、高精度疲劳驾驶检测系统的设计和优化。通过将CAFM和RCM集成到基础YOLO11架构中,所提出的模型显著增强了特征提取能力和空间定位精度,特别是对于小规模和被遮挡的物体。
在DSM数据集上的广泛实验评估表明,YOLO11-CR在关键性能指标上始终优于 Baseline 模型,实现了
的精确率、
的召回率、
的
和
的
。每类性能分析、混淆矩阵评估和PR曲线比较进一步验证了所提出系统在现实世界疲劳检测场景中的鲁棒性和可靠性。消融研究确认CAFM和RCM模块提供了互补的增强,其中CAFM提高了检测灵敏度,而RCM优化了空间对齐。它们的组合集成带来了显著的协同性能提升。
总体而言,YOLO11-CR为实时疲劳监测提供了一个实用、高效且鲁棒的解决方案,在智能车载安全系统中具有强大的部署潜力。
参考
[1]. YOLO11-CR: a Lightweight Convolution-and-Attention Framework for Accurate Fatigue Driving Detection