YOLO-APD突破 | 复杂道路下行人检测mAP达77.7%，实时100帧/秒 - 文章 - 开发者社区

点击下方名片，关注「集智书童」公众号

精简阅读版本

本文主要解决了什么问题

复杂道路几何环境下的行人检测问题 ：特别是在S型道路等具有复杂结构、视野受限、动态遮挡的环境中，传统基于RGB相机的行人检测方法精度下降明显。

实时性与准确性的平衡问题 ：在自动驾驶场景中，行人检测需要同时满足高精度和高处理速度（实时性），而现有模型往往难以兼顾。

基于低成本传感器的感知系统需求 ：自动驾驶系统中多传感器融合成本高昂，本文旨在通过仅使用单目RGB摄像头，构建经济、高效、可靠的行人检测系统。

本文的核心创新是什么

YOLO-APD架构设计 ：基于YOLOv8，提出了一种增强型深度学习架构，专门优化复杂道路场景下的行人检测性能。

SimSPPF模块 ：改进传统SPPF结构，结合Mish激活函数和SimAM注意力机制，提升多尺度特征池化效果，恢复细粒度信息。

C3Ghost模块 ：引入GhostNet思想，降低模型参数量和计算量，同时保持特征表示能力，提升计算效率。

SimAM注意力机制 ：无参数注意力模块，强化特征图中关键神经元的表达能力，提升在杂乱场景下的检测鲁棒性。

IGD（智能汇聚与分发）模块 ：改进YOLOv8的Neck结构，实现跨尺度特征更全面的交互与融合。

Mish激活函数的集成应用 ：替换传统ReLU/SiLU，利用Mish的平滑非单调特性，提升模型训练稳定性和检测精度。

自适应动态ROI机制 ：结合车辆转向角和速度信息，动态调整检测区域，提高计算资源利用效率。

结果相较于以前的方法有哪些提升

检测精度显著提升 ：

• 在CARLA合成数据集上实现了77.7%的 mAP@0.5 :0.95，显著优于YOLOv8（71.5%）及其他主流检测器（如YOLOv7、YOLOv5）。
• 行人召回率超过96%，在安全敏感的自动驾驶场景中尤为重要。

实时性保持良好 ：

• 以100 FPS的速度运行，满足自动驾驶系统对实时性的严格要求。

计算效率优化 ：

• 相较于YOLOv8（67.7 GFLOPs，20.04M参数），YOLO-APD在保持精度的同时仅需76.5 GFLOPs和24.16M参数，整体计算负载适中。

消融实验验证模块贡献 ：

• 每个模块（SimSPPF、SimAM、IGD、Mish）均对最终性能有正向贡献，验证了架构设计的协同有效性。

跨域泛化能力初步验证 ：

• 在KITTI真实世界数据集上，YOLO-APD在“Car”类别表现良好，但在“Person”类别出现性能下降，揭示了领域自适应的重要性。

局限性总结

领域偏移问题显著 ：

• 模型仅在合成CARLA数据集上训练，迁移到真实世界KITTI数据时，行人检测性能显著下降，说明合成数据与真实数据之间存在明显领域差异。

类别不平衡问题影响泛化能力 ：

• KITTI数据集中行人样本较少，导致模型在真实世界数据中对行人检测的泛化能力受限。

动态ROI机制尚未完全集成测试 ：

• 尽管提出了基于车辆转向角的自适应ROI机制，但在实验部分尚未完整评估其对推理效率的实际提升效果。

模型参数量略有增加 ：

• 虽然计算效率优化显著，但相比YOLOv8，YOLO-APD参数量略有上升（24.16M vs 20.04M），在嵌入式部署上仍有一定挑战。

误检问题仍存在 ：

• 实验显示部分背景元素被错误识别为车辆或自行车，表明模型在复杂背景下的特征判别能力仍有提升空间。

总结

YOLO-APD在复杂道路几何环境下实现了当前最先进的行人检测性能，兼具高精度与实时处理能力。其架构创新在多个方面提升了YOLOv8的性能，但同时也揭示了领域自适应、类别不平衡、误检控制等未来研究方向。

深入阅读版本

导读

自动驾驶车辆感知系统需要具备稳健的行人检测能力，特别是在几何结构复杂的道路环境中，如S型曲面，传统的基于RGB相机的检测方法存在局限性。本文提出了一种名为YOLO-APD的新型深度学习架构，专门针对这一挑战对YOLOv8框架进行增强。YOLO-APD整合了多项关键架构改进：无参数的SimAM注意力机制、计算高效的C3Ghost模块、用于增强多尺度特征汇聚的新型SimSPPF模块、用于优化性能的Mish激活函数，以及网络 Neck 中用于卓越特征融合的智能汇聚与分发（IGD）模块。此外，还提出了利用车辆转向动力学进行自适应区域感兴趣点处理的思路。在模拟复杂场景的自定义CARLA数据集上的全面评估表明，YOLO-APD实现了最先进的检测精度，达到77.7%的mAP@0.5:0.95，行人召回率超过96%，显著优于包括YOLOv8在内的 Baseline 模型。

此外，它还保持了100 FPS的实时处理能力，展现了在准确性和效率之间卓越的平衡。消融研究验证了每个集成组件的协同贡献。在KITTI数据集上的评估证实了该架构的潜力，同时突出了领域自适应的必要性。这项研究推动了基于低成本传感器的、高度准确、高效和适应性强的感知系统的发展，为在具有挑战性、结构化程度较低的道路环境中进行自动驾驶导航提供了更高的安全性和可靠性。

引言

High-Level驾驶辅助系统（ADAS）和自动驾驶汽车（AV）的进步有望革新道路安全和交通效率[1]。实现这一潜力的关键在于构建一个强大的感知系统来分析复杂且不断变化的周围环境。在这些系统中，行人检测至关重要；它是预防每年全局造成约130万人死亡的交通事故的关键[2], [3]。尽管深度学习（DL）和计算机视觉（CV）取得了显著进展[4]，但在非结构化、几何复杂且不可预测的场景中，实现准确及时的行人检测仍然是一个重大挑战[5]。这进一步被高昂的传感器成本、有限的硬件、人类行为的随机性[6], [7]所加剧。

例如，发展中地区有时存在独特的基建问题，如规划不佳的道路、崎岖的地形和不可预测的行人交通，人们常常与汽车共享空间[8]。这些条件严重考验了传统的感知系统。本研究的一个特别具有挑战性的情况是检测复杂道路几何形状上的行人和移动危险，特别是如图1所示的S形（蛇形）道路，其具有尖锐、有时是盲目的弯道。这些几何形状动态地限制了视野，产生了规律的遮挡，并显著降低了应对突然从弯道中出现的行人等危险的可利用反应时间。此外，高层级的事故，如一辆Uber自动驾驶汽车未能正确分类横穿马路的行人而导致的事故[2]，突出了对能够实时有效适应和反应的系统的基本需求，尤其是在面临意外情况和小型或被遮挡的目标时。

图1 S型道路及自动驾驶车辆检测障碍的难度

目前最先进的行人检测系统通常依赖于昂贵的感觉套件，包括激光雷达、雷达和多种类型的摄像头[9][10]。虽然多传感器融合提供了鲁棒性[11]，但其相关的成本和计算需求限制了可扩展性和广泛应用，使得消费级自动驾驶车辆日益不切实际。因此，利用经济型RGB摄像头的方案在学术界和自动驾驶领域正逐渐受到关注。然而，基于RGB的方法本身面临着诸如恶劣天气、遮挡、可变光照（例如，强烈的阳光眩光、夜间）以及人类行为的固有不可预测性等挑战，所有这些都会损害算法性能[12]。

尽管深度学习技术和目标检测框架取得了显著进展，但仍然存在一个明确的研究空白。这一空白不仅体现在开发一种能够在几何复杂的道路环境中同时实现高精度和实时处理的行人检测系统，还体现在仅使用经济高效的RGB传感器，并融入针对克服多尺度特征退化、深度网络中特征融合效率低下以及挑战性视距下对鲁棒特征表示需求等问题的架构创新。现有模型，包括先进的YOLO迭代版本，若不进行重大修改，可能无法充分优化此类高要求场景下的特定需求之间的平衡。

本文介绍YOLO-APD（YOLO自适应行人检测），这是一种新型的深度学习架构，旨在解决这一差距。通过针对复杂道路形状进行优化的架构调整，YOLO-APD显著提升了YOLOv8框架的性能。这项工作的主要问题在于当前基于RGB的检测器在面对Type-S道路、潜在遮挡以及需要快速决策的综合挑战时，准确性和适应性不足。这项工作的主要贡献和创新点总结如下：

YOLO-APD新型架构：基于YOLOv8基准，YOLO-APD引入了独特的SimSPPF模块集成，通过结合Mish激活函数和SimAM注意力机制，在标准SPPF模块上提升了多尺度特征池化效果，从而恢复在激进池化过程中可能丢失的细粒度细节。计算高效的C3Ghost模块作为标准C3模块的替代方案，通过降低参数量和FLOPs同时保持特征表示，这一策略源自GhostNet原理。无参数的SimAM注意力机制被策略性地添加到 Backbone 网络中，通过突出有助于在杂乱场景中区分行人的重要神经元信息，提升了特征图质量，相较于更复杂、参数化的注意力模块具有优势。

一种利用车辆转向动力学定义自适应感兴趣区域（ROI）的新颖方法，显著提高了计算效率，并将检测资源集中于与轨迹相关的区域，特别是在S型曲线等复杂道路场景中至关重要。（如果包含，这可能如图2所示，展示了YOLO-APD的实现。）所提出的YOLO-APD网络能够在复杂的道路和环境条件下有效提取多尺度细节特征，召回率高达96%以上，且误检率较低。

相关工作

完全自动驾驶系统的实现严重依赖于自动驾驶车辆的鲁棒环境感知能力，而行人检测则代表着至关重要的安全需求[2]。为了将所提出的YOLO-APD置于自适应行人检测系统改进的大趋势背景下，本研究结合了计算机视觉（CV）、深度学习（DL）和自适应系统（AS）的思想。基础CV研究为理解视觉场景设定了重要规则[13][14]。DL方法能够从感知的原始视觉数据中学习层次化的特征表示（Goodfellow等人，2016年）。同时，AS框架提高了系统对环境变化的响应能力[15]。

早期的行人检测系统依赖于手工设计的特征，如Haar-like描述符（Viola & Jones, 2001）和方向梯度直方图（HOG）（Dalal & Triggs, 2005），这些特征通常与支持向量机（SVM）等分类器结合使用，以识别感兴趣的目标。尽管这些早期模型具有历史意义，但在遮挡、光照变化和类内差异存在的情况下，它们缺乏鲁棒性。深度学习的兴起，特别是卷积神经网络（CNN）的出现，改变了作者对如何实现准确可靠的目标检测的理解[16]。R-CNN[17]、Fast R-CNN[18]和Faster R-CNN[19]是首批采用基于区域的分类的两阶段检测器，具有更高的准确性。然而，它们通常存在延迟问题，这使得它们在实时自主系统中应用受限[20]。

为缓解现有传统方法在推理过程中遇到的延迟问题，单阶段目标检测器应运而生。它们引入了一种独特的方法，能够直接将图像像素映射到边界框预测，从而加速检测速度并提高检测精度。在这些承诺前景光明的算法中，SSD [21], [22] 和 YOLO（You Only Look Once）系列 [23] 因其卓越的性能而备受瞩目。作为 YOLO 系列的首个成员，YOLOv1 采用基于网格的技术进行预测。后续版本，如 YOLOv2 [24], YOLOv3 [25], 和 YOLOv4 [26]，分别增加了 Anchor 框、多尺度金字塔和更深的主干网络。此后，YOLOv5 [27], [28], YOLOv6 [29], YOLOv7 [30], YOLOv8 [24], [31], 和 YOLOv9 [32] 通过引入 Anchor-Free 框设计和受 CSPNet 启发的 Backbone 网络等特性，逐步提升了速度与精度的平衡。

本研究的基础算法YOLOv8通过高效、 Anchor-Free 点的架构展示了这些创新。然而，即使是性能更优的模型如YOLOv8，在具有密集遮挡、小规模或远距离行人以及视觉杂乱环境的场景中也会出现性能下降[33], [34]。这些挑战在具有复杂道路几何形状的地方更为严重，例如S型道路曲线，受限的可见性和动态视场变化会削弱检测的可靠性。解决这些缺陷构成了YOLO-APD的核心动机。

近年来，建筑领域的最新进展引入了注意力机制，该机制通过模拟人类视觉优先级来增强特征聚焦。Squeeze-and-Excitation（SE）模块[35]、高效通道注意力机制（ECA-Net）[36]、坐标注意力机制[37]以及YOLO-APD中采用的SimAM[38]（一个无参数模块）均体现了这些方法。尽管注意力模块已被集成到YOLO的变种中[39]、[40]，但它们通常针对一般性改进进行优化，而非针对弯曲和遮挡道路所提出的独特挑战。

同时，将GhostNet [41]等轻量级 Backbone 网络嵌入C3Ghost模块以保持实时效率。多尺度特征融合，对于跨空间分辨率进行鲁棒目标检测至关重要，由PANet [42]和BiFPN [43]等优化结构高效处理。YOLO-APD的 Neck 设计受智能汇聚与分发（IGD）原则影响，增强了跨尺度特征交互。此外，采用Mish [44]等先进激活函数以及动态卷积 [45], [46]提供了改进的表征适应性。

YOLO-APD的贡献在于其对YOLOv8框架的独特架构增强，该增强将SimSPPF、C3Ghost、SimAM、IGD启发式 Neck 和Mish激活函数整合为单一改进算法。仅使用单目RGB传感器，这一创新组合解决了复杂视觉道路几何形状和低能见度条件下行人检测的感知需求，而当前模型在这些条件下经常表现不佳。

传感器模态的选择是决定自动驾驶车辆检测质量的关键因素。尽管RGB摄像头广泛可用且价格适中，但它们对不利天气条件和光照不足较为敏感[12]。尽管激光雷达（LiDAR）和雷达（RADAR）能够提供精确的深度和速度信息，但它们以更高的复杂性和成本为代价[9][10]。另一方面，红外和热成像摄像头在夜间性能方面表现更佳[47][48]。值得注意的是，多模态融合虽然能提高系统的鲁棒性，但也会增加系统成本。因此，YOLO-APD专注于使用廉价的单目RGB输入优化性能。自动驾驶车辆感知研究通常分为视距（Line-of-Sight，LOS）和非视距（Non-Line-of-Sight，NLOS）技术。当传感器拥有无遮挡的视野时，视距（LOS）方法在识别行人方面被证明是有效的，但其固有限制很快显现。当行人或其他感兴趣物体被遮挡时，非视距（NLOS）技术对于可靠的感知至关重要[49]。

然而，现实情况是，依赖激光雷达（LOS）的检测在很大程度上主导了自动驾驶车辆感知周围环境的方式。这种对激光雷达的强烈偏好并非没有后果；它显著地塑造了KITTI、Cityscapes [50] 和 nuScenes [51] 等关键公共数据集的构成和内置偏差，这些数据集在自动驾驶相关研究中被广泛使用。尽管这些数据集全面，但在极端天气条件、高度复杂的道路几何形状（如S型道路）方面缺乏足够的多样性，并且依赖于特征轴对齐的边界框，这些边界框无法完全捕捉遮挡。这些挑战促使本研究采用了特定的方法，即使用ARLA模拟器 [52] 生成一个专门设计的数据集，以应对这些具有挑战性的场景。

尽管在行人检测领域取得了显著进展，但仍存在一个持续的研究差距。需要能够利用低成本传感器在城市复杂道路几何形状区域实现高精度、高召回率和实时性能的模型。车辆运动学数据（如转向角）在视觉模型中被低估利用，进一步加剧了这一问题。值得注意的是，现有网络在遮挡、尺度差异和视觉杂乱方面往往面临性能问题，尤其是在对道路安全构成高风险的复杂道路几何形状区域。

YOLO-APD通过结合新型YOLOv8架构增强（包括SimSPPF、C3Ghost、SimAM和受IGD启发的 Neck 分支）以及由转向输入驱动的动态ROI机制来解决这一多方面问题。这种集成方法基于计算机视觉的理论框架进行图像解释，深度学习的特征提取，以及自适应系统的动态响应，为下一代自动驾驶汽车中的High-Level行人检测提供了一个单一且实用的框架。

材料与方法

3.1. 数据集准备

3.1.1. CARLA合成数据集生成

本研究使用CARLA模拟器（v0.9.15）在虚幻引擎4上生成了2015张图像数据集，鉴于现有数据集存在局限且不适合本研究，使用现有数据集存在困难。模拟实验选用了Town021-Town05地图，这些地图因其多样化的城市/郊区布局，包括具有急剧弯道和高度变化的路段，类似于Type-S道路，而被选中。

该数据集涵盖了多种条件：不同时间段（白天、黄昏、夜晚）、天气状况（晴朗、下雨、有雾）以及不同动态车辆和行人密度的交通场景。图像分辨率为640×480像素，由安装在自动驾驶模式下ego-车辆上的前置RGB录制相机采集。共获取2015张图像，并通过去除空格和特殊字符进行预处理。

为10个类别创建了手动标注：'person' 'car' 'truck' 'bike' 'motorbike' 'traffic light green' 'traffic light red' 'traffic light orange' 'traffic sign 30' 'traffic sign 90'。数据集被划分为训练集（1753张图像，87%）、验证集（183张图像，9%）和测试集（79张图像，4%）。

3.1.2. KITTI基准数据集

广泛认可的KITTI目标检测基准被用于评估所提出模型的实际泛化能力。为确保与合成数据类别的一致性，研究聚焦于标准验证集中的'Person'和'Car'类别，采用既定的评估协议。图像在训练和验证时以

像素的分辨率进行处理。

数据集被分为训练集（6732张图像，占比90%）和验证集（749张图像，占比10%）。

3.2. YOLO-APD网络

3.2.1. SimAM注意力机制

在所提出的检测网络中，引入了一种无参数的注意力模块SimAM，以增强模型的特征提取能力。该模块灵感来源于对哺乳动物神经系统的研究，研究发现较高层次的神经元对周围神经元具有主导作用。因此，该模块（图3）通过生成3D注意力权重[53]来操控CNN层的特征图。根据这些区域中神经元所携带信息的显著性，对不同的兴趣区域给予不同的关注。

这导致网络能够在目标区域内优先考虑重要特征，同时提升目标特征的表征效果。与常规技术不同，该模块无需额外的子网络即可生成3D权重。这是通过直接使用特定的能量函数计算权重来实现的。当前神经元的3D权重可以从该函数指定的解析解中推导出来。当前注意力模块对所有相同维度的神经元一视同仁，这一点值得提及。在考虑通道维度和空间维度重要性的同时，该模块为每个神经元分配独特的权重，这与人类注意力的特性相一致。SimAM机制也被引入到 Backbone 网络中，以验证其在不同任务中的泛化能力。

在视觉神经科学中，寻找包含更显著信息的神经元涉及确定目标神经元是否与其邻近神经元线性可分。携带不同信息量的神经元以不同的方式放电。能量函数的构建可以通过最小化来实现线性可分性。在添加正则化项之后，首先对能量函数进行解释。

图3 不同注意力步骤的比较。与典型的注意力机制不同，后者从特征X生成1D或2D权重，然后再扩展以进行通道（a）或空间（b）注意力，所提出的模块直接计算3D权重（c）。子图说明了这一点：一致的颜色表示每个通道、空间位置或特征点应用的单个标量。改编自[38]

其中t和

分别是输入特征X（

）在通道中的目标神经元和周围神经元，M（

）表示该通道中的神经元数量；i表示空间位置的确切位置。wt和

是权重和偏置变换[38]。此外，

和

的解析解的具体形式通过公式

和

定义。

其中

和

分别表示除t以外的每个神经元的均值和方差。

由此可得，系统的最小能量可以使用以下公式计算：

此处，

和

方程 x 表明，在较低能量下，目标神经元与其他神经元之间的差异更为明显；因此，使用

来表示目标神经元的重要性。此时，E 用于定义所有空间维度和通道上的

，随后将 sigmoid 函数应用于

权重，并将其与原始输入特征相乘。

3.2.2. Mish激活函数

在提出的YOLO-APD架构中，卷积块中通常采用的常规整流线性单元（ReLU）激活函数已被统一替换为Mish激活函数。Mish被区别为一种平滑、连续、自正则化且非单调的激活函数，其数学定义为：

Mish激活函数的一个关键优势在于其在输入域内的连续可微性，使其区别于分段线性整流激活函数（ReLU）。这种平滑性有助于在反向传播中实现更稳定的梯度流，减少与奇点相关的潜在优化困难[54]。

此外，Mish函数在正方向上的无界性有效解决了由大正激活值引起的饱和问题，这些问题可能阻碍训练收敛。另一方面，它在负方向上仍然有界（接近

），其非单调特性允许小的负输入产生具有非零梯度的负输出。

这种行为被认为相对于ReLU能够提升信息传播效率，可能避免神经元停止活跃的“死亡ReLU”问题。Mish函数的固有形状还提供了一种自正则化机制，这可能有助于提升模型的泛化能力[44]。

因此，在YOLO-APD的卷积层中实现Mish旨在利用这些有益特性，以提升训练稳定性、检测鲁棒性和模型整体精度。

3.2.3. C3Ghost模块

为平衡计算需求与特征表示能力，特别是在大规模网络设计中，本研究引入了C3Ghost模块。该模块结合了C3模块中Cross-Stage Partial Network (CSP) [28]所固有的结构优势与GhostNet (Han et al., 2020)高效轻量化的卷积方法。

设计C3Ghost模块的主要目标之一是相对于传统的卷积块减少计算量（FLOPs）和参数数量，同时仔细保持对检测任务至关重要的关键判别特征。

C3Ghost的基本设计通过引入Ghost卷积增强了C3模块 Bottleneck 层中的标准卷积，如图4所示。

Ghost卷积操作首先通过标准卷积生成一小组内在特征图。随后，这些特征图经过计算需求较低的线性变换——通常为深度卷积——以生成更广泛的"幽灵"特征图集。

图4 C3Ghost模块结构这些幽灵图有效地封装了冗余信息，同时处理开销极小[41]，显著减少了生成所需特征通道数所需的计算量。本研究中使用的C3Ghost模块的另一显著特点是，用Mish激活函数替换了典型的激活函数，如ReLU或SiLU。

Mish激活函数的选择基于其更平滑的梯度变化。此外，与其他分段线性替代方案相比，它具有更强的正则化能力，使其成为提高所提出模型性能的理想候选者。这些特性促进了更稳定的训练动态，并为改进模型泛化能力提供了途径[54]。

在所提出的模型中，C3Ghost模块作为核心基础组件发挥作用。其架构的核心在于通过Ghost卷积有效生成特征。这得益于C3中成熟的跨阶段部分（CSP）设计原则的融入，以及Mish激活函数的优势特性。

采用这种方式，C3Ghost模块能够构建深度且计算上易于管理的模型，从而在检测效果和推理吞吐量之间实现实用的权衡。

3.2.4. SimSPPF模块

YOLOv8基准算法改进了空间金字塔池化快速（SPPF）模块[55]的实现，该模块是早期架构如YOLOv5模型及其前代的创新。YOLOv8优化通过减少内部卷积层的数量，相较于早期的SPP变体[34]确保了计算效率。

尽管这种简化有效减少了参数和FLOPs，但可能导致细粒度特征信息的损失，从而影响复杂场景下的检测精度。为解决这一潜在权衡问题，并在适度增加计算成本的同时提升SPPF模块的特征表示能力，作者提出用SimSPPF模块替换YOLOv8 Backbone 网络中的SPPF模块，如图2所示。

该改进模块旨在提高检测精度，在性能和效率之间实现良好的平衡。所提出的SimSPPF模块的架构细节和伪代码分别提供在图5和表1中。

首先，将标准的2D卷积构建模块CBS（Conv

BatchNorm Silu）替换为CBM（Conv BatchNorm Mish）。SimSPPF模块处理前一阶段输入的特征图，并使用SimConv层（cv1）对这些显著图进行转换。随后，通过连续对转换后的特征应用MaxPool2d操作（核大小5，步长1，填充2）来构建特征表示金字塔，从而在不改变空间维度的情况下，有效捕获多个有效感受野的上下文信息。

这些并行流——最初转换的特征（x1）及其逐步池化的对应特征（y1、y2和MaxPool2d(y2)）——随后沿通道维度进行拼接。这个拼接后的特征张量富含多尺度信息（产生4c个通道），接着由最终的SimConv层（cv2）进行处理，该层将这些多样化的表示智能地融合成一个紧凑且强大的输出特征图（通常为c个通道）。

该架构设计使SimSPPF模块能够有效聚合上下文信息，提升YOLO-APD对目标尺度变化的鲁棒性，同时呈现一种潜在更参数高效的架构。通过消融研究部分详述的比较实验，验证了SimSPPF模块相对于标准SPPF在提升检测性能方面的有效性。所呈现的结果展示了SimSPPF对模型整体精度提升的贡献。

3.2.4. 智能收集与分发模块 (IGD)

标准YOLOv8架构融合了基于特征金字塔网络（FPN）[56]和路径聚合网络（PANet）[26]思想的 Neck 结构。然而，这种传统架构的一个关键缺点是信息流受限，特征主要在相邻层级之间传递。这种架构布局可能削弱重要信息流的传递。随着细粒度特征在网络深处传播，邻近层可能成为信息流的 Bottleneck 。这反过来可能限制模型有效整合所有尺度的全局特征的能力，从而影响其对需要细粒度细节和更广泛上下文理解的物体的性能。

为克服这一缺点，本研究提出用新的智能汇聚与分发（IGD）模块替换现有的YOLOv8 Neck 结构。此改进旨在优化模型在复杂环境下的目标检测性能，包括S型道路、其他遮挡场景以及光照不足的环境。该方法借鉴了注射多分支和Sim4模块的概念，并参考了文献[57]的工作。如图6所示，该架构通过多个分支，利用顺序自顶向下（用于语义增强）和自底向上（用于定位增强）路径来融合不同尺度的特征。

IGD机制旨在实现跨尺度的更全面和并行化特征交互，超越相邻层级间简单的两两融合。通过允许来自不同层级的特征同时汇聚并适当地重新分配，该模型力求保留更丰富的多尺度信息，并增强融合特征图的表征能力。据推测，这种改进的融合方法将显著提升检测精度，尤其对于在所提出的YOLO-APD架构中常表现出细微或依赖上下文特征的异常。卷积块中通常采用的常规整流线性单元（ReLU）激活函数已被统一替换为Mish激活函数。

3.3. 损失函数

YOLO检测算法的整体损失函数是三个主要损失组件的加权求和。分类损失

、边界框回归损失

和分布Focal Loss

通常表示为：

其中

是尺度超参数。分类损失分量表示为

，采用二元交叉熵对数损失（BCEWithLogitsLoss）。该损失应用于每个预测的类别分数，有效惩罚与真实标签的偏差。对于边界框回归，

，使用完整IoU（CioU）损失，其表达式为。

IOU是预测框与真实框的IoU。

由

给出，而

由

给出。相应地，分布Focal Loss（Distribution Focal Loss，DFL），

将连续的边界框坐标建模为一般分布。对于位于两个离散、可学习的分箱边缘

和

之间的常数目标坐标

，以及这些边缘的预测概率

和

，DFL由以下公式给出

3.4. 与动态区域兴趣 (DROI) 集成

除了核心网络评估外，本研究还提出了一个将YOLO-APD集成到利用车辆动态系统的概念框架，如图7所示。车辆转向角传感器的数据可以动态计算与前方直接路径相对应的区域兴趣（ROI），这在Type-S等道路的转弯期间尤为重要，如图8所示。转向角（0-30度）定义了移动自动驾驶车辆（AV）前方的关键区域，其中潜在危险被确定。

当

为直线行驶时的基础宽度时，

为转向角，

为车辆速度，而

这些调优参数平衡转向盘影响、速度以及感兴趣区域（ROI）的扩展程度。在直线行驶（

至

）时，当

时，

恢复为

以防止不必要的扩展。在中等曲率（

）时，ROI 横向扩展，受转向角和车辆速度的影响，以预期曲线轨迹。对于转向角

的情况，系统根据预测的车辆路径横向扩展关键区域，以应对更急的转弯。基于DROI的这种自适应场景处理可以减少整体计算负载。

这需要基于转向角（0）和速度（v）计算ROI的模块。其他下游组件，如距离估计模块、碰撞时间（TTC）检查以及目标跟踪（例如使用卡尔曼滤波器），对于风险评估至关重要。这些组件的整体协调将触发警告或控制动作，从而进一步提高ADAS的质量。这种系统级集成仍然是未来实施的方向[58]。

结果与讨论 4.1. 实验环境配置

使用合成Carla数据集及其相应的标注文件，进行检测实验，首先使用表3中所示参数进行模型训练，最终在模拟器中进行测试。上述模拟实验的硬件和软件配置环境如表1所示。

为便于分析改进前后的检测效果，引入了四个评价指标，以全面描述模型的检测精度，包括平均精度（AP）、平均平均精度（mAP）、平均F1分数（mF1）等准确度指标，以及鲁棒性分析，其定义如下：

，

其中

表示准确识别的目标数量，

代表模型检测到的总目标数，而

是检测到的真实目标数量？

表示类别总数，本研究中为8。此外，FLOPs（浮点运算次数）和Params（参数数量）分别用于衡量目标检测模型的计算时间复杂度和参数量。

4.2. CARLA数据集中的算法比较

为验证YOLO-APD的性能，本文与其他目标检测模型进行了对比实验，包括Faster RCNN、SSD、YOLOv5、YOLOv7、YOLOv8和YOLOv9。在相同的数据集样本和训练参数配置下，这些检测方法通过结合AP、mAP、F1、FLOPs和Params评估指标进行评估。

为了量化评估模型的性能，建立了一套特定的性能基准。这些基准包括AP@0.5、mAP、FPS、平均F1分数（mF1）、单张图像推理时间（TD）、计算负载（FLOPs）以及模型参数数量，具体汇总于表4。从这些收集到的实验数据中，呈现出一种一致的模式：模型总是平衡其检测精度和推理操作的效率。

SSD实现了相对较高的帧率200，但其检测精度mAP为60.5%显著较低。YOLOv5作为中等表现者，将mAP提升至66.1%，但其相对较低的帧率（100）和较高的推理延迟（每张图像10毫秒）限制了其在实时应用中的适用性。相比之下，Faster R-CNN实现了较高的检测精度（AP@0.5为90.1%，mAP为62.5%）。然而，它记录了不切实际的推理速度5 FPS。这种性能 Bottleneck 是由于其巨大的计算开销（169.82 GFLOPs），导致其在实时系统中部署不可行。

YOLOv7和YOLOv8在检测性能和推理速度方面均有显著提升，其mAP得分分别为67.7%和71.5%，并具备

FPS的实时处理能力。然而，这两个模型都带来了巨大的计算成本：YOLOv7需要157.1 GFLOPs。相比之下，虽然YOLOv8在67.7 GFLOPs上稍显高效，但其参数数量（20.04M）更为庞大，这限制了它在资源受限的嵌入式系统上的可扩展性。

然而在本研究中，YOLO-APD表现优于所有其他模型。与其他模型相比，它实现了最高的mAP（77.7%），以及AP@0.5（97.0%）。值得注意的是，尽管其FPS（100）略低于SSD和YOLOv7，但仍处于实时自动驾驶应用的可接受范围内。YOLOAPD每张图像保持稳健的推理时间10 ms，其FLOPs（76.5G）和参数数量（24.16M）反映了均衡的计算负载，尤其是在与资源消耗更大的YOLOv7和YOLOv8模型相比时。

相较于SSD算法，内存使用量略有增加，但检测精度和实时处理能力的显著提升证明了这种权衡的合理性。YOLO-APD的优异性能源于精心设计的架构。其设计关键在于先进的 Anchor-Free 点检测系统，以及增强型特征融合方法。这种组合使模型能够更可靠地应对行人检测中的常见难题，包括遮挡、目标尺度显著变化和环境干扰。

4.2.1. 混淆矩阵分析

混淆矩阵被分析以更深入地了解特定类别的性能和潜在的误分类情况。标准化混淆矩阵（图8）详细展示了每个类别中正确预测与错误预测的比例，原始计数数据在图9中呈现。

在行人检测方面，YOLO-APD在测试集上针对这一关键类别（行人）取得了优异的成绩，准确率达到

（精确率和召回率均为1.0）（图8）。这样的性能对于自动驾驶系统的安全目标至关重要。交通信号灯状态（绿灯、黄灯、红灯）以及“交通标志90”的识别准确率同样非常高，所有实例均被正确分类。然而，也出现了一些特定的错误分类模式。摩托车与自行车类别的混淆尤为明显，实际中的

摩托车被误识别为自行车（图9），这很可能源于它们在视觉上的相似性。

在traffic_sign_30和traffic_sign_60之间存在一些轻微的混淆，其中7%的traffic_sign_30实例被错误识别为traffic_sign_60。此外，也观察到一些混淆现象；14%的traffic_sign_30实例被错误分配为背景，这表明在检测这些标志时偶尔会出现失误。

图9 原始混淆矩阵从图8中最右侧列所示归一化混淆矩阵中可以观察到的一个关键现象，并由图9中的原始计数进一步证实，即车辆和自行车类别存在较高的误报率，这些误报源于背景元素。从这些观察结果中进一步注意到，52%被归类为车辆的预测和32%被识别为自行车的预测实际上是背景物体。这一问题表明模型存在将某些背景模式误读的趋势，这可能导致自动驾驶汽车产生不希望的响应。此类事故可能损害自动驾驶汽车的整体安全及其乘员。

这一挑战凸显了未来模型改进的重要方向，可能通过聚焦负样本挖掘或提升特征在复杂环境背景下的独特性来实现。即便如此，模型始终在正确识别真实车辆实例方面达到了95%的准确率。

4.3. KITTI和CARLA数据集比较

在基于模拟训练的模型中，其泛化到真实世界数据的能力是一个关键方面。为了评估实验的可靠性，作者在KITTI道路驾驶数据集（真实世界数据集）上对仅在CARLA数据集（本研究开发的数据集）上训练的YOLO-APD模型进行了评估，针对“Person”和“Car”类别。上表5比较了其性能。相对于CARLA，在KITTI数据集上记录到了平均精度（AP）的轻微下降（-0.016）和F1分数的显著下降（-0.1734）。

这种退化很可能归因于合成（CARLA）图像与真实世界（KITTI）图像之间固有的领域偏移效应，以及KITTI中显著的类别不平衡问题，其中行人实例与车辆类别相比明显不足。这种分布差异阻碍了模型在真实世界条件下对少数类进行有效泛化的能力。

该研究进一步揭示了模型在KITTI和CARLA数据集上的类别性能差异。真实世界的KITTI数据集在平均精度（Average Precision）上记录了

的提升，在F1分数上相较于CARLA数据集有

的改进。这种优越性能可能源于真实世界KITTI数据集中车辆实例更高的保真度和多样性，后者导致模型在车辆检测任务上表现出更好的泛化能力。

这些发现共同强调了自适应目标检测模型如何适应特定领域的具体细节，例如数据的分布情况、环境真实程度以及不同类别存在频率对性能的显著影响。这反过来又突出了检测模型进行鲁棒领域适应的必要性。

为了构建一个能够适应领域漂移或类别不平衡问题的更具鲁棒性的模型，如前文所述，关键在于考虑以下重要策略：通过目标环境数据调整模型，开发协调合成数据与现实世界数据特征的方法，以及创建数据增强策略以支持代表性不足的类别。

聚焦于mAI

，YOLO-APD达到接近80%的峰值精度。它收敛速度更快，并且整体精度优于其他模型。YOLOv8紧随其后，稳定在70%左右，而YOLOv7和YOLOv5收敛于66%-68%的区间。传统架构，即Faster R-CNN和SSD，表现不佳；SSD尤其存在性能波动和学习轨迹较慢的问题。

4.4. 消融实验

为评估YOLO-APD特定架构改进的单独及组合影响，使用CARLA数据集进行了消融研究（详细结果见表6）。该方法始于基础YOLOv8模型，随后逐步引入每个独特的增强：首先引入SimSPPF模块，接着SimAM注意力机制，然后基于智能收集与分发（IGD）概念的 Head 设计，最终引入Mish激活函数。

标准YOLOv8模型在Expr1中提供了初始性能基准，记录了AP@0.5为0.931，以及r nAP@0.5:0.95为0.715。首次实施的修改（Exp2）集中于将提出的SimSPPF模块替换传统SPPF。这一独立变化的总体效果相当显著，AP@0.5提升至0.952（相对增益2.1%），mAP@0.5:0.95上升至0.729（改进1.5%）。这种即时且显著的性能提升表明，在所提出模型的架构中包含SimSPPF具有其内在优势。

SimSPPF通过采用注意力增强的池化策略，在识别和融合多尺度上下文特征方面展现出更精细的能力，从而带来了更稳健和一致的检测结果。随后，将无参数的SimAM注意力机制集成到 Backbone 网络中，如Exp3所示，性能实现了边际但正向的提升：

上升至0.953，而

改进至0.732（绝对提升0.2%）。与SimSPPF的模块化影响相比，这些改进较为温和。然而，它们突显了SimAM在选择性增强特征图内显著神经元激活的能力，且无需增加可学习参数。这种模块化集成有助于在极低的计算开销下提升YOLO-APD性能。

基于IGD的 Head 结构（Exp4）引入了一个显著的权衡。虽然

指标略有下降至0.952，但在m

分数上观察到明显改善，该分数是衡量在更严格IoU标准下鲁棒性的关键指标，提升至0.746（相较于Exp3绝对提升1.4%）。这种差异揭示了IGD Head 在提升模型定位物体和区分物体的能力方面的重要作用。这种增强的定位能力是以在宽松的0.5 IoU标准下检测数量略微减少为代价的。然而，对于自动驾驶等对空间精度要求极高的应用而言，这种针对性的改进具有显著的优势。

Exp5代表YOLO-APD架构的最终迭代。在整个网络中实现了Mish激活函数，从而带来了研究中最显著的检测性能提升。通过策略性地将默认的SiLU激活函数替换为Mish，在多个模块中改进了特征提取和性能。AP@0.5的性能提升至0.971（相较于Exp4提升了1.8个百分点），mAP@0.5:0.95达到0.774（相较于Exp4提升了2.8个百分点）。这一性能飞跃可能归因于Mish的平滑、非单调特性。这种平滑性促进了更好的梯度 Stream 和训练过程中的优化动态。最终得到的模型（YOLO-APD）实现了更高的精度，并在复杂的检测场景中表现出更强的泛化能力。

4.5. 讨论

这项全面的实验评估展示了所提出的YOLO-APD网络的有效性。与最先进的目标检测器（表4）的比较分析表明，YOLO-APD在模拟的CARLA环境中对于具有挑战性的行人检测任务表现出竞争力。所提出的模型在关键性能指标上实现了强有力的平衡，包括平均精度均值

为

，高平均F1分数（mF1）为0.944，突出了对于安全应用至关重要的召回性能，以及100 FPS的实时推理速度，同时计算需求适中（76.5 GFLOPs，24.16百万参数）。YOLO-APD在所有报告的准确率指标上均优于其直接 Baseline YOLOv8m。消融研究（表6）基于模块化改进分析了YOLO-APD的性能。结果表明，每个架构修改都对模型效率的提升做出了贡献。SimSPPF的集成增强了多尺度特征提取，C3Ghost模块提高了计算效率，SimAM（一种无需额外参数的注意力机制）细化了特征表示，IG&D启发的 Head 分改进了特征融合，Mish激活函数支持了更好的优化。

使用KITTI数据集进行的仿真到真实世界评估（如表5所示）为所提出的YOLO-APD模型的泛化能力提供了实际洞察。虽然所提出的模型在“Car”类别中表现出相对较强的性能，但也凸显了领域自适应面临的挑战。在真实世界KITTI数据集中行人类别的F1分数大幅下降表明，在模拟环境中仅使用合成数据集训练的模型在实际部署时可能会受到领域偏移和类别不平衡的影响。弥补这一差距可能需要采用诸如在少量目标领域样本上进行微调、在模拟过程中进行领域随机化、领域不变特征学习或使用生成对抗网络（GANs）进行合成到真实的领域转换等策略。

尽管存在领域差异，模型在模拟的CARLA环境和真实世界数据集上展现出的优异性能表明YOLO-APD能够学习到鲁棒且可迁移的特征。在以安全为中心的应用场景，如自动驾驶中，未能检测到障碍物（如漏检行人，即假阴性）会带来不可接受的风险。CARLA数据集在直接应对这一关键需求方面已展现出高召回率。此外，利用转向角数据也带来了一个有趣的可能性：这种集成或许能够实现计算资源的更流畅分配，为更快的推理处理提供途径。

结论

本文介绍YOLO-APD，一种基于YOLOv8的增强型目标检测网络，专门针对在复杂道路几何形状（如TypeS道路）运行的自动驾驶车辆中的稳健高效行人检测进行了优化。通过集成新型SimSPPF模块进行多尺度特征提取、高效C3Ghost模块、无参数SimAM注意力机制、Mish激活函数以及受Gather-and-Distribute启发的检测Head，YOLO-APD在具有挑战性的定制CARLA数据集上实现了高精度（

）和高行人召回率（

）。所提出的模型在检测性能、速度（100 FPS）和计算效率方面与 Baseline YOLOv8和其他成熟的单阶段目标检测器相比取得了有效平衡。在真实世界KITTI数据集上的评估突出了挑战性和领域自适应的必要性，但同时也表明YOLO-APD为实际部署提供了坚实的架构基础。这标志着在开发可靠且自适应的行人检测算法以及适用于复杂动态环境的低成本RGB感知系统方面取得了重要进展。

未来工作的一个方向是通过有针对性的领域自适应技术，解决所提模型在模拟环境与实际性能之间的差异问题。进一步的研究还可以包括基于车辆动力学改进动态感兴趣区域系统，使用量化等技术优化模型以部署在嵌入式硬件上，以及探索不同模态的传感器融合。