端到端 V2X 自动驾驶框架 | 整合检测、跟踪、预测与碰撞预警，提升安全性！ - 文章 - 开发者社区

ADAS Laboratory

picture.image

点击上方蓝字关注 智驾实验室

picture.image

扫描上方二维码，加入【 智驾实验室 】交流群，

获取更多内容和资料

picture.image

V2X合作，通过整合来自车辆和基础设施的传感器数据，被认为是推动自动驾驶技术发展的关键途径。当前研究主要集中于提高感知准确性，往往忽视了通过端到端学习系统性地提高事故预测准确性的重要性，导致对自动驾驶安全问题的关注不足。

为了应对这一挑战，本文提出了UniE2EV2X框架，这是一个集成了V2X的端到端自动驾驶系统，它在一个统一网络中整合了关键的驾驶模块。该框架采用了一种基于可变形注意力的数据融合策略，有效地促进了车辆与基础设施之间的合作。

主要优势包括：

显著提高了代理的感知和运动预测能力，从而提高了事故预测的准确性；

在数据融合过程中确保了高可靠性；

与模块化方法相比，具有更优的端到端感知能力。此外，作者在专为V2X合作驾驶设计的具有挑战性的DeepAccident仿真数据集上实现了UniE2EV2X框架。

I Introduction

在过去的几十年里，交通和汽车行业的自动化和智能化水平不断提高，这得益于深度学习的进步、控制理论的发展，以及传感器和网络通信等技术。自动驾驶研究正在蓬勃发展，通常将所需的复杂智能系统划分为基于驾驶不同阶段的多个子任务，如感知、预测、规划和控制。这些多阶段方法需要维护模块间的通信，可能会导致系统响应延迟和信息丢失。

相反，端到端的自动驾驶方法通过直接将环境数据转换为车辆控制决策，提供了一种更直观、更简化的方法，从而通过统一数据表示减少系统复杂性和延迟。然而，单个车辆智能的感知范围仅限于其车载传感器，这可能在复杂道路和恶劣天气条件下影响其感知能力。

车辆与一切（V2X）协作通过整合车辆与道路基础设施之间的信息交换和协作操作，增强了自动驾驶车辆的性能。这提供了全面、准确的道路和交通信号信息，提高了安全和效率。

此外，V2X通信使车辆能够感知到其周围环境之外，促进车辆之间的协同驾驶。尽管当前V2X研究关注提高如检测准确性和轨迹预测精度等指标，但这些改进并不一定等同于有效的规划结果，因为多阶段自动驾驶方法引入了不相关信息。

本文提出了一种端到端的V2X自动驾驶框架，旨在整合目标检测、跟踪、轨迹预测和碰撞预警，形成一个统一的端到端V2X自动驾驶方法，以预测碰撞结果。

本文的组织结构如下：

第2部分回顾了相关工作，

第3部分介绍了端到端V2X神经网络模型，

第4部分使用公共数据集进行实验，并与其他模型进行比较，验证了所提方法的有效性。

第5部分总结了本文。

II Related Work

End-to-End Autonomous Driving

端到端自动驾驶方法在架构上比模块化方法简单，它们直接从感知数据产生驾驶命令，从而避免生成冗余的中间阶段信息。

这些方法可以通过两种途径实现：模仿学习和强化学习。

模仿学习，作为一种监督学习形式，涉及通过模仿人类驾驶行为来学习策略和更新模型。其优点是训练效率高，但需要大量标注的训练数据，并且无法覆盖所有潜在的交通和驾驶场景。相比之下，强化学习直接从模型与环境的交互中学习以最大化累积奖励。其优点是不需要手动收集和标注数据，但模型收敛慢，结果显著受到奖励定义等因素的影响。早期的端到端自动驾驶方法主要关注模仿学习，通常输出简单的驾驶任务。使用卷积神经网络（CNN）从三个摄像头捕获的图像中推理转向角，在没有车道标记的道路上实现了车道保持。

考虑到车辆速度，在CNN之上引入了时间信息，使用长短期记忆网络（LSTM），这种方法对于简单的车道保持任务有效，但在复杂的交通场景和驾驶任务中受限。一些研究通过强化学习实现了端到端自动驾驶，处理了比模仿学习更复杂的场景。

将多模态数据集成到端到端自动驾驶模型中，其性能优于单模态方法。然而，端到端方法的挑战在于模型解释性差，当出现问题时代码诊断和解决问题困难。

UniAD统一了多个基于共享鸟瞰图（BEV）特征的Transformer网络，包含跟踪、建图和轨迹预测模块。这增强了模型的解释性，有助于训练和故障排除，并使用最终的规划结果来设计损失函数，构建了端到端的自动驾驶模型。

Vehicle-to-Everything Cooperation

基于单车智能的自动驾驶车辆使用车载传感器以车辆本身为中心来感知环境。然而，现实世界的交通场景是复杂多变的，特别是对于感知道路上的脆弱用户来说。得益于通信技术的进步，提出了协同自动化驾驶车辆（CAVs），通过聚合来自交通环境中其他自动驾驶车辆的感知数据，增强了车辆的感知能力。

基于V2X传输的数据，自动驾驶协同感知可以分为三种类型。

第一种类型涉及直接传输原始点云数据以实现协同感知，这要求高传输带宽。

第二种方法是将原始感知数据处理成统一特征信息，如BEV空间特征，然后再传输以节省带宽，这种方法平衡了带宽需求和检测精度，是主流的V2X传输方法。

第三种类型在通过V2X传输结果信息之前，为每辆自动驾驶车辆生成预测结果，这要求低带宽但需要单个车辆预测结果的高精度。

高质量的自动驾驶协同感知数据集推动了该领域的研究，主流数据集包括V2X-Sim，OPV2V和DAIR-V2X。

然而，这些主流的车路协同数据集主要关注感知准确度作为评估指标，适合测试自动驾驶感知算法的性能，但不适用于评估端到端相关算法。DeepAccident 是一个使用CARLA模拟器生成的大规模自动驾驶数据集，支持端到端运动和事故预测任务的测试。在这项工作中，作者提出了一个基于车路协同的端到端自动驾驶框架，并利用DeepAccident数据集来测试相关算法的性能。

III Methodology

本文介绍了一种车辆-道路协同的端到端自动驾驶框架，该框架包括两个主要组成部分：V2X协同特征编码器和端到端的感知、运动和事故预测模块。

V2X Cooperative Feature Encoding Based on Temporal Bird's Eye View

作者的V2X框架包括车辆本身和道路基础设施。

在协作阶段，每个代理首先提取并将多视角图像特征转换为BEV特征。然后对这些特征进行编码，以对V2X代理的BEV感知信息的时间序列进行对齐。最后，通过将车辆的BEV特征与路边基础设施的BEV特征合并，作者获得了协作感知特征。基于时间BEV提取V2X协作特征的过程，如图1所示，

主要包括两个组成部分：基于空间BEV编码的多视角图像到BEV特征模块，以及基于时间BEV编码的时序级联BEV特征融合模块。

经过空间变换和时间融合后，使用可变形注意力机制将基础设施BEV特征与车辆的坐标系统对齐并整合，以融合两个对齐的BEV特征，从而增强车辆的感知能力，实现最终的V2X协作BEV特征。

picture.image

基于空间BEV编码的多视角图像到BEV特征模块原始感知信息来自车辆和道路基础设施，包括多视角透视图像。为了消除空间语义差异并合并多源感知数据，车辆和基础设施的多视角图像通过两个平行的特征提取和转换通道处理，以产生统一的BEV特征。按照[51]中的方法，作者将多视角透视图像映射到BEV空间。在基于空间BEV编码将多视角图像转换为BEV特征的模块中，首先分别处理多视角图像。

使用二维卷积提取多视角特征图，然后输入到空间BEV编码器模块中。空间BEV编码器最终生成图像的高级语义BEV特征。该过程可以用公式(1)描述，其中ResNet指的是ResNet-101 Backbone 网络，代表车辆的六个视角的相机图像，,,...,代表这些六个视角的特征图。类似地，,,...,是来自道路基础设施六个视角的特征图。

接下来，多视角特征图输入到基于可变形空间交叉注意力机制的空间BEV编码器中，将二维图像特征转换为BEV空间特征。最初，创建一个BEV目标 Query ，这是一个可学习的参数张量，在空间BEV编码器的作用下逐渐学习多视角图像的BEV信息。Q作为空间BEV编码器的 Query ，多视角特征图或作为编码器的键和值。经过六轮BEV特征编码交互后，Q的参数不断更新以产生完整且准确的BEV特征值B。具体的BEV编码过程可以用公式(2)和(3)表示，其中,,分别表示BEV目标 Query 、图像BEV键和图像BEV值。,,代表,,的权重矩阵，,分别表示BEV特征和图像特征。

然而，在传统的Transformer架构编码器中， Query （query）对所有键（key）进行注意力操作，考虑到作为键的多视角特征图的巨大尺度和混合信号，这种方法既不高效也不必要。因此，在实际的鸟瞰图（BEV）特征编码中，基于可变形注意力机制的编码器被用来节约计算资源并显著提高效率。

将和，作为两个BEV特征帧输入，使用基于可变形交叉注意力机制的时间BEV编码器将二维图像特征转换为协同感知BEV特征。

首先实现静态场景对齐。已知车辆在和时刻的世界坐标，并使用连续帧车辆运动变换矩阵，将特征对齐到。此对齐操作确保了在相同搜索位置网格中的和对应于现实世界中的同一位置，将对齐后的BEV特征表示为。

随后，执行动态目标对齐。时间的BEV特征作为目标 Query ，逐步在学习时间的BEV特征的作用下，使用时间BEV编码器。用作时间BEV编码器的 Query ，前一时刻的BEV特征作为键和值。通过BEV特征编码交互，的参数不断更新，最终产生一个完整且准确的协同感知BEV特征值。具体的BEV编码过程由方程（4）和（5）表示，其中、和分别表示时间的BEV特征的目标 Query 、时间的图像BEV特征的键和时间的图像BEV特征的值。、和分别是、和的权重矩阵，和分别表示时间的BEV特征和时间的图像BEV特征。

基于时间BEV编码的时序级联BEV特征融合模块：在前一部分中获得的BEV特征被认为是顺序信息的载体。每个时刻的BEV特征基于前一个时刻的BEV特征来捕捉时间信息。这种方法允许动态获取必要的时间特征，使BEV特征能更快更有效地响应动态环境的变化。

在基于时间BEV编码的时序级联BEV特征融合模块中，前一个帧的BEV特征作为先验信息来增强当前帧的BEV特征。由于和分别处于各自的车辆坐标系中，因此必须首先使用车辆的位置变换矩阵将特征转换到当前帧的车辆坐标系中。然后，

在时刻，假设在中的某一点存在一个目标，那么在时刻，该目标很可能在中相应点附近出现。通过针对这一点采用可变形交叉注意力机制并围绕它采样特征，可以在动态和复杂环境中实现高精度的时序特征提取，同时保持较低的开销。

End-to-End Autonomous Driving 2024-05-09-01-49-14

作者提出了一种名为UniE2EV2X的统一端到端V2X协同自动驾驶模型，该模型面向事故预测。该模型的主要任务包括目标检测与跟踪、运动预测以及为事故预测进行后处理，如图2所示。

picture.image

检测与跟踪本文提出的端到端自动驾驶框架的感知模块是初始组成部分。它包括检测和跟踪子模块，以协同鸟瞰图（BEV）特征作为输入，并为下游运动预测模块生成跟踪代理特征。检测子模块负责在每个时间帧下，在协同BEV特征中预测目标信息，包括目标位置和尺寸。跟踪子模块通过分配一致的ID，将跨帧的同一目标关联起来。

在本研究中，检测和跟踪任务被整合到一个统一的多目标跟踪模块中，该模块首先进行检测 Query 以识别新出现的目标，然后与之前帧的检测 Query 交互当前帧跟踪 Query 以聚合时间信息，并在后续帧中更新跟踪 Query 以进行目标跟踪。这个多目标跟踪 Query 包含表示连续帧中目标信息的特征。

此外，引入了一个自我车辆 Query 模块，以聚合自动驾驶汽车的轨迹，这将在后面用于预测车辆的未来轨迹。多目标跟踪模块由N个Transformer层组成，输出特征包含丰富的代理目标信息，将在运动预测模块中进一步利用。

运动预测运动预测模块接收多目标跟踪 Query 和感知模块的协同BEV特征作为输入。采用以场景为中心的方法，它输出运动 Query ，以预测每个代理和自我车辆在未来T帧内的K条可能路径上的未来轨迹。这种方法允许同时预测多个代理的轨迹，并完全考虑代理之间的互动以及代理与目标位置之间的互动。

代理之间的运动 Query 是通过运动 Query 和跟踪 Query 之间的多头交叉注意力机制得出的，而与目标位置相关的运动 Query 是通过可变注意力机制生成的，该机制使用运动 Query 、目标位置和协同BEV特征。和被组合并通过多层感知机（MLP）产生 Query 上下文_tx_。运动 Query 位置_os_融合了四种位置知识：场景级 Anchor 点、代理级 Anchor 点、代理的当前位置和预测的目标点。_tx_和_os_被合并形成运动 Query ，直接预测每个代理的运动轨迹。

事故预测将协同BEV特征输入到端到端的自动驾驶框架后，获得了所有代理和自我车辆的运动预测。这些预测被逐帧后处理，以检查潜在的事故。对于每个时间戳，每个代理的预测运动轨迹可以近似为多边形，并识别最近的其他目标。

通过检查目标之间的最小距离是否低于安全阈值，可以确定是否发生了事故，为碰撞目标的ID、位置和碰撞时间戳提供标签。为了与实际事故数据比较事故预测的准确性，将相同的后处理步骤应用于实际事故移动，以确定未来事故的发生。碰撞的基础包括预测和 GT 都表明发生事故，并且碰撞目标之间的距离低于阈值的情况。

参考

[1].Unified End-to-End V2X Cooperative Autonomous Driving.

扫描下方二维码，添加 AI驾驶员

获取更多的 大模型 与 多模态 等信息

picture.image

​端到端 V2X 自动驾驶框架 | 整合检测、跟踪、预测与碰撞预警，提升安全性！

I Introduction

II Related Work

III Methodology

参考

端到端 V2X 自动驾驶框架 | 整合检测、跟踪、预测与碰撞预警，提升安全性！