OpenDriveLab提出DriveLM | 全球首个语言+自动驾驶全栈模型 + 全新数据集发布 - 文章 - 开发者社区

作者研究了如何将基于网络规模数据的视觉语言模型（VLMs）集成到端到端驾驶系统中，以提高泛化能力并实现与人类用户的交互。尽管最近的方法通过单轮视觉问答（VQA）将VLMs应用于驾驶，但人类驾驶员在采取行动之前会考虑多个步骤。从关键物体的定位开始，人类会估计物体之间的交互。关键的洞察是作者提出的任务，即图问答（Graph VQA），通过感知、预测和规划问答对来模拟图结构推理。这样，作者得到了一个适合的代理任务，可以模拟人类推理过程。

作者基于nuScenes和CARLA构建了数据集（DriveLM-Data），并提出了一个基于VLMs的基准方法（DriveLM-Agent），用于同时执行图问答和端到端驾驶。实验证明，图问答提供了一个简单、原则性的框架来推理驾驶场景，DriveLM-Data提供了这个任务的挑战性基准。作者的DriveLM-Agent基准方法在比较最先进的特定于驾驶的架构方面，实现了端到端自动驾驶的竞争力。

值得注意的是，当它对未见过的物体或传感器配置进行评估时，其效果尤为明显。作者希望这项工作可以成为应用VLMs进行自动驾驶的新起点。为了促进未来的研究，所有代码、数据和模型都公开供公众使用。

1 Introduction

当前的自动驾驶（AD）堆栈仍然缺乏一些关键能力。其中一项关键要求是泛化能力，这涉及处理未见过的场景或陌生的物体。另一个次要要求与这些模型与人类之间的交互有关，这正如欧盟规定的那样，在部署时要求可解释性。此外，与目前的AD模型不同，人类不是基于几何上精确的鸟瞰图（BEV）表示进行导航。相反，人类隐式地执行以物体为中心的感知、预测和规划（作者称之为）：首先对关键物体进行粗糙的识别和定位，然后对它们的可能移动进行推理，并将这些信息汇总为驾驶动作。

与此同时，另一个领域取得了进展：视觉语言模型（VLMs）。这些模型具有几个优点。首先，它们从互联网规模的数据中获取对世界的基本理解，这可能有助于AD中的规划泛化。实际上，这种泛化已经通过VLMs在更简单的机器人任务中实现。其次，使用语言表示作为输入和输出提供了与这些模型友好交互的平台，与当前方法中更常见的边界框或轨迹不同。最后，VLMs能够通过逻辑推理将多个步骤中的决策联系起来进行决策。重要的是，尽管它们在多个单独步骤中进行推理，但VLMs是端到端可微架构，这是自动驾驶中非常理想的特性。

最近关于将VLMs应用到AD系统的工作可以分为两类：场景级或单个目标级的视觉问答（VQA）。场景级VQA是指通过一个或两个支持理由来描述驾驶行为，例如：“汽车向右移动，因为这样做是安全的。” 。单个目标级的VQA通过一系列“what-which-where-how-why”形式的问答来理解自动驾驶车辆对单个物体的反应，例如：“自动驾驶车辆停下来，因为有一个人在白色衬衫下面过马路，它不想撞到这个人。”。

不幸的是，这两种范式都不能提供一个适合模拟人类推理过程的代理任务，人类在考虑多个物体时会进行多次推理。因此，在这篇论文中，作者提出了一种新的任务，并相应地提供了相应的数据集和 Baseline 模型架构（图1）。

picture.image

任务：图视觉问答（GVQA）涉及将推理形式化为一系列问题-答案对（QA）的有序图。与为AD设计的VQA任务相比，GVQA的关键区别在于QA之间存在逻辑依赖关系，这些关系可以用于指导回答过程。GVQA还涵盖了关于行为和运动规划的问题，并具有专门度量的指标（详情见第2节）。

数据集 ：DriveLM-nuScenes和DriveLM-CARLA包含标注好的QA，这些QA以图的形式将图像与驾驶行为通过逻辑推理联系起来。与现有的基准相比，它们为每个帧提供了更多的文本标注（图2和表1）。作者将这些训练数据集与具有挑战性的测试数据集配对，以评估零样本泛化。

模型：DriveLM-Agent采用了一种轨迹分词器，可以应用于任何通用VLM，并结合了一个图提示方案，将逻辑依赖关系作为VLMs的上下文输入。结果是一种简单而优雅的方法，可以有效地重用VLMs来实现端到端的自动驾驶。

本文的实验结果令人鼓舞。作者发现，在DriveLM上进行的GVQA是一个具有挑战性的任务，现有方法在该任务上的得分中等，可能需要更好的逻辑依赖建模才能实现强大的QA性能。然而，即使如此，DriveLM-Agent在开放环规划设置中测试时，已经表现出了与最先进的特定于驾驶的模型竞争力，尽管它的任务无关和通用架构。

此外，采用图结构可以提高零样本泛化，使DriveLM-Agent在仅在nuScenes数据上进行训练后，能够在部署在Waymo数据集上时正确处理在训练或部署期间未见过的物体。从这些结果中，作者认为改进GVQA具有巨大的潜力，可以构建具有强大泛化能力的自动驾驶代理。

2 DriveLM: Task, Data, Metrics

人类驾驶员通常将他们的决策过程分解为不同的阶段，这些阶段遵循逻辑 progression，涵盖了对关键物体的识别和定位、它们可能的未来行动和交互以及基于所有这些信息的自我规划。这启发作者提出了GVQA作为DriveLM的关键要素，作为模拟人类推理过程的合适代理任务。

DriveLM-Task: GVQA

作者将图像帧中的所有问题-答案对（QA）对组织成图结构，用表示。其中，表示顶点集合，每个顶点表示一个与场景中的一个或多个关键物体相关的 QA 对。GVQA 与普通 VQA 的主要区别在于，GVQA 中的 QA 对具有逻辑依赖关系，作者将这些关系表示为顶点之间的边。是一个有向边集合，其中每个边连接父 QA 和子 QA。

作者通过将两个维度合并来构建边集：物体 Level 和任务 Level 。在物体 Level 上，作者构建逻辑边来表示不同目标之间的交互影响。例如，轿车计划 QA 节点受到图1（中心）中行人的感知 QA 节点的影响。在任务 Level 上，作者建立逻辑边来捕获不同推理阶段的逻辑链：

感知（）：在当前场景中识别、描述和定位关键物体。

预测（）：根据感知结果估计关键物体的可能行动/交互。

规划（）：自动驾驶车辆可能的 safe 行动。

行为（）：对驾驶决策进行分类。

运动（）：自动驾驶车辆未来轨迹的航点。

感知（）、预测（）和规划（）的概念类似于端到端自动驾驶（），而运动和行为的概念基于自动驾驶车辆的 future trajectory。

具体而言，作者定义运动（）为自动驾驶车辆的未来轨迹，它是一个具有个点的集合，每个点的坐标在鸟瞰图（BEV）中表示，称为。每个点是未来位置和当前位置之间的偏移量，通过一个固定的时间间隔计算。然后，在每个时间间隔中，和的距离计算如下：

其中，和，对于。行为表示的目标是从到的接口。为了获得行为表示，作者将和的平均值映射到预定义的bin中，其中每个bin对应于速度或转向中的一个类别。这些分别表示为和。

在本工作中，作者考虑了5个bin：

其中，下标表示强度。对于一条轨迹，其行为类别由速度和转向类别组成，表示为。虽然作者使用了一个简单的定义来研究使用VLMs进行驾驶，但作者注意到作者的公式支持将更抽象的行为（例如变道或超车）纳入其中。

DriveLM-Data

为了提供在第2.1节中定义的图结构中具有全面性和准确性的 QA，作者引入了DriveLM-nuScenes和DriveLM-CARLA。由于nuScenes和CARLA之间存在显著的差异，这些数据集的收集方法和统计信息不同。

DriveLM-nuScenes ：将标注过程分为三个步骤：从视频中选择关键帧，在这些关键帧中选择关键物体，然后对这些关键物体的帧级 QA进行标注。感知 QA 的一部分来自 nuScenes 和 OpenLane-V2 的真实地面数据，而其余的 QA 是手工标注的。由于在 DriveLM-nuScenes 中手动标注了大部分数据，因此质量对于这部分数据尤为重要。

在标注时，作者进行了多次严格的质量检查。在每个轮次中，作者将数据分为不同的批，并检查每个批中的10%数据的质量。如果这个10%内手工标注数据的质量不符合预期，作者会要求标注员重新标记这个批中的所有数据。

picture.image

如图 2（左）所示，作者展示了 QA 标注流程的示例，其中所有问题都按照作者的标准进行质量检查。因此，DriveLM-nuScenes 突出于以前提出的数据集，具有更大的规模、更全面性和更复杂的结构（见表 1）。这些 QA 涵盖了驾驶过程的各个方面，从感知和预测到规划，提供了对自动驾驶场景的全面理解，如图 2（右）所示。

DriveLM-CARLA ：作者使用 CARLA 0.9.14 在 Leaderboard 2.0 框架中收集数据，使用基于规则的专家。作者在城市、住宅区和农村地区设置一系列路线，并在这些路线上的专家上执行。在这个过程中，作者收集必要的传感器数据，根据物体和场景的私有信息生成相关的 QA，并将一系列 QA 按照逻辑关系连接成图。作者以 20 FPS 的速度生成数据和标签。这个过程具有直白的可扩展性，因为作者只需要在 CARLA 中定义路线和场景设置，后续步骤可以自动执行。基于规则的标注 Pipeline 如图 2（左）所示。包括 3.7M QA，作者的 DriveLM-CARLA 是现有基准中在总文本内容方面最大的驾驶语言基准，如表 1 所示。

picture.image

DriveLM-Metrics

为了评估 GVQA，DriveLM-Metrics 包括三个组成部分来评估运动（）、行为（）和。为了衡量运动阶段的性能，作者使用 nuScenes 和 Waymo 基准的标准指标：平均和最终位移误差（ADE, FDE），以及预测轨迹上的碰撞率（碰撞率），遵循 UniAD。作者通过分类准确率来评估行为预测，并将其总体准确率分解为转向和速度组件。最后，作者使用两个指标来衡量性能。

SPICE 是一种常用的 VQA 和图像描述子指标，它计算预测文本与真实文本的结构相似度，同时忽略语义意义。同时，作者使用 GPT 分数来衡量答案的语义对齐，补充 SPICE 指标。

具体而言，将问题、真实答案、预测答案和询问答案的提示发送到 ChatGPT-3.5 [50, 51]，解析返回的文本以获得分数，其中更高的分数表示更好的语义准确性。

3 DriveLM-Agent: A GVQA Baseline

在本节中，作者提出 DriveLM-Agent，这是一种用于 GVQA 任务的基准方法，详细描述在第 2 节中。DriveLM-Agent 建立在通用的视觉语言模型上，因此可以利用预训练期间获取的潜在知识。作者的总体目标是通过对 VQA 的不同阶段（）将图像翻译为所需的自车运动（）。为此，作者选择 BLIP-2 作为作者的基础 VLM，因为它在架构上的简单性和微调的灵活性，但所提出的方法可以无歧视地应用于其他 VLMs。

picture.image

如图 3 所示，DriveLM-Agent 可以分为几个阶段：

，即感知、预测、规划，作为理解场景并推理其结构的底层。
行为阶段将中的关键信息聚合为语言空间中所需的驾驶动作描述。
最后，运动阶段将行为转换为可执行的驾驶轨迹。

为了实现每个链接 QA 之间的逻辑依赖关系，作者提出使用 GVQA 图中连接节点之间的上下文。作者在以下部分对这个想法进行扩展。

Prompting with Context

直接将图像翻译为运动是非常具有挑战性的。受人类倾向于进行多步推理过程的启发，作者提出了一种类似于策略的 VLM 基础驾驶。通过这样做，可以方便地检索 LLMs 中的知识，并提高可解释性。

请注意，推理时图的大小和结构是算法的可调整设计选择，可以根据任务或可用的计算预算进行适应。作者利用这个属性在所有可用 QA 上进行训练，但在特定的子图中进行推理，其中问题使用启发式方法进行采样。有关更多信息，请参阅补充材料。

Context Aggregation through Behavior

驾驶涵盖了许多潜在的情况，需要适当的反应。然而，尽管这些情境的多样性，几乎所有事件都涉及可以离散化为一系列行为的决策。例如，适当地应用刹车可以解决各种情况，如红灯、停止标志或车辆前方存在物体。作者行为阶段的重点是生成这样的行为：用自然语言表述车辆的预期运动。

在作者的方法中，行为是观察到的未来车辆运动的文本描述，也可以表示为类别，其中转向和速度（如第 2.1 节所述）被分解成组件。这种描述有效地作为反思步骤，其中模型从图中提取和总结所有关键信息。因此，作者提出使用所有可能的上下文来源来预测行为，即所有中的 QA。作者实证观察到具有反思行为步骤对于使用 VLMs 驾驶至关重要，而作者选择使用所有可能的上下文来源的方法优于只使用的简单方法。

Trajectory Tokenization for Motion

由于使用通用的 VLMs 输出细粒度的数值结果是非平凡的，RT-2 处理基于专用轨迹分词模块的机器人动作。作者使用这种方法使 DriveLM-Agent 能够将图像和行为描述作为输入，并输出轨迹。

具体而言，作者将路点坐标的 256 个 bin 经验地基于训练集轨迹的统计数据进行划分。作者在重新定义的 BLIP-2 语言分词器中定义每个 bin 的 token，并在这种重新定义的词汇上微调 VLM。

为了简单起见，作者使用相同的 VLM 架构（BLIP-2）来执行此任务，但具有独立的 LoRA 权重，并在此训练集的 QA 上进行训练。因此，可以使用轻量级 LLM 或接受命令作为输入的特定于驾驶的架构来实现此功能。

4 Experiments

在本节中，作者提出了作者的实验结果，旨在回答以下研究问题：

如何有效地将 VLMs 重新用于端到端自动驾驶？
当评估时，驾驶 VLMs 可以在未见过的传感器设置和训练期间未见到的物体上进行泛化吗？
通过 GVQA，VLMs 可以在多大程度上执行感知、预测和规划？

配置。 作者现在简要概述作者实验中使用的两个设置的关键实现细节（补充材料中提供了更多细节）。所有微调都使用 LoRA。在 DriveLM-nuScenes 上，作者将 BLIP-2 微调到训练分量的 10 个 epoch 中。使用每个 GPU 的批量大小为 2，整个训练过程大约需要 7 小时，使用 8 个 V100 GPU。作者在 DriveLM-CARLA 的 1/20 临时子采样训练分量上训练 BLIP-2，共 6 个 epoch，这需要 6 小时，在 4 个 A100 GPU 上进行。

VLMs for End-to-End Driving

在作者的第一个实验中，作者旨在评估 VLMs 在 DriveLM-nuScenes 上进行开环规划的能力。特别是，作者研究了行为和运动阶段提供的上下文对模型性能的影响。给定传感器数据（在 VLM 方法的情况下，是一个文本输入），模型需要预测自动驾驶车辆的未来轨迹，以 Waypoint 的形式表示。

基准。 作为评估任务难度的参考，作者提供一个简单的 命令均值 基准。nuScenes 中的每个帧都与三个命令之一相关联，分别是 '向左转'、'向右转' 或 '直行'。作者输出与当前测试帧命令匹配的所有轨迹在训练集中平均值的均值。

此外，作者将作者的方法与 nuScenes 上的当前最先进的 UniAD 进行比较。除了作者发布的预训练权重，它需要视频输入，作者还训练了一个单帧版本 ('UniAD-Single ')，以与作者的单帧 VLMs 进行公平比较。最后，BLIP-RT-2 表示 BLIP-2 在 DriveLM-Data 上进行微调，并使用第 3.3 节中描述的轨迹分词方案，仅针对运动任务。这可以作为使用与 DriveLM-Agent 相同网络架构但没有任何上下文输入或 VQA 训练数据的性能指标。

DriveLM-Agent：作者考虑了三个包含作者在步骤中提出的更改的 DriveLM-Agent 变体：

一个两阶段的版本，预测行为然后预测运动（如第 2.1 节所述），但是行为预测没有上下文（'None'）；
一个 '链' 版本，构建图，但只将最终节点（）传递到行为阶段；
完整的模型（'Graph'），使用来自的所有 QA 作为行为 B 的上下文。

请注意，这里的 DriveLM-Agent 指的是基于 GVQA 的 DriveLM-Agent 模型，而非基于命令行输入的 DriveLM-Agent 模型。

结果。 作者将上述方法的结果列在表 2 中。在 Baseline 中，BLIP-RT-2 无法匹配 UniAD-Single（尽管两种方法相对于 Command Mean 表现良好）。这表明没有推理的一阶段方法无法与 nuScenes 上的先前最先进状态相比。然而，提出的 DriveLM-Agent，作为运动的中间步骤预测行为，在性能上提供了显著提升，超过了 UniAD-Single。这表明，通过适当的提示，VLMs 可以表现出惊人的竞争力，可以用于端到端驾驶。

有趣的是，在表 2 的实验设置中，不涉及泛化，DriveLM-Agent 的链和图版本相对于无上下文没有任何优势。此外，单帧 VLMs 不如基于特权的视频 UniAD 模型，表明需要视频输入的 VLMs 可能对于这个任务是必要的。

picture.image

Generalization Across Sensor Configurations

作为评估 Section 4.1 中的模型更为具有挑战性的设置，作者现将它们在没有任何进一步训练的情况下应用到一个新的领域：Waymo 数据集。Waymo 的传感器设置不包括后视摄像头，因此作者从 UniAD-Single 中删除此输入。VLM 方法仅使用前视图，不需要任何适应。

结果。 如表 3 所示，UniAD-Single 无法很好地处理新的传感器配置，性能下降至 BLIP-RT-2 以下。DriveLM-Agent 的多阶段方法提供了进一步的改进。特别是，速度预测的准确率从无上下文时的上升到完整图时的。另一方面，链式方法提供的有用信息不足，速度准确率仅。

picture.image

作者在图 4 中展示了 DriveLM-Agent 在 nuScenes 和 Waymo 上的定性结果。模型通常提供直观的答案，有几个例外（例如，在 DriveLM-nuScenes 上进行规划，在 Waymo 上进行感知）。这表明 GVQA 对交互式驾驶系统具有实用性。此外，在 Waymo 上，尽管感知不完全，作者仍然可以看到有意义的前景预测和规划答案。有关更多可视化的信息，请参阅补充材料。

Generalization to Unseen Objects

接下来，作者评估零样本泛化到新物体的能力。DriveLM-CARLA 在训练或验证分片中没有行人。现在，作者生成一个新的测试集，称为 DriveLM-CARLA-ped，其中只有场景中存在行人的帧。正确的行为是停车让行人通过。

基准。 在这个实验中将 DriveLM-Agent 与 TransFuser++ 进行比较，后者是 CARLA 的最先进方法。与 DriveLM-Agent 相比，它使用了更大的输入图像，额外的激光雷达传感器，以及与驾驶相关的特定标注（深度、语义、3D 边界框、HD 地图等）。然而，由于这些任务特定的输入和输出，TransFuser++ 只能在 DriveLM-CARLA 基础数据集上进行训练，并且无法在训练期间合并通用计算机视觉数据，这使得泛化更加困难。

DriveLM-Agent。 利用 VLM 的更通用架构，作者在 DriveLM-Agent 的训练中包括 COCO 和 GQA 的样本，以及 DriveLM-CARLA。作者比较了几个版本：

在推理过程中添加一个新的问题，'Is there a person crossing the road?' ('+ 行人问答')。
作为上限，作者在推理过程中直接输入 GT 图到模型，而不是模型的预测。有关更多信息，请参阅补充材料。

结果。 作者将在表 4 中展示作者的发现。作者观察到，与 DriveLM-CARLA 相比，TransFuser++ 在 DriveLM-CARLA-ped 上表现挣扎，准确率从下降到。DriveLM-Agent 的表现也类似，从下降到。然而，添加行人问答在泛化设置上显著提升了性能，达到，尽管在常规场景上的准确率略有降低。这主要是由于 VLM 无法正确检测所有行人。这表明，最近发布的 VLMs的大型性能提升可以支持在驾驶领域更好的泛化能力。

此外，当在特权设置中提供行人问答，假设可以访问图中每个问题的完美上下文时，DriveLM-Agent 在带有行人的帧上实现了近完美的分数 ()。请注意，DriveLM-CARLA-ped 只包含过马路的人，因此所有模型在转向类别上均获得 100% 的准确率（始终是直行）。

picture.image DriveLM.pdf-page-7

Performance for via GVQA

在作者的最终实验中，作者建立了 GVQA 的阶段的基准结果，研究上下文的影响。作者使用了两个 VLM，一个是现成的 BLIP-2 模型（未在 DriveLM 上进行微调），以及作者提出的 DriveLM-Agent。

基准。 作者考虑了无上下文（'None'）的下限，这对应着与标准 VQA 相同的训练和评估设置（图像和问题输入，答案输出）。作为每个架构的上限，作者在测试时将 GT （'GT'）上下文输入到模型，而不是其自身的先前预测。

结果。 作者的结果总结在表 5 中。首先，作者观察到 DriveLM-nuScenes 对两个模型都更具挑战性，这在所有上下文设置下的 DriveLM-CARLA 得分较低可以说明。这可能是由于 DriveLM-nuScenes 获得的 human 答案的多样性更高，而 CARLA 是基于规则生成的。在两个数据集上，作者观察到 DriveLM-Agent，该模型在 DriveLM 上进行微调，显著优于在零样本方式下应用的 BLIP-2。作者还观察到 SPICE 和 GPT 分数指标的不一致，特别是在 BLIP-2 上。

有趣的是，在 DriveLM-CARLA 上，带有 GT 上下文的 BLIP-2 在 SPICE 上超过 25 分，同时与无上下文版本相比 GPT 分数略有下降。这表明当前的 VLMs 能够模拟提供的上下文句结构和风格，但在 GVQA 中的逻辑推理方面面临挑战。总的来说，作者得出结论，DriveLM-Agent 在没有上下文的情况下可以获得合理的 P1−3 问题回答基准性能。然而，要更好地利用 GVQA 中的逻辑依赖关系，可能需要专业架构或提示方案，而不仅仅是简单的拼接。

5 Related Work

通用性在自动驾驶中的局限性。 自动驾驶系统对“长尾”情况的泛化能力不足，给安全性带来了重大问题。为了解决这个问题，以前的研究主要采用数据驱动的方法。例如，TrafficSim 通过模拟收集更多安全关键情况的数据。一个新兴的方向是利用语义信息来监督检测未见或异常物体。这些努力缓解了泛化不足的问题。然而，目前自动驾驶系统的零样本性能仍然不满意。在本论文中，作者提出了一个新方法，以实现更好的泛化：使用图问答学习逻辑推理。

具有身体的计划与 LLM。 最近的工作努力利用 LLMs强大的推理和泛化能力，用于具有身体的 AI 系统。PaLM-E 训练了一个用于各种具有身体任务的 LLM，包括顺序机器人操作规划。CaP 提供了一种机器人中心的语言模型生成程序的执行方式，该程序在实际系统上执行。RT-2 将机器人动作表示为语言标记，训练视觉语言模型以输出机器人策略。这些方法展示了 LLM 在具有身体规划任务中的能力，激发作者将它们应用于解决 AD 中的当前泛化缺陷，该领域尚未得到充分探索。

基于语言的驾驶。 几种同时进行的方法试图将多模态输入集成到 LLMs 中，用于 AD 任务。具体来说，GPT-Driver 和 LLM-Driver 将感知的场景状态编码为提示，并依赖 LLMs 形成合理的计划。DriveGPT4 将原始传感器数据投影为标记，并使用 LLMs 进行端到端控制信号和解释的预测。

尽管这些初步尝试，但在 AD 中的泛化问题仍然有待挖掘。作者的工作将 VLMs 与 DriveLM 中图结构的问题对训练相结合，使作者能够在零样本端到端规划中显示优势，而这些同时进行的研究并未展示这些优势。

6 Discussion

尽管 DriveLM 表现出良好的泛化能力，但这项工作的局限性也引起了关注。

特定的驾驶输入。 DriveLM-Agent 直接应用 VLM 的视觉模块，以低分辨率的前视图像作为输入。目前，像 LiDAR 这样的特定驾驶传感器无法处理。这导致作者的模型在时间信息和 360 度场景理解方面存在缺陷。将 DriveLM-Agent 扩展到观察多个视图的图像是轻而易举的，因为图的表示允许不同的输入帧对应不同的节点。作者将留待未来的工作来探索多视图和多帧输入的选项。

闭环规划。 作者的方法目前是在开环方案下进行评估的。在这种设置中，将自车的状态作为输入可以显著提高指标，但它的有效性可能无法很好地转化为实际场景，因此作者只考虑那些不这样做的方法。将作者的工作扩展到具有可承受的训练时间和计算成本的闭环设置是一个有前途的方向，值得作者去探索。使用 CARLA，作者为闭环规划与 VLMs 之间的更多研究提供了有前途的基础。

效率限制。 继承了 LLM 的缺点，作者的模型受到长推理时间的限制，特别是在需要根据图结构进行多次预测时（比 UniAD 慢约 $4 倍）。这可能影响到实际实现。探索如何进行模型量化、蒸馏和剪枝是未来的研究方向。

结论。 作者展示了如何将 VLMs 作为具有改进的泛化能力的端到端自动驾驶代理。为此，作者提出了图问答任务以及新的数据集和指标。配备了这些工具，作者构建了一个简单的基准方法，并获得了有前途的结果。作者相信，这种方法可以通过使自动驾驶系统直接受益于更好的 VLMs 来加速该领域的发展。

更广泛的影响。 作者的目标是使自动驾驶取得进展，如果成功，它将产生深远的影响。作者认识到，通过将 VLMs 引入这个领域，作者接受其伦理含义，例如幻觉和高资源使用。然而，通过改善人类和自动驾驶系统之间的交互性，作者可以建立对技术的信心。这可能加速其接受，并在长期内实现更安全的交通。

Appendix

A Motivating Questions

Q1. 在什么情况下，作者可能期待 VLMs 在端到端自主驾驶中超越传统方法？

自主驾驶的一个关键挑战是泛化到长尾场景，这些场景很少遇到但具有关键重要性。考虑到大规模预训练的 VLMs，它们对世界的知识获取以及 LLM 的推理能力，人们预计使用 VLMs 进行规划的效果会更好，特别是在驾驶场景中不常见但预训练期间在无关场景中遇到的情况。

Q2. 为什么将通用 VLMs 调整到驾驶领域，而不是为驾驶特定模型添加语言输入？

通用 VLMs 从互联网上提取的数十亿规模的数据进行预训练，这些数据可用于视觉语言任务，并可以适应驾驶领域，通过在小型自动驾驶数据集（如 DriveLM）上进行微调。相反，驾驶特定模型仅在小型自动驾驶数据集上进行预训练，将来自自动驾驶领域外（即外部数据源）的语言输入添加到这些模型中是非常复杂的。然而，结合 VLMs 和驾驶特定模型的优势进行探索是一个有趣的方向。

Q3. 开放环规划评估能否提供有意义的结果？

在进行开放环评估时，将自我历史作为规划模块的输入信号会防止公平的比较，因为这种信号单独就足以在现有基准测试上实现低误差。DriveLM 通过评估意图发生变化的特定关键帧来解决这个问题，此时自我历史并不强烈地预示未来的行为或运动。此外，作者在分析中考虑了一些不向规划模块输入自我历史的 Baseline 。最后，作者引入 DriveLM-CARLA 来展示未来的闭环规划结果。

Q4. 为什么在 CARLA 上目前还没有闭环规划结果？

按照 CARLA 的要求，在 20 FPS 下运行 4B 参数模型需要更多的工程努力。这可以通过在 LLM 推理中使用蒸馏、量化和缓存技术来解决。另一种方法是，在 20 FPS 下仅执行 DriveLM-Agent 的最终运动阶段，而其他 GVQA 阶段以较低的帧率执行。

Q5. DriveLM-Agent 是否足够高效，可以应用于实际自动驾驶？

作者在表格 6 中评论了 DriveLM-Agent 的运行时间。如果没有优化，该方法比 UniAD 慢大约一个数量级。然而，通过为 CARLA 上的闭环结果提出的优化（见 Q4 ），VLMs 在驾驶领域的实际应用应该是有可能的。

Q6. 为什么 VQA 更适合用于训练互联网规模的模型（如生成模型），以支持自动驾驶的下游应用？

驾驶中的感知和规划都需要推理，并涉及零样本泛化。VLMs 可能具有从 LLMs 继承的推理能力，使得 VQA 成为将网络规模训练的益处引入自动驾驶的 promising 方向。

Q7. 今天的 VLMs 是否像 LLMs 一样理解并推理关于视觉世界的知识？

这一点尚不清楚，但值得探索，因为 VLMs 采用一种基于数据驱动的泛化方式，这在多次实践中被证明是成功的。

Q8. 为什么提出的图推理方案在 VQA 中没有提供显著的改进？

可能是因为简单的提示方案、相对较小的基础 VLMs、数据集中的逻辑依赖不足（或这些因素的组合）导致了 VQA 中缺乏明显的改进。DriveLM-CARLA 提供了一个平台来仔细研究这些因素，并指导未来 GVQA 数据集的标注。

Appendix B DriveLM-nuScenes

在本节中，作者介绍了 DriveLM-nuScenes 的详细信息，包括数据集组成、数据收集方法和统计数据。

Dataset Composition

DriveLM-nuScenes 包括 一个包含 4072 个帧的训练集和一个包含 799 个帧的验证集 ，这些帧包括 nuScenes 数据集中的多视图图像中的场景级描述和帧级问答，同时带有 2D 边界框。场景级描述划分了整个视频片段中 ego 车辆的行为。帧级问答涵盖了三个不同的类别：感知、预测和规划。

Perception 涉及与整个帧的详细检查相关的 Query 。除了这个问题集中的几个手动标注的问题之外，作者还设计提示来生成关于场景中物体观察面的疑问，利用 nuScenes 和 OpenLane-V2 的 GT 值。

Prediction 包括一系列关于当前帧中关键物体和 ego 车辆未来状态预测以及预测背后的推理过程的 Query 。由于预测复杂且具有挑战性，作者手动标注了答案。

Planning 包括与当前帧中 ego 车辆后续行动计划相关的 Query 。由于 "Planning" 与 "prediction" 一样具有挑战性，作者设计了推理过程的提示，并手动标注了问题的答案。

对于问题中提到的关键物体，作者将其编码为 c标签 ，格式为<，，，>，其中是标识符，表示物体的中心点位于哪个相机中，，分别表示物体在相应相机坐标系中的水平坐标和垂直坐标。作者还在每个关键帧中提供一个字典，记录关于关键物体的一些基本信息，如边界框的大小、类别、运动状态和视觉描述。数据组织概述如图 5 所示。

picture.image

Collection Methodology

在标注过程中，作者雇佣有驾驶经验的人进行标记任务。作者为标注员提供来自 nuScenes 六个摄像头的拼接结果作为源数据。如图 6（左）所示，作者将标注过程分为三个步骤：从视频中选择关键帧，在这些关键帧中选择关键物体，然后对这些关键帧中的帧级问答进行标注。接下来，进行多次质量检查以确保数据的可靠性，并按照如图 6（右）所示的过程对合格数据进行后处理。下面将介绍这个 Pipeline 的具体细节。

picture.image

在这个过程中，作者要求标注员观看整个视频剪辑，以找出富含场景信息和可能预示未来状态变化的 key 帧。同时，标注员被指示在视频剪辑中标注 ego 车辆的行为。这个片段作为场景级描述的基础。

在这个标注步骤中，作者指示标注员在关键帧中识别与 ego 车辆驾驶相关的物体，称为关键物体。为了确保准确性，作者提供了基于 nuScenes GT 类别的预标注边界框。标注员还有权将认为重要的不在 GT 类别中的物体指定为关键物体。

在 QA 标签过程中，作者有两组问题，事实问题和开放式问题。对于事实问题，作者使用基于规则的方法生成答案。对于开放式问题，作者指示标注员手动标注精心设计的问题。对于大多数手动标注的问题，作者提供了选项。在某些情况下，为了确保灵活性，作者包括“其他 - 填写空白”的答案选择选项。作者还将自由形式问题集成到标注过程中，允许标注员针对当前帧生成自己的问题。

质量检查 。作者重视数据的质量。除了在每个标注步骤中建立明确的准则并实施自主检查策略外，作者还在每个标注步骤中进行严格的手动质量检查。作者将最终数据组织成批次，每个批次包含 8 个视频剪辑、场景级描述、从 8 个视频剪辑中选择的 8 个关键帧以及每个关键帧对应的 QA 对。作者为质量检查员提供明确的准则，指导他们根据这些准则评估数据的适用性。对于手动标注的数据，如果手动画的准确性低于预期，作者会收集遇到的反馈问题，并请求标注员重新标注整个批次。对于来自真实数据的生成，作者指示质量检查员手动调整不一致或不合理的 QA 对。

后处理 。由于作者的标注员是中文使用者，在获得标注数据后需要将其翻译成英语。最初，作者使用词汇建立中文和英语之间的映射。对于无法成功映射的文本，作者使用 GPT-3.5 进行翻译，并对 GPT 输出的结果进行手动检查和更正。作者还提供了一个由 GPT-3.5 增强的版本，使用表 7 中的提示。

picture.image

Statistics and Facts

在这个部分，作者分别在任务 Level 和物体 Level 对 DriveLM-nuScenes QA 类别进行了分布分析。此外，对于任务 Level ，作者提供了所有符合这一分类标准的 QA 的模板。结果表明，作者的 QA 类别丰富多样，涵盖了自动驾驶的各个方面。此外，丰富的逻辑关系足以构建一个图形结构的 QA。

**任务 Level **。作者的 DriveLM-nuScenes 组织了一个涵盖自动驾驶各种方面的基准，连接了整个人类驾驶逻辑的所有阶段。为了更深入地了解这一点，作者在图 7 中呈现了任务 Level 的详细 QA 类型分布。为了更好地理解，作者还提供了 P3 阶段的所有 QA 模板示例，如表 8 所示。

picture.image

**物体 Level **。由于作者的 DriveLM-nuScenes 中的 QA 都与关键物体有关，作者在物体 Level 也进行了一些统计。图 8（左）显示了作者的关键物体类型的分布。鉴于与交通元素相关的交通问题与其他类别的问题有显著差异，作者对与交通元素相关的 QA 类型和剩余类别进行了单独的统计。结果如图 8（右）所示。

picture.image

Appendix C DriveLM-CARLA

在这个部分，作者介绍了 DriveLM-CARLA 的详细信息，包括数据集组成和收集方法。

Dataset Composition

DriveLM-CARLA 是由自动生成的帧级问题-答案对组成，这些对以互连图的形式结构化。图 9 显示了图结构的示例。在当前版本中，数据集包括关于道路布局、停止标志、交通信号和车辆的问题。在未来的版本中，数据集可以扩展到更多类别，如静态物体、天气、其他标志等。

picture.image

使用 CARLA 驾驶模拟器进行数据生成过程，允许进行可扩展的标注和数据，无需手动参与。此外，该数据集支持 CARLA 各种传感器输出，包括语义分割、深度图、激光雷达等，可以用于训练不同网络架构。图中的每个问题都设计为有助于情境推理，这对于回答后续问题可能很有帮助。与 DriveLM-nuScenes 一样，每个问题可以归类为感知、预测或规划。对于每个 QA 对，除了对应的问题和答案，作者还保存了目标的 ID，如果 QA 对关于目标，这个 ID 是恒定的，可以实现目标的跟踪和时间推理。此外，图中的问题和答案之间的关系也被记录下来，以便在未来的研究中有效地遍历图。

Collection Methodology

作者使用了 CARLA 团队提供的总共 90 条训练路线，总长 780.6 公里，以及 20 条评估路线，总长 247.6 公里。每条路线都包含多个驾驶场景。作者将这些路线分割成较短的部分，长度约为 200 米，并过滤掉开始和结束位置相同的路线。在训练阶段，作者排除了所有预定义场景来测试泛化能力，因为专家是为 Leaderboard 1.0 设计的，无法解决大多数新场景。作者使用行人场景来评估 DriveLM-Agent 的泛化能力。

Leaderboard 2.0 中的交通管理器在 ego 车辆周围初始化随机背景交通，全部由 'car' 实体组成。为了使数据集更加多样化，作者引入了其他车辆类别，包括 'trucks'，'vans'，'bicycles' 和 'motorcycles'。此外，作者为每个训练和评估路线实现了随机的天气配置，以模拟真实的驾驶条件。然而，由于某些地图区域的不充足照明，夜间设置被排除在作者的研究中。低光条件会严重影响自动标注过程的正确性，因为很难在图像中获取某些物体的可见性信息。

在这个部分，作者介绍了如何使用基于规则的专家从 Transfer++ [30] 中集成，并对其进行稍微修改，使其在 CARLA 模拟器的最新版本（版本 0.9.14）中运行。专家遵循提供的路点，通常为道路的中心线，以预定义的目标速度驾驶。在每个时间步长中，专家评估环境中的潜在危险，这些危险可能阻碍安全驾驶，包括交通信号（如红绿灯和停止标志）以及动态障碍（如行人穿越道路）和可能造成碰撞的车辆。一旦识别到任何这样的危险，专家就会开始刹车，以确保安全。随着 CARLA 模拟器版本的变化，车辆动力学发生了变化。这些变化需要微调 PID 控制器，该控制器负责车辆的速度和转向控制。调整参数的目的是减少在刹车和快速转弯时特别明显的不稳定行为。

作者在每条路线上执行专家，并收集了一个全面的传感器数据集。传感器数据包括：RGB 图像、激光雷达点云、语义分割图像、深度图

鸟瞰视图（BEV）语义分割；

尽管 DriveLM-Agent 仅使用 RGB 图像，但重新训练 TransFuser++ 需要额外的数据以支持辅助任务。此外，作者从模拟器中提取有关场景中静态和动态物体状态的 privileged 信息，如下所示：

ego 车辆 ：三维边界框，速度，刹车，id

其他车辆 ：三维边界框，内部激光雷达点数，与 ego 车辆的距离，速度，转向，油门，刹车，id，颜色，车辆类型，车轮数量，交通灯状态，行驶道路和车道信息（即车辆在哪个道路和车道上行驶），是否在交叉口，与下一个交叉口之间的距离，下一个高级命令。

行人：三维边界框，内部激光雷达点数，性别，年龄，与 ego 车辆的距离，速度，id，车道信息

交通信号灯 ：三维边界框，与 ego 车辆的距离，状态，对 ego 车辆的影响

停止标志 ：三维边界框，与 ego 车辆的距离，对 ego 车辆的影响

静态车辆（停车车辆） ：三维边界框，车道信息

地标（例如速度标志） ：三维边界框，与 ego 车辆的距离，id，文本，值

天气：天气参数

语言标签。 根据作者从模拟器中提取的信息，作者使用手工制作的句子模板创建问题和答案。为了增加语言多样性并防止过度拟合到这些句子结构，这些句子可以进一步与当前最先进的语言模型（如 GPT-4）结合。然而，在本文中，作者使用的是没有经过增强的版本的数据集。

Appendix D DriveLM-Metrics

在这个部分，作者详细介绍了 DriveLM-Metrics。DriveLM-Metrics 可以广泛分为三个部分： VQA 指标，行为任务指标和运动任务指标。

VQA Metrics

作者使用常见的 VQA 指标评估的性能，并引入了 GPT 分数 来对 QA 结果进行更全面的语义评估。此外，考虑到作者的 QA 具有图结构，作者提出了 完整性 分数来提供一个全面的评估。

BLEU 衡量生成文本与一个或多个参考文本之间的相似度。它通过比较生成文本中的 n-gram 与参考文本中的 n-gram 来实现，更高的精确度表示更好的匹配。然而，BLEU 分数对语义细微差别和单词顺序的变化不敏感。

ROUGE_L 计算模型输出与参考答案最长时间公共子序列的分数。与 BLEU 指标类似，ROUGE 用于评估生成结果与标准参考之间的匹配 Level ，主要区别在于 ROUGE 基于召回率。

METEOR 考虑精确度、召回率、词干提取、同义词、词干提取和词序，建立模型输出与参考答案之间的对齐，计算它们之间的 1-gram 匹配，然后根据块块应用惩罚，提供更加细腻的评估。

CIDEr 结合了 BLEU 和向量空间模型的元素。其底层概念涉及将每个句子视为文档，计算其 n-gram TF-IDF 向量，并使用余弦相似度测量候选句和参考句之间的语义一致性。CIDEr 捕捉不同长度 n-gram 之间的匹配，并通过 TF-IDF 加权区分各种 n-gram 的重要性。

SPICE 首先使用概率上下文自由语法将文本解析为句法依赖树，然后以规则为基础将依赖树映射到场景图。场景图描述了原始文本中的物体、属性和它们之间的关系，SPICE 分数通过预测和真实场景图的 F 分数计算得出。

GPT 分数 是 ChatGPT 提供的一个指标。传统指标主要评估词级性能，可能无法捕捉语义细微差别，可能导致意外的评估结果。利用 ChatGPT 的强大推理能力，作者使用它来衡量预测质量和得出更合理的分数。ChatGPT 被提示在 0 到 100 之间分配一个数值分数，分数越高表示增强的预测准确性。表 9 显示了 GPT 分数评估的详细提示。

picture.image

完整性 提供了考虑与帧相关的正确回答的 GT 问题数量得分的评分。对于每个 QA，如果预测答案的分数高于阈值，则认为这个 QA 是“正确回答”，是正确的预测，否则认为是错误的预测。然后计算准确性，即正确预测的数量占总预测数量的比例。在作者的设置中，作者使用 SPICE 分数，并设置阈值为 0.5。

Behavior Task Metrics

作者通过分类准确性评估行为预测，并将其总体准确性分解为转向和速度组成部分。

分类准确性 是作者用来评估行为预测任务的指标，包括 _行为准确性、行为速度和行为转向_。

具体来说，ego 车辆未来轨迹的 GT 值是一个包含个坐标的点集，在鸟瞰视图下表示为。每个点表示当前位置到未来位置的偏移量，通过固定间隔时间计算得到。然后，在每个时间间隔，的距离独立计算为：

首先，和的均值被映射到一个预定义的区间，每个区间对应于速度或转向中的一个类别，分别记作和。最后，这个轨迹的速度和转向类别组合成行为类别。作者将这个行为类别与 DriveLM-Agent 输出的行为进行比较，并计算相关的准确性。

Motion Task Metrics

为了衡量运动阶段的性能，作者使用 nuScenes 和 Waymo 基准的标准指标：平均和最终位置误差（ADE，FDE），以及预测轨迹的碰撞率。

ADE 表示平均位置误差，表示在所有预测的时空中，预测轨迹和 GT 轨迹之间的平均 L2 距离。它表示在 1、2 和 3 秒时的误差平均值。

FDE 表示最终位置误差，它衡量在最后一个预测步骤（即第三秒）预测的终点与真实终点之间的欧几里得距离。

碰撞率 考虑了预测轨迹在所有测试帧中与物体碰撞的帧数比例。主论文中表 2 中的报告值是第一秒、第二秒和第三秒的碰撞率平均值。

请注意，ADE、FDE 和碰撞率的计算遵循了 UniAD 中的设置，但不同于 ST-P3。例如，在 FDE 和第三秒的碰撞率方面，UniAD 设置只考虑这个时间步的误差/碰撞率，而 ST-P3 设置将误差/碰撞率视为 0.5、1、1.5、2、2.5、3 秒的平均值。有关详细信息，请参阅 UniAD 仓库讨论。

此外，请注意，在先前的作品中报告的完整的 nuScenes 验证数据集上的错误（在 DriveLM-nuScenes 验证划分中没有直接可比的结果，这是一个具有挑战性的子集，只包括意图变化的帧）。

Appendix E DriveLM-Agent

在这个部分，作者介绍了 DriveLM-Agent 的详细信息，包括图提示方案和轨迹分词过程。

Prompting with Context

在实现方面，DriveLM-Agent 的上下文内容在训练和推理过程中有所不同，遵循了在循环网络中通常采用的教师强制设置。在训练期间，对于帧中的每个边，作者选择子问题。边中的子问题通过添加 GT 父问题作为上下文进行扩展。在训练期间，所有 QA 对都用于训练，包括没有上下文的那些。使用的目标是最小化下一个标记的预测，这是语言模型的标准方法。

在推理期间，模型在多个回合中交互式应用，以获取作为每个子问题输入所需的上下文预测。具体而言，模型按照顺序提示五个阶段的问题：。按照这个顺序，模型只能推理出在前一阶段中得到预测答案的后续阶段的问题。

Trajectory Tokenization Details

为了直接使用用于构建图的语言模型来生成动作序列（即 ego 未来轨迹），作者采用了 RT-2 方法。这个过程包括连续轨迹的离散化和分词。

首先，作者对 nuScenes 数据集中的未来轨迹分布进行分析。为了有效地将连续的坐标空间转换为离散的一组动作，作者将每个坐标轴分成 256 个离散间隔。这种粒度确保了足够的细节水平，同时保持了语言模型可管理的标记数量。

每个离散化 bin 对应语言模型中的一个唯一标记。作者提取词汇中的数字标记的标记 ID。为了确保连贯性和保留表示数值的能力，作者排除了单个数字标记的映射过程。在剩下的数字标记中，选择 256 个标记 ID 来表示轨迹数据。

此外，作者引入了两个专门用于标记轨迹序列开始和结束的标记 - 轨迹开始标记（SOT）和轨迹结束标记（EOT），分别对应于 SOT 和 EOT。这种标记方案使作者能够将复杂的轨迹信息编码为语言模型可以处理的一串标记。使用这种映射词汇，语言模型可以通过输出一系列标记来生成预测的未来轨迹序列，这些标记随后被翻译回坐标空间。

Appendix F Experiments

在这个部分，作者介绍了实验的详细信息，包括主论文中 第 4 节 中每个子部分的实现细节，VQA 部分使用的更多指标，以及计算复杂性方面的更多消融和比较。

Implementation Details

在这里，作者解释了在主论文中 第 4 节 中每个子部分实验中使用的训练和验证设置的实现细节。

微调细节。 作者将学习率设置为 0.0001，没有学习率调度器，随机种子设置为 1234，其他设置遵循 LoRA 的默认配置。对于 BLIP- 模型，作者使用最大序列长度为 400，其他超参数保持与官方的 BLIP-2 实现相同。

实验 4.1 和 4.4 的实现细节。 在训练期间，作者使用所有 QA 作为每帧的输入，其中一部分具有上下文（来自、和的问题）。上下文从 GT 值中提取，遵循循环网络中通常采用的教师强制设置。对于推理，由于场景的变体复杂性，每帧的 QA 数量在数据集中高度不平衡，变化范围超过 260，在 DriveLM-nuScenes 中。为了平衡这种影响，作者在与每个帧相关的 QA 子集上计算 GVQA 分数。

为了提取 QA 子集，作者根据每个阶段通常与该阶段相关联的问题设计了一套 QA 模式。作者确保对于所有作者的验证帧，每个阶段都有至少一个问题与设计模式匹配。在此过程中，除了阶段的问题外，其他阶段的所有问题都有前一个阶段 QA 的上下文，其中答案来自前一步的预测。图 10 和图 11 分别展示了两种特定的图形结构示例。

picture.image

实验 4.2 的实现细节。 模型采用与 4.1 和 4.4 节相同的训练方案进行训练，训练集为 DriveLM-nuScenes 训练集。在推理阶段，由于没有 Waymo 标注（甚至没有问题），作者采用基于规则的方法设计问题。具体而言，作者使用 DriveLM-nuScenes 感知阶段的通用问题作为 Waymo 的起始问题。

然后，作者尝试查找答案中是否有与 DriveLM-nuScenes 标注中匹配的物体，例如 "行人"，"汽车"，"卡车" 等。然后，作者根据这些匹配的物体自动生成问题，作为预测和规划阶段的后续问题。图 12 展示了特定的图形结构示例。

picture.image

实验 4.3 的实现细节。 在 4.3 节中的泛化实验中，作者在图中添加了两个新问题：

（1）场景中是否有一个人？如果答案是肯定的，作者问车辆应该根据穿过公路的行人做什么？如果答案是否定的，作者问自车应该做什么？第二题的答案被附加到最终行为问题的上下文中。三个示例可以在图 13 中找到。

picture.image

Results with More Metrics in VQA

在表 10 中，作者提供了主论文中表 5 的性能在 BLEU-4、METEOR、CIDEr 和 ROUGE-L 下的表现。

picture.image

一个关键观察是，不同的指标反映了性能的不同趋势，这些指标的改进并不一致。这使作者产生了使用 GPT 分数作为 VQA 评估部分主要指标的动机。

picture.image

Ablation on Zero-shot Generalization across Sensor Configurations

在表 11 中，作者提供了主论文中表 3 中零样本泛化 across sensor configurations 部分更多的上下文设置。

picture.image

一个关键观察是行为任务的准确性越高，运动任务的性能越好。在行为任务中增加上下文，准确性的改进主要来源于速度准确性的改善，这最终影响了 FDE 分数。

picture.image

Computational Complexity

在表 6 中，作者比较了 DriveLM-Agent 与 UniAD-Single 的计算复杂性。一个未来的方向将是将视觉标记缓存并批处理不同的问题模式，这可以根本上加快推理时间。

picture.image

Appendix G Qualitative Results

在这个部分，作者展示了实验的定性结果，包括在 DriveLM-nuScenes 上进行的 VQA，在 Waymo 上的传感器数据泛化结果和在 DriveLM-CARLA 上的未见物体泛化结果。

DriveLM-nuScenes

在这个部分，作者展示了 DriveLM-nuScenes 的定性示例。在图 10 中，作者展示了一个详细的 GVQA 推理过程示例，涵盖了 QA 和行为任务。作者将预测答案与 GT 值进行比较，并提供了 SPICE 分数和 GPT 分数。

在这个图中，预测阶段的第二个问题代表了典型的错误。由于输入单帧图像，作者的模型往往难以准确确定物体的正确运动状态。这种判断对于人类来说也是具有挑战性的。此外，在图 11 中，作者展示了额外的定性结果以展示模型的性能。

picture.image

Waymo

在这个部分，作者展示了模型在传感器配置下的泛化能力。图 12 说明了在训练了 DriveLM-nuScenes 的模型在推理 Waymo 上的结果。由于作者在 Waymo 上没有标注数据，问题是由人工定义的，没有提供 GT 值。这些结果展示了作者的模型具有强大的泛化能力。

DriveLM-CARLA

在这个部分，作者提供了 CARLA 数据集的定性示例。

对未见行人场景的泛化能力 。图 13 显示了在未见行人场景的泛化测试集上的生成行为。图 13 的第一个示例说明了 DriveLM-Agent 成功识别行人的情况。它随后推理出适当的行动，这在这种情况下就是停止车辆。行为生成能够解释这个上下文，导致正确的行为模式，即 ego 车辆完全停止。

图 13 的其他两个示例代表了 DriveLM-Agent 在涉及行人的场景中的主要失败模式。图 13 的中间示例展示了模型仍然检测到行人。但是，它无法将检测翻译成正确的行动。图 13 的最后一个示例突显了 DriveLM-Agent 在这种情况下完全忽视行人的局限性。在这样的时候，DriveLM-Agent 会将行人视为不存在，这导致它不执行任何避让或停止动作，这在实际场景中具有很大的风险。

图视觉问答 。本节使用 CARLA 数据集呈现两个使用 DriveLM-Agent 进行的图视觉问答任务以评估其性能的示例（图 14）。作者只显示了评估问题的子集。在第一个示例中，ego 车辆在另一辆车后面行驶。主要任务是跟随道路并按照领先的车辆调整速度。

作者的结果显示，DriveLM-Agent 通过准确识别场景中的所有重要物体展示了出色的场景理解能力。尽管 GT 数据表明 CARLA 模拟器在物体颜色标注方面偶尔存在不准确性，但 DriveLM-Agent 在物体识别方面保持了可靠的表现。此外，模型可以识别前面的车辆，并基于领先的车辆进行推理。

picture.image

第二个示例发生在一个由交通信号灯控制的交叉口。DriveLM-Agent 识别所有物体并能够推理情况。它正确地识别出需要停止的原因不仅仅是交通信号灯，而是因为前方有一辆摩托车。这意味着 DriveLM-Agent 在某些情况下能够优先考虑动态障碍物而不仅仅是交通控制设备。

Appendix H More Related Work

在这个部分，作者补充了主论文中提到的相关工作。

基于图结构的推理。 推理是人类思维的一种基本形式，它允许从一组现有判断中推导出新的判断。许多先前的推理工作都建立在基于图的方法上。XNMs 采用场景图进行可解释和显式推理，并使用结构化知识。KPRN 使用知识图进行推理，并将其应用于推荐系统。GoT [4] 将 LLM 生成的信息模型为任意图，并将 LLM 的推理方法与大脑机制更紧密地联系起来。受到这些成功尝试的启发，作者试图通过一个图来连接自主驾驶的感知、预测和规划阶段，使模型能够掌握推理过程并基于学习的图结构推导未见场景。

用于驾驶的视觉语言基准。 越来越多的视觉语言数据集已经提出用于 AD 系统。NuScenes-QA 和 NuPrompt 通过描述周围物体的位置和状态提供感知信息。BDD-X 通过自然语言描述提供 ego 车辆行动的理由。DRAMA 和 Rank2Tell 识别关键物体并提供相应的驾驶建议。然而，这些数据集主要关注场景级上下文或单个物体。DriveLM 通过使用图结构将物体级和任务级的语言标注组织起来，填补了这一文献空白。

参考

[1]. DriveLM: Driving with Graph Visual Question Answering