ADriver-I | 多模态大模型真实世界开车不稳定？那何不构建一个世界模型先模拟开车？ - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

picture.image

通常，自动驾驶采用模块化设计，将整个堆栈划分为感知、预测、规划和控制部分。尽管这种模块化设计具有可解释性，但往往会引入大量冗余。

最近，多模态大语言模型（MLLM）和扩散技术在理解和生成能力方面展示了其优越性能。在本论文中，作者首先提出了交错视觉-动作对的概念，将视觉特征和控制信号的格式统一起来。

基于视觉-动作对，作者构建了一个基于MLLM和扩散模型的一般世界模型，称为ADriver-I。它将视觉-动作对作为输入，自回归地预测当前帧的控制信号。生成的控制信号以及历史视觉-动作对被进一步用于预测未来帧。通过预测的下一帧，ADriver-I执行进一步的控制信号预测。这样的过程可以无限次重复，ADriver-I实现了由自己创造的世界中的自主驾驶。

在nuScenes和作者的大规模私有数据集上进行了大量的实验。与几个构建的Baseline相比，ADriver-I表现出令人印象的性能。作者希望作者的ADriver-I能为未来的自主驾驶和具身智能提供一些新的见解。

1 Introduction

——未来取决于我们在现在所做的事情。

最近，自动驾驶取得了巨大的进步，得益于在BEV感知和端到端规划方面的重大发展。通常，自动驾驶系统可以分为四个组成部分：感知、预测、规划和控制。

感知模块通常用于检测或跟踪周围的车辆、行人和车道，而预测模块则用于预测动态物体的未来轨迹。根据感知和预测结果，规划器进一步预测了类似于路径点 ego car 的规划位置，控制系统生成相应的低级控制信号。这样的顺序系统采用模块化设计，由于每个模块具有可解释性，因此这种设计听起来是合理的。当事故发生时，找出事故发生的原因相对容易。

与主流自动驾驶系统相比，人类驾驶员主要有两个关键差异。第一个是，人类驾驶员倾向于直接根据捕获的视觉信息采取行动，而不依赖于上述的顺序管道。他们 simply 直接以端到端的方式调整方向盘和油门，而没有引入太多的考虑。此外，人类驾驶员能够预测近期的未来。例如，当作者看到交通信号灯从绿色变为黄色时，作者预测信号灯即将变红，作者需要减速并准备停车。

因此，作者想知道是否可以构建一个系统，直接输出控制信号并预测未来场景，类似于人类驾驶员。

多模态大语言模型（MLLMs）和大型语言模型（LLMs）由于在逻辑推理和泛化能力方面表现出卓越的性能而受到关注。然而，它们主要关注不同指尖程度的图像之间的对话。在本文中，作者构建了一个名为ADriver-I的新系统，旨在统一控制信号预测和未来场景生成。受到MLLMs中交错文档的启发，作者引入了交错视觉-动作对，将视觉特征和相应控制信号的格式统一起来。

控制信号（如转向角和自车速度）可以转换为文本表达式。ADriver-I将历史视觉-动作对和当前视觉Token作为输入，并直接预测当前帧的控制信号。在历史视觉-动作对和预测动作的条件下，视频扩散模型（VDM）被进一步用于预测接下来的帧的景象。这意味着预测的当前动作直接影响未来的场景。

借助于统一的动作预测和未来生成框架，ADriver-I可以在自己生成的无限场景下执行自动驾驶，就像生活在自己的世界一样。考虑到MLLMs的强大泛化能力，ADriver-I系统可以轻松地推广到实际世界。在nuScenes和作者的私有数据集上，ADriver-I展示了令人印象的表现。给定三个历史视觉-动作对，包括当前帧的速度和转向角的L1误差分别为0.072 m/s和0.091 rad。生成的未来四帧的FID和FVD指标分别为5.52和97。

2 Related Works

Multimodal Large Language Models

最近，由于强大的理解和生成能力，大语言模型（LLMs）和多模态大语言模型（MLLMs）引起了广泛关注。MLLMs是建立在LLMs（如LLaMA，Vicuna和GPT）之上的。这些模型可以接收不同模态的输入，如文本、图像和视频。

一些典型的方法，如LaVA，miniGPT4和BLIP-2，使用图像和文本Token作为输入，并训练以实现跨模态理解。MLLMs可以扩展用于视频-文本和音频-文本的理解。MLLMs的发展极大地推动了具身智能和自动驾驶的研究。例如，VIMA利用Mask RCNN提取物体区域。这些物体区域与文本描述一起输入到Transformer架构中，以预测运动动作。

Vox-Poser使用预训练的MLLM和LLM来生成运动规划的价值图，无需额外的训练。结合预训练的PaLM和ViT-22B，PaLM-E可以执行多种任务，如运动规划、桌面操作和图像描述。此外，RT-2提出了机器人控制中的视觉-语言-动作（VLA）模型，并直接输出低级控制信号。作为作者的相关工作，DriveGPT4基于MLLM，将视频和文本作为输入。它可以输出控制信号并提供相应的可解释性。

End-to-end Autonomous Driving

通常，自动驾驶（AD）可以分为感知、预测、规划和控制。大多数最新的端到端自主方法采用编码器-解码器范式，从原始传感器数据中提取信息并预测规划结果。

Transfuser和TCP直接预测规划结果（路径点），而无需构建任何场景表示。其他方法使用各种场景表示来帮助模型在实际世界中理解驾驶规则。ST-P3从语义图中构建一个稠密的成本地图，然后使用手工制作的规则得到具有最小成本的最佳规划轨迹。UniAD在一个层次化的方式中集成多种场景表示，包括分割图、运动流图和BEV占用图。VAD采用全向量化的方法，使用向量化的代理动作和地图，消除了对计算密集型光栅表示的依赖。

Generative Models for Autonomous Driving

在自动驾驶领域，场景生成通过各种方法不断发展，包括生成对抗网络（GANs），变分自动编码器（VAEs）和扩散模型。Drive-GAN通过关联驾驶动作与像素变化来预测未来驾驶视频。类似地，BEVGen，建立在VQ-VAE之上，擅长从鸟瞰视角（BEV）布局中创建多视图图像。BEVControl更进一步，在街道视图图像中生成前景和背景，甚至支持手绘风格输入。

在Stable Diffusion的基础上，提出了视频潜在扩散模型，用于合成高分辨率视频，展示了其惊人的生成质量。进一步推动这一进展的是最近用于可控制驾驶场景视频生成的方法。Panacea提出了一个基于布局的视频生成系统，旨在为感知模型的训练多样化数据源。

World Models for Autonomous Driving

在世界模型方面，有两种定义：一种是纯粹预测未来，另一种是将动作预测和未来生成统一。在强化学习和机器人领域，世界模型通常用于预测代理与环境互动时的环境响应。这些模型可以基于各种数据（例如，RGB图像、深度图像、点云等）来理解环境的行为并预测未来的状态。

GAIA-1提出了一个生成性的世界模型，它将视频、文本和动作作为输入来生成真实的驾驶场景。DriveDreamer也通过生成未来的驾驶场景并预测控制信号来引入一个世界模型。作者的工作与GAIA-1和DriveDreamer密切相关。然而，存在一些主要差异。GAIA-1更像是一个场景生成器，而忽略了控制信号预测。DriveDreamer则依赖于丰富的先验信息，如高分辨率（HD）地图和3D边界框来进行未来生成。

与GAIA-1和DriveDreamer不同，作者的ADriver-I将控制信号预测和未来场景生成统一起来。对于未来生成，它排除了大量先验信息的需要。据作者所知，作者是首次引入无限驾驶概念的。ADriver-I在由自己创造的世界中实现了无限驾驶。

3 Method

在本节中，作者首先在3.1节描述ADriver-I的整体架构。然后，在3.2节介绍提示构建细节。最后，在3.3节提供模型训练细节。

Architecture

作者提出了ADriver-I，这是一个基于多模态大语言模型（MLLM）和视频扩散模型（VDM）的自动驾驶通用世界模型。ADriver-I的整体框架如图1所示。

picture.image

整体流程：当前视频帧和历史的视觉-动作对作为MLLM和VDM的输入。在训练过程中，MLLM以自回归方式输出低级控制信号集, , ，并受对应控制信号的监督。然后，输出控制信号被用作VDM的提示，以预测接下来的四帧。预测的帧受真实值监督。

在推理过程中，MLLM以单步方式直接输出当前帧的控制信号。VDM遵循相同的过程并预测未来帧。对于ADriver-I来说，重要的是它为未来的自动驾驶提供了有吸引力的可能性。生成的下一帧被用作下一个时间戳的“当前帧”，并进一步输入到MLLM以产生。上述步骤可以循环进行。这样，它实现了由自己生成的世界中无限的自动驾驶。

多模态大语言模型（MLLM）： MLLM包括三个模块：一个预训练的大语言模型（LLM）、一个视觉编码器和一个视觉适配器。作者将Vicuna-7B-1.5作为LLM。Vicuna在LLAMA2上进行微调。作者使用CLIP-ViT-Large作为视觉编码器，在大量图像-文本配对上进行预训练。两个多层感知机（MLP）层被用作视觉适配器，预先训练了LaVA-7B-1.5，用于将视觉特征与语言特征对齐。

视频扩散模型（VDM）：作者基于视频潜在扩散模型构建了作者的VDM。它建立在Stable Diffusion 2.1之上，并增加了与视频潜在扩散模型中的类似的时间感知模块。作者通过集成参考视频控制，丰富了模型，将给定的帧与扩散输入连接。此外，保留了文本条件模块，以实现行动导向的未来生成。总之，作者的VDM将控制信号与历史帧集成，作为作者的MLLM的活性生成器。

Prompt Construction

作者从作者的私有数据集和nuScenes数据集中获得前端视图视频帧及其相应的低级控制信号（例如，速度和转向角）。

MLLM的提示：作者将低级控制信号转换为文本，以便LLM将其处理为语言。动作Token进一步由语言Token器获得。

每个视频帧由CLIP-ViT-Large [44]特征提取，然后由视觉适配器进一步处理，产生视觉Token。每个视频帧与相应的动作Token配对，形成交错视觉-动作对。

引入的视觉-动作对具有以下优势：

它使多轮对话能够适应未固定的帧长，提高了MLLM的灵活性。
它将交错的未来生成和动作预测统一在词嵌入空间下。

picture.image

如图2所示，尽管引入了视觉和动作Token，作者还引入了系统提示来描述背景，指导MLLM的推理模式。总的来说，对话结构可以概括为：

其中是系统提示，是停止Token。

VDM的提示： VDM的文本编码器没有与LLM相当推理能力。当转向角值小于0时，它很难理解车辆的右转，而当转向角值大于0时，它很难理解车辆的左转。

picture.image

为了解决这个问题，作者使用GPT3.5将低级控制信号转换为运动描述。如图3所示，连续帧的控制信号作为输入。为了生成清晰的运动提示，作者指导它输出常见的驾驶状态，如保持速度、加速、减速和转向。根据运动提示，VDM被用于预测未来帧。

Model Training

正如上面提到的，ADriver-I的整体架构包括多模态大语言模型和视频扩散模型。这两个部分分别进行训练，并在推理时合并在一起。在这里，作者将描述它们的训练过程。

MLLM的训练： MLLM在作者私有的数据集上进行预训练。它包含近140万个在高速公路场景下的视觉-动作对。对于预训练，作者冻结LLM模型，而视觉编码器和视觉适配器层中的参数进行更新。对于有监督微调（SFT），作者只冻结视觉编码器，并训练其余部分。SFT过程分别在nuScenes和作者私有的数据集上进行。

VDM的训练：遵循[2]中的训练方案，视频扩散模型继承了稳定扩散的权重，并首先在作者的140万私有数据集上进行预训练。然后，VDM在nuScenes数据集上进行微调，该数据集包含大约23K个视频样本。

4 Experiments

Implementation Details

多模态大语言模型（MLLM）： MLLM在两个周期（epochs）的预训练和有监督微调中进行训练，批次大小为16。输入图像大小为。作者使用三个历史视觉-动作对和当前图像作为输入。对于控制信号，小数位数设置为3。为了减少LLM的收敛困难，作者将数字乘以1000以将其转换为整数。所有实验都在8个A100（80GB）GPU上进行。作者使用了AdamW优化器，学习率设置为。考虑到MLLM的输出仅包含文本语料库，作者遵循LaVA的做法，并使用交叉熵损失进行监督。

视频扩散模型（VDM）： VDM在私有数据集上进行预训练，共40,000步，批次大小为128，使用32个A100（80GB）GPU。在微调阶段，它被训练在nuScenes数据集上，共40,000步，批次大小为32，使用16个A100（80GB）GPU。空间分辨率在预训练和微调阶段均为，视频长度均为8。预训练和微调的学习率分别为4e-4和3.2e-4。在推理阶段，DDIM采样器被使用，采样步长为50。

Evaluation Metrics

为了定量评估控制信号预测和未来场景生成的性能，作者分别采用两个评价指标。为了全面评估控制信号预测性能，作者使用指标来计算预测值与真实值之间的误差。作者还计算了不同阈值（）下的准确性进行比较。

其中是验证样本的数量，是阈值。是预测值，是真实值。对于未来生成质量的评价，作者采用帧内弗雷歇特 inception 距离（FID）和帧内弗雷歇特视频距离（FVD）作为指标。

4.3.Control Signal Prediction

为了展示ADriver-I的有效性，作者在nuScenes和作者的私有数据集上进行了实验。如表2所示，作者使用L1误差和不同阈值下的准确性来评估控制信号预测性能。

picture.image

对于跨模型比较，作者基于MLP、CNN和视觉Transformer构建了三个竞争Baseline（见图4详细说明）。

picture.image Baseline（a)使用三个全连接层，输入三个连续帧的历史动作序列，预测当前帧的动作。基于（a），Baseline（b）进一步通过CNN（如ResNet）和全局平均池化（GAP）编码图像特征。图像特征进一步与动作特征拼接，用于预测当前动作。Baseline（c） simply 用视觉Transformer（如ViT-B)替换CNN，并采用相同的设计。

picture.image

实验结果显示，作者的ADriver-I在nuScenes数据集上优于这三个Baseline。图5展示了一些基于历史三帧的控制信号预测的定性可视化。然而，作者发现Baseline（c）在转向角L1误差方面，与ADriver-I相比，性能相似。作者推断，转向角变化范围较大的特殊案例对平均L1误差贡献最大。与Baseline相比，在阈值A0.01下具有较低的准确性优势，支持作者的观点。

对于跨数据集比较，作者的ADriver-I在作者的私有数据集上取得了令人印象深刻的表现，与nuScenes的结果相比。例如，在速度和转向角预测方面，它分别实现了0.035 m/s和0.015 rad的L1误差。这种现象有两个原因可以解释。第一个原因是作者的私有数据集主要关注高速公路场景，其中速度和转向角通常具有相对较小的变化范围。此外，其用于有监督微调的数据规模远大于nuScenes（1.4M vs. 23K）。因此，ADriver-I在私有数据集上的性能要比nuScenes更好。

为了分析控制信号预测的关键设计，作者进行了消融研究。如表3所示，作者首先探讨了控制信号的编码方法。

picture.image

它表明直接预测速度或转向角的绝对值比其他部分产生更好的性能。这包括将数字转换为英语描述，使用相对差异。作者还分析了小数位数对性能的影响（见表4）。

picture.image

实验结果表明，使用两位小数可以获得与三位小数相似的性能，同时优于更少的位数。这意味着整数或一位小数可能会引入一些精度误差。最后，作者进一步探索了引入的多轮对话的有效性，请参阅表5。

picture.image

多轮对话在速度预测上明显优于单轮对话。多轮对话在训练过程中对中间动作预测（, ）引入了更多的监督。它大大减少了当前帧动作预测的累积误差。

Future Scene Generation

定性结果图6展示了视频扩散模型生成的未来预测的一些定性结果。它提供了两种生成情况：向左转和向右转。第一和第三行表示作为条件使用的原始视频帧，第二和第四行是扩散模型预测的视频帧。

picture.image

在历史帧的条件和由MLLM预测的控制信号的指导下，VDM可以相应地生成未来场景，而无需依赖任何高级知识，如3D边界框和HD地图。

定量结果为了定量评估预测未来帧的质量，作者计算了FID和FVD指标，并报告了它们在表6中的数值，以供参考。没有使用3D边界框和HD地图作为输入先验知识，作者的ADriver-I在条件于历史四帧的情况下预测未来四帧，并实现了令人印象的性能，FID和FVD指标分别为5.5和97.0。

picture.image

Joint Control&Generation

正如上面提到的，ADriver-I具有在自身创建的世界中驾驶的可能性。为了验证这一点，作者只提供了三个历史交错视觉-动作对给ADriver-I，然后ADriver-I以循环方式执行控制信号预测和未来场景生成。

picture.image

如图7所示，所有视频帧都是由视频扩散模型生成的。速度（蓝色条）和转向角（橙色条）预测是由MLLM产生的。这表明预测的控制信号可以直接影响未来场景生成，而未来场景生成的结果又推动了ADriver-I采取相应的行动。

5 Conclusion and Discussion

在本文中，作者构建了一个名为ADriver-I的自动驾驶世界模型。它合理地将MLLM与VDM集成在一起。它可以直接基于当前帧和历史的视觉-控制对输出低级控制信号，而无需依赖主流的顺序管道。它还可以基于历史信息预测近期的帧。在nuScenes和作者的私有数据集上，它实现了令人印象的性能。给定一些初始的视觉-动作对，ADriver-I实现了在自身创建的世界中的无限驾驶。

讨论： ADriver-I实现的无限驾驶为自动驾驶提供了一些可能性。然而，仍然存在一些缺点和局限性：

生成模块（VDM）类似于闭环仿真器，为MLLM创建一些未知场景以预测相应的控制信号。然而，当控制信号变化较快时，VDM可能会生成一些低质量的视频帧，尤其是在下一时间戳的预测控制信号。这会干扰控制信号的预测。
性能仍然不足以满足部署需求，我们将通过在不断扩大的大规模私有数据集中使用大量视觉-控制对来更新ADriver-I版本。
的一个缺点是，MLLM和VDM分别训练，无法从端到端优化中受益。需要一个统一的综合与生成框架来实现这一目标。
此外，从行驶距离的角度来看，缺乏路由信息，我们可以引入导航地图来实现长距离自动驾驶。

总之，自动驾驶世界模型仍有很长的路要走。作者希望从生成视角观察未来的扩展定律。

参考

[1].ADriver-I: A General World Model for Autonomous Driving.

picture.image

点击上方卡片，关注「AI视界引擎」公众号