点击下方卡片,关注 「AI视界引擎」 公众号
通常,自动驾驶采用模块化设计,将整个堆栈划分为感知、预测、规划和控制部分。尽管这种模块化设计具有可解释性,但往往会引入大量冗余。
最近,多模态大语言模型(MLLM)和扩散技术在理解和生成能力方面展示了其优越性能。在本论文中,作者首先提出了交错视觉-动作对的概念,将视觉特征和控制信号的格式统一起来。
基于视觉-动作对,作者构建了一个基于MLLM和扩散模型的一般世界模型,称为ADriver-I。它将视觉-动作对作为输入,自回归地预测当前帧的控制信号。生成的控制信号以及历史视觉-动作对被进一步用于预测未来帧。通过预测的下一帧,ADriver-I执行进一步的控制信号预测。这样的过程可以无限次重复,ADriver-I实现了由自己创造的世界中的自主驾驶。
在nuScenes和作者的大规模私有数据集上进行了大量的实验。与几个构建的Baseline相比,ADriver-I表现出令人印象的性能。作者希望作者的ADriver-I能为未来的自主驾驶和具身智能提供一些新的见解。
1 Introduction
——未来取决于我们在现在所做的事情。
最近,自动驾驶取得了巨大的进步,得益于在BEV感知和端到端规划方面的重大发展。通常,自动驾驶系统可以分为四个组成部分:感知、预测、规划和控制。
感知模块通常用于检测或跟踪周围的车辆、行人和车道,而预测模块则用于预测动态物体的未来轨迹。根据感知和预测结果,规划器进一步预测了类似于路径点 ego car 的规划位置,控制系统生成相应的低级控制信号。这样的顺序系统采用模块化设计,由于每个模块具有可解释性,因此这种设计听起来是合理的。当事故发生时,找出事故发生的原因相对容易。
与主流自动驾驶系统相比,人类驾驶员主要有两个关键差异。第一个是,人类驾驶员倾向于直接根据捕获的视觉信息采取行动,而不依赖于上述的顺序管道。他们 simply 直接以端到端的方式调整方向盘和油门,而没有引入太多的考虑。此外,人类驾驶员能够预测近期的未来。例如,当作者看到交通信号灯从绿色变为黄色时,作者预测信号灯即将变红,作者需要减速并准备停车。
因此,作者想知道是否可以构建一个系统,直接输出控制信号并预测未来场景,类似于人类驾驶员。
多模态大语言模型(MLLMs)和大型语言模型(LLMs)由于在逻辑推理和泛化能力方面表现出卓越的性能而受到关注。然而,它们主要关注不同指尖程度的图像之间的对话。在本文中,作者构建了一个名为ADriver-I的新系统,旨在统一控制信号预测和未来场景生成。受到MLLMs中交错文档的启发,作者引入了交错视觉-动作对,将视觉特征和相应控制信号的格式统一起来。
控制信号(如转向角和自车速度)可以转换为文本表达式。ADriver-I将历史视觉-动作对和当前视觉Token作为输入,并直接预测当前帧的控制信号。在历史视觉-动作对和预测动作的条件下,视频扩散模型(VDM)被进一步用于预测接下来的帧的景象。这意味着预测的当前动作直接影响未来的场景。
借助于统一的动作预测和未来生成框架,ADriver-I可以在自己生成的无限场景下执行自动驾驶,就像生活在自己的世界一样。考虑到MLLMs的强大泛化能力,ADriver-I系统可以轻松地推广到实际世界。在nuScenes和作者的私有数据集上,ADriver-I展示了令人印象的表现。给定三个历史视觉-动作对,包括当前帧的速度和转向角的L1误差分别为0.072 m/s和0.091 rad。生成的未来四帧的FID和FVD指标分别为5.52和97。
2 Related Works
Multimodal Large Language Models
最近,由于强大的理解和生成能力,大语言模型(LLMs)和多模态大语言模型(MLLMs)引起了广泛关注。MLLMs是建立在LLMs(如LLaMA,Vicuna和GPT)之上的。这些模型可以接收不同模态的输入,如文本、图像和视频。
一些典型的方法,如LaVA,miniGPT4和BLIP-2,使用图像和文本Token作为输入,并训练以实现跨模态理解。MLLMs可以扩展用于视频-文本和音频-文本的理解。MLLMs的发展极大地推动了具身智能和自动驾驶的研究。例如,VIMA利用Mask RCNN提取物体区域。这些物体区域与文本描述一起输入到Transformer架构中,以预测运动动作。
Vox-Poser使用预训练的MLLM和LLM来生成运动规划的价值图,无需额外的训练。结合预训练的PaLM和ViT-22B,PaLM-E可以执行多种任务,如运动规划、桌面操作和图像描述。此外,RT-2提出了机器人控制中的视觉-语言-动作(VLA)模型,并直接输出低级控制信号。作为作者的相关工作,DriveGPT4基于MLLM,将视频和文本作为输入。它可以输出控制信号并提供相应的可解释性。
End-to-end Autonomous Driving
通常,自动驾驶(AD)可以分为感知、预测、规划和控制。大多数最新的端到端自主方法采用编码器-解码器范式,从原始传感器数据中提取信息并预测规划结果。
Transfuser和TCP直接预测规划结果(路径点),而无需构建任何场景表示。其他方法使用各种场景表示来帮助模型在实际世界中理解驾驶规则。ST-P3从语义图中构建一个稠密的成本地图,然后使用手工制作的规则得到具有最小成本的最佳规划轨迹。UniAD在一个层次化的方式中集成多种场景表示,包括分割图、运动流图和BEV占用图。VAD采用全向量化的方法,使用向量化的代理动作和地图,消除了对计算密集型光栅表示的依赖。
Generative Models for Autonomous Driving
在自动驾驶领域,场景生成通过各种方法不断发展,包括生成对抗网络(GANs),变分自动编码器(VAEs)和扩散模型。Drive-GAN通过关联驾驶动作与像素变化来预测未来驾驶视频。类似地,BEVGen,建立在VQ-VAE之上,擅长从鸟瞰视角(BEV)布局中创建多视图图像。BEVControl更进一步,在街道视图图像中生成前景和背景,甚至支持手绘风格输入。
在Stable Diffusion的基础上,提出了视频潜在扩散模型,用于合成高分辨率视频,展示了其惊人的生成质量。进一步推动这一进展的是最近用于可控制驾驶场景视频生成的方法。Panacea提出了一个基于布局的视频生成系统,旨在为感知模型的训练多样化数据源。
World Models for Autonomous Driving
在世界模型方面,有两种定义:一种是纯粹预测未来,另一种是将动作预测和未来生成统一。在强化学习和机器人领域,世界模型通常用于预测代理与环境互动时的环境响应。这些模型可以基于各种数据(例如,RGB图像、深度图像、点云等)来理解环境的行为并预测未来的状态。
GAIA-1提出了一个生成性的世界模型,它将视频、文本和动作作为输入来生成真实的驾驶场景。DriveDreamer也通过生成未来的驾驶场景并预测控制信号来引入一个世界模型。作者的工作与GAIA-1和DriveDreamer密切相关。然而,存在一些主要差异。GAIA-1更像是一个场景生成器,而忽略了控制信号预测。DriveDreamer则依赖于丰富的先验信息,如高分辨率(HD)地图和3D边界框来进行未来生成。
与GAIA-1和DriveDreamer不同,作者的ADriver-I将控制信号预测和未来场景生成统一起来。对于未来生成,它排除了大量先验信息的需要。据作者所知,作者是首次引入无限驾驶概念的。ADriver-I在由自己创造的世界中实现了无限驾驶。
3 Method
在本节中,作者首先在3.1节描述ADriver-I的整体架构。然后,在3.2节介绍提示构建细节。最后,在3.3节提供模型训练细节。
Architecture
作者提出了ADriver-I,这是一个基于多模态大语言模型(MLLM)和视频扩散模型(VDM)的自动驾驶通用世界模型。ADriver-I的整体框架如图1所示。
整体流程:当前视频帧和历史的视觉-动作对作为MLLM和VDM的输入。在训练过程中,MLLM以自回归方式输出低级控制信号集, , ,并受对应控制信号的监督。然后,输出控制信号被用作VDM的提示,以预测接下来的四帧。预测的帧受真实值监督。
在推理过程中,MLLM以单步方式直接输出当前帧的控制信号。VDM遵循相同的过程并预测未来帧。对于ADriver-I来说,重要的是它为未来的自动驾驶提供了有吸引力的可能性。生成的下一帧被用作下一个时间戳的“当前帧”,并进一步输入到MLLM以产生。上述步骤可以循环进行。这样,它实现了由自己生成的世界中无限的自动驾驶。
多模态大语言模型(MLLM): MLLM包括三个模块:一个预训练的大语言模型(LLM)、一个视觉编码器和一个视觉适配器。作者将Vicuna-7B-1.5作为LLM。Vicuna在LLAMA2上进行微调。作者使用CLIP-ViT-Large作为视觉编码器,在大量图像-文本配对上进行预训练。两个多层感知机(MLP)层被用作视觉适配器,预先训练了LaVA-7B-1.5,用于将视觉特征与语言特征对齐。
视频扩散模型(VDM): 作者基于视频潜在扩散模型构建了作者的VDM。它建立在Stable Diffusion 2.1之上,并增加了与视频潜在扩散模型中的类似的时间感知模块。作者通过集成参考视频控制,丰富了模型,将给定的帧与扩散输入连接。此外,保留了文本条件模块,以实现行动导向的未来生成。总之,作者的VDM将控制信号与历史帧集成,作为作者的MLLM的活性生成器。
Prompt Construction
作者从作者的私有数据集和nuScenes数据集中获得前端视图视频帧及其相应的低级控制信号(例如,速度和转向角)。
MLLM的提示: 作者将低级控制信号转换为文本,以便LLM将其处理为语言。动作Token进一步由语言Token器获得。
每个视频帧由CLIP-ViT-Large [44]特征提取,然后由视觉适配器进一步处理,产生视觉Token。每个视频帧与相应的动作Token配对,形成交错视觉-动作对。
引入的视觉-动作对具有以下优势:
- 它使多轮对话能够适应未固定的帧长,提高了MLLM的灵活性。
- 它将交错的未来生成和动作预测统一在词嵌入空间下。
如图2所示,尽管引入了视觉和动作Token,作者还引入了系统提示来描述背景,指导MLLM的推理模式。总的来说,对话结构可以概括为:
其中是系统提示,是停止Token。
VDM的提示: VDM的文本编码器没有与LLM相当推理能力。当转向角值小于0时,它很难理解车辆的右转,而当转向角值大于0时,它很难理解车辆的左转。
为了解决这个问题,作者使用GPT3.5将低级控制信号转换为运动描述。如图3所示,连续帧的控制信号作为输入。为了生成清晰的运动提示,作者指导它输出常见的驾驶状态,如保持速度、加速、减速和转向。根据运动提示,VDM被用于预测未来帧。
Model Training
正如上面提到的,ADriver-I的整体架构包括多模态大语言模型和视频扩散模型。这两个部分分别进行训练,并在推理时合并在一起。在这里,作者将描述它们的训练过程。
MLLM的训练: MLLM在作者私有的数据集上进行预训练。它包含近140万个在高速公路场景下的视觉-动作对。对于预训练,作者冻结LLM模型,而视觉编码器和视觉适配器层中的参数进行更新。对于有监督微调(SFT),作者只冻结视觉编码器,并训练其余部分。SFT过程分别在nuScenes和作者私有的数据集上进行。
VDM的训练: 遵循[2]中的训练方案,视频扩散模型继承了稳定扩散的权重,并首先在作者的140万私有数据集上进行预训练。然后,VDM在nuScenes数据集上进行微调,该数据集包含大约23K个视频样本。
4 Experiments
Implementation Details
多模态大语言模型(MLLM): MLLM在两个周期(epochs)的预训练和有监督微调中进行训练,批次大小为16。输入图像大小为。作者使用三个历史视觉-动作对和当前图像作为输入。对于控制信号,小数位数设置为3。为了减少LLM的收敛困难,作者将数字乘以1000以将其转换为整数。所有实验都在8个A100(80GB)GPU上进行。作者使用了AdamW优化器,学习率设置为。考虑到MLLM的输出仅包含文本语料库,作者遵循LaVA的做法,并使用交叉熵损失进行监督。
视频扩散模型(VDM): VDM在私有数据集上进行预训练,共40,000步,批次大小为128,使用32个A100(80GB)GPU。在微调阶段,它被训练在nuScenes数据集上,共40,000步,批次大小为32,使用16个A100(80GB)GPU。空间分辨率在预训练和微调阶段均为,视频长度均为8。预训练和微调的学习率分别为4e-4和3.2e-4。在推理阶段,DDIM采样器被使用,采样步长为50。
Evaluation Metrics
为了定量评估控制信号预测和未来场景生成的性能,作者分别采用两个评价指标。为了全面评估控制信号预测性能,作者使用指标来计算预测值与真实值之间的误差。作者还计算了不同阈值()下的准确性进行比较。
其中是验证样本的数量,是阈值。是预测值,是真实值。对于未来生成质量的评价,作者采用帧内弗雷歇特 inception 距离(FID) 和帧内弗雷歇特视频距离(FVD) 作为指标。
4.3.Control Signal Prediction
为了展示ADriver-I的有效性,作者在nuScenes和作者的私有数据集上进行了实验。如表2所示,作者使用L1误差和不同阈值下的准确性来评估控制信号预测性能。
对于跨模型比较,作者基于MLP、CNN和视觉Transformer构建了三个竞争Baseline(见图4详细说明)。
Baseline(a)使用三个全连接层,输入三个连续帧的历史动作序列,预测当前帧的动作。基于(a),Baseline(b)进一步通过CNN(如ResNet)和全局平均池化(GAP)编码图像特征。图像特征进一步与动作特征拼接,用于预测当前动作。Baseline(c) simply 用视觉Transformer(如ViT-B)替换CNN,并采用相同的设计。
实验结果显示,作者的ADriver-I在nuScenes数据集上优于这三个Baseline。图5展示了一些基于历史三帧的控制信号预测的定性可视化。然而,作者发现Baseline(c)在转向角L1误差方面,与ADriver-I相比,性能相似。作者推断,转向角变化范围较大的特殊案例对平均L1误差贡献最大。与Baseline相比,在阈值A0.01下具有较低的准确性优势,支持作者的观点。
对于跨数据集比较,作者的ADriver-I在作者的私有数据集上取得了令人印象深刻的表现,与nuScenes的结果相比。例如,在速度和转向角预测方面,它分别实现了0.035 m/s和0.015 rad的L1误差。这种现象有两个原因可以解释。第一个原因是作者的私有数据集主要关注高速公路场景,其中速度和转向角通常具有相对较小的变化范围。此外,其用于有监督微调的数据规模远大于nuScenes(1.4M vs. 23K)。因此,ADriver-I在私有数据集上的性能要比nuScenes更好。
为了分析控制信号预测的关键设计,作者进行了消融研究。如表3所示,作者首先探讨了控制信号的编码方法。
它表明直接预测速度或转向角的绝对值比其他部分产生更好的性能。这包括将数字转换为英语描述,使用相对差异。作者还分析了小数位数对性能的影响(见表4)。
实验结果表明,使用两位小数可以获得与三位小数相似的性能,同时优于更少的位数。这意味着整数或一位小数可能会引入一些精度误差。最后,作者进一步探索了引入的多轮对话的有效性,请参阅表5。
多轮对话在速度预测上明显优于单轮对话。多轮对话在训练过程中对中间动作预测(, )引入了更多的监督。它大大减少了当前帧动作预测的累积误差。
Future Scene Generation
定性结果 图6展示了视频扩散模型生成的未来预测的一些定性结果。它提供了两种生成情况:向左转和向右转。第一和第三行表示作为条件使用的原始视频帧,第二和第四行是扩散模型预测的视频帧。
在历史帧的条件和由MLLM预测的控制信号的指导下,VDM可以相应地生成未来场景,而无需依赖任何高级知识,如3D边界框和HD地图。
定量结果 为了定量评估预测未来帧的质量,作者计算了FID和FVD指标,并报告了它们在表6中的数值,以供参考。没有使用3D边界框和HD地图作为输入先验知识,作者的ADriver-I在条件于历史四帧的情况下预测未来四帧,并实现了令人印象的性能,FID和FVD指标分别为5.5和97.0。
Joint Control&Generation
正如上面提到的,ADriver-I具有在自身创建的世界中驾驶的可能性。为了验证这一点,作者只提供了三个历史交错视觉-动作对给ADriver-I,然后ADriver-I以循环方式执行控制信号预测和未来场景生成。
如图7所示,所有视频帧都是由视频扩散模型生成的。速度(蓝色条)和转向角(橙色条)预测是由MLLM产生的。这表明预测的控制信号可以直接影响未来场景生成,而未来场景生成的结果又推动了ADriver-I采取相应的行动。
5 Conclusion and Discussion
在本文中,作者构建了一个名为ADriver-I的自动驾驶世界模型。它合理地将MLLM与VDM集成在一起。它可以直接基于当前帧和历史的视觉-控制对输出低级控制信号,而无需依赖主流的顺序管道。它还可以基于历史信息预测近期的帧。在nuScenes和作者的私有数据集上,它实现了令人印象的性能。给定一些初始的视觉-动作对,ADriver-I实现了在自身创建的世界中的无限驾驶。
讨论: ADriver-I实现的无限驾驶为自动驾驶提供了一些可能性。然而,仍然存在一些缺点和局限性:
- 生成模块(VDM)类似于闭环仿真器,为MLLM创建一些未知场景以预测相应的控制信号。然而,当控制信号变化较快时,VDM可能会生成一些低质量的视频帧,尤其是在下一时间戳的预测控制信号。这会干扰控制信号的预测。
- 性能仍然不足以满足部署需求,我们将通过在不断扩大的大规模私有数据集中使用大量视觉-控制对来更新ADriver-I版本。
- 的一个缺点是,MLLM和VDM分别训练,无法从端到端优化中受益。需要一个统一的综合与生成框架来实现这一目标。
- 此外,从行驶距离的角度来看,缺乏路由信息,我们可以引入导航地图来实现长距离自动驾驶。
总之,自动驾驶世界模型仍有很长的路要走。作者希望从生成视角观察未来的扩展定律。
参考
[1].ADriver-I: A General World Model for Autonomous Driving.
点击上方卡片,关注 「AI视界引擎」 公众号