DriveMLM: 自动驾驶中采用行为规划状态对齐多模态大语言模型 - 文章 - 开发者社区

一、论文信息

论文题目

DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning States for Autonomous Driving

论文链接

Github

二、概要

大型语言模型（LLMs）为智能代理开辟了新的可能性，赋予它们类似人类的思维和认知能力。在这项工作中，我们探讨了LLMs在自动驾驶（AD）方面的潜力。我们介绍了DriveMLM，一个基于LLM的自动驾驶框架，可以在现实模拟器中进行闭环自动驾驶。为此，（1）我们通过将决策状态标准化为现成的运动规划模块，弥合了语言决策和车辆控制命令之间的差距。（2）我们采用多模态LLM（MLLM）来建模模块AD系统的行为规划模块，该模块使用驾驶规则、用户命令和来自各种传感器（例如，相机、激光雷达）的输入作为输入，做出驾驶决策并提供解释；该模型可以即插即用在现有的AD系统中，如Apollo，进行闭环驾驶。（3）我们设计了一个有效的数据引擎来收集数据集，该数据集包括决策状态和相应的解释注释，用于模型训练和评估。我们进行了广泛的实验，并表明我们的模型在CARLATown05Long上实现了76.1分的驾驶得分，在同样的设置下比Apollo基线高出4.7分，证明了我们模型的有效性。我们希望这项工作可以作为基于LLM的自动驾驶的基础。

主要内容：

介绍DriveMLM，一个基于LLM的自动驾驶框架
弥合语言决策和车辆控制命令之间的差距
利用多模态LLM来建模行为规划模块
设计一个有效的数据引擎来收集训练数据
在实验中取得比阿波罗基线更高的驾驶分数

picture.image

三、讨论

多模态传感器输入如何被处理并转化为驾驶决策和决策解释？

多模态传感器输入通过多模态tokenizer进行处理，将不同形式的输入（如多视角图像、LiDAR点云、系统消息和用户指令）转化为统一的token。然后，这些token被输入到MLLM解码器中，生成决策状态token S和相应的解释E。最后，决策状态S被输入到运动规划与控制模块中，计算车辆的最终轨迹。多模态tokenizer可以处理多种形式的输入，包括： 1. 对于多视角图像，使用QFormer处理图像序列，提取图像token嵌入X₁∈RN₁×D。 2. 对于LiDAR点云，使用SPT提取点云特征，然后使用QFormer提取点云token嵌入XL∈RNo×D。 3. 对于系统消息和用户指令，使用LLM的token嵌入层提取它们的嵌入，Xm∈RNa×D，Xu∈RNu×D。 MLLM解码器将输入的token嵌入转化为决策状态token S和相应的解释E。训练时使用交叉熵损失，预测下一个token。

数据收集和标注策略如何提高决策多样性和降低成本？

数据收集和标注策略通过在模拟器中构建各种具有挑战性的场景来提高决策多样性，同时要求车辆在复杂驾驶行为下安全行驶。此外，该策略还通过使用多模态传感器输入、系统消息和用户指令来降低成本。具体来说，该策略使用多模态传感器输入（如多视角图像、LiDAR点云、系统消息和用户指令）来提高决策多样性，同时使用多模态tokenizer和MLLM解码器来降低成本。多模态tokenizer可以处理各种形式的输入，包括多视角图像、LiDAR点云和系统消息。MLLM解码器将多模态tokenizer的输出转换为决策状态和解释。该策略还使用系统消息模板来确保输入从各种来源和传感器无缝集成。最后，该策略使用交叉熵损失和下一个标记预测来训练MLLM解码器，从而降低成本。

系统消息模板如何确保不同来源和类型的输入信息被无缝整合？

系统消息模板通过包含任务描述、交通规则、决策状态定义以及各种模态信息的占位符，确保不同来源和类型的输入信息被无缝整合。这种设计方法使得来自各种模态和来源的输入信息能够被顺利地整合在一起。