牛津大学提出RAG-Driver | LLM加持可解释且可泛化的端到端ADAS

技术

以下文章转载自 【智驾实验室】公众号平台,如有侵权,请联系删除文章

picture.image

由“黑箱”模型驱动的机器人需要提供人类可理解的解释,这些解释是作者能够信任的。因此,可解释性在促进自主决策的可信度、透明度和最终用户接受度方面发挥着关键作用,尤其是在复杂的自动驾驶领域。

多模态大型语言模型(MLLMs)的最新进展已经显示出在提高作为驾驶主体的可解释性方面的巨大潜力,它可以生成控制预测以及自然语言解释。然而,由于昂贵的标注成本导致的数据稀缺以及不同数据集之间的显著领域差距,开发一个健壮且可泛化的系统变得极其具有挑战性。此外,MLLM的高昂训练要求以及未解决的灾难性遗忘问题进一步限制了它们部署后的泛化能力。

为了应对这些挑战,作者提出了RAG-Driver ,这是一个新颖的检索增强型多模态大型语言模型,它利用上下文学习来实现高性能、可解释且可泛化的自动驾驶。通过在检索到的专家示范中进行定位,作者经验性地验证了RAG-Driver 在生成驾驶动作解释、辩护和控制信号预测方面达到了最先进的表现。更重要的是,它展现出卓越的零样本泛化能力,无需进一步训练即可适应未见过的环境。

I Introduction

受到深度学习新兴发展的驱动,自动驾驶技术已经经历了从基于规则的决策系统向数据驱动的学习方法的范式转变。然而,这在决策透明度上是要付出代价的,特别是对于被认为是黑箱性质的全栈自动驾驶系统。因此,除了在行动控制上的精确性之外,提供解释对于确保可信赖的决策制定至关重要,这样可以调和系统的决策与终端用户期望之间的关系,以促进在动态驾驶环境中的信心和接受度。

传统方法主要依赖于注意力可视化作为代理来解释黑盒系统的决策,或者通过辅助的中间任务,如语义分割,目标检测和可供性预测,为决策提供有意义的中间表示。然而,这些方法并没有让最终用户参与到对话中,因为它们是单向的,而且对于一般用户来说不容易理解,这不利于培养信任和信心。一种有前景的替代方法是整合自然语言解释,特别是通过多模态大型语言模型(MLLMs)。这些模型在广泛的网页规模数据集上进行了预训练,显示出卓越的推理能力,能够将复杂的车辆决策过程转化为更易理解的叙述格式,从而为传统系统提供新的解释层次。

尽管早期的一些尝试已经展示了多语言大模型(MLLMs)作为一般可解释驾驶代理的潜力,但这些方法在达到人类 Level 的理解方面仍有不足。其中一个局限性是它们未能泛化到未见过的环境。一个主要的障碍是缺乏高质量标注数据,以及不同数据集之间显著的领域偏移,这阻碍了模型将泛化能力扩展到训练数据分布之外的新环境。

另一个关键挑战是训练成本过高以及灾难性遗忘问题未解决,这使得由于巨大的计算需求和严重的性能退化的原因,重新训练或微调成为不切实际的解决方案。因此,这进一步限制了模型在部署后泛化能力,因为它们在持续变化的环境和驾驶场景中有效利用新数据方面存在困难。

为了应对这些挑战,作者推出了RAG-Driver ,这是一个新颖的检索增强型多模态大型语言模型,专为具有泛化能力和可解释性的端到端驾驶而定制。如图1所示,它基于驾驶视频输出自然语言文本,对应于**(1)驾驶动作和 (2)该驾驶动作的依据,以及 (3)**数值控制信号。

在上下文学习过程中,自然语言文本与控制信号对齐,以实现真实内省解释的提供。RAG-Driver 的创新之处在于集成了检索增强的上下文学习(RA-ICL)机制,这些机制显著提高了在未见过的驾驶环境中的泛化性能。它允许通过隐式元优化(第III-C节)高效回忆类似的驾驶场景作为增强MLLM预测的上下文信息。

picture.image

通过大量实验,作者展示了RAG-Driver 在域内部署以及未见环境(无需任何微调)的部署上均优于现有方法。通过基于类比演示实现,作者的框架显著减少了持续重新训练的需求,同时提高了生成的解释文本的泛化能力和质量。

作者的主要贡献如下:

  1. 提出一种新颖的检索增强型情境学习方法,用于基于多模态大型语言模型(MLLM)的可泛化和可解释驾驶。
  2. 在标准基准BDD-X 上实现最先进的自省驾驶解释性能。
  3. 展示了通过一个定制数据集Spoken-SAX,该数据集包含由专业驾驶教练解说的视频序列,实现了在未见过的场景中无需训练努力即可达到异常出色的零样本泛化能力。

II Related Work

Explainable End-to-End Autonomous Driving

端到端学习驾驶直接从原始传感器输入映射到车辆控制信号。这种数据驱动的、感知、预测和规划的联合优化可以简单而高效。在这个领域,各种基于学习的方法都有前景,包括行为克隆,逆最优控制和强化学习。这个领域的一个关键关注点是可解释性,这对于提高透明度,建立对自主系统更广泛公众接受的信任至关重要。一项工作利用了注意力可视化——要么直接识别输入图像中对驾驶决策重要的显著区域,要么辅助下游运动规划任务的特征聚合。另一项工作使用中间辅助任务,如语义分割,目标检测和可供性预测,这些任务帮助将隐含表示解码为人类可理解的表现形式。尽管这些方法通过将决策过程与语义或视觉表示相关联提供了可解释的机制,但它们并不容易被普通用户理解,以达到培养信任和信心的目的。

另一方面,近期的研究显示出利用自然语言解释的潜力。一些工作开发了专门的解释器,通过在视觉输入和文本生成中对齐注意力来解释具体化的驾驶动作。ADAPT使用了一个视觉-语言 Transformer ,并配有单独的解码器用于生成标题以及控制信号预测。

近来,一些研究探索了多模态大型语言模型(MLLMs)的潜力。例如,DriveGPT4,Lingo,和DrivingMLM在驾驶和动作规划的通用问题回答方面显示出有希望的可能性。然而,无论是专业模型还是基于MLLM的通用模型,都面临着一个共同的障碍,即数据稀缺,这是由于昂贵的标注成本以及不同数据集之间的巨大领域差距造成的,这使得开发一个健壮且具有泛化能力的模型变得极其具有挑战性。在作者的工作中,作者通过采用一种更健壮的推理范式——检索增强的上下文学习,来克服这些障碍,并弥合领域差距,避免在新领域中进行标注的需求。

Multi-Modal Large Language Model

近期大型语言模型(LLM)的进展为多模态大型语言模型(MLLM)的出现铺平了道路。得益于可扩展的基于 Transformer 的架构和网页规模的训练数据,这些模型在通用视觉理解任务中展现了显著的能力。一项工作聚焦于潜在空间中的模态融合,为MLLM提供了一种可扩展的端到端解决方案。例如,Flamingo 和 BLIP2 分别通过门控注意力和 Query Transformer 将视觉标记融合到冻结的LLM中。

LLaVA 和 MiniGPT4 使用带有视觉指令调整的简单多层感知机(MLP)来对齐预训练的图像编码器与LLM。与作者最相关的是关注于视频语言模型的工作,例如 Video-LLaVA 和 Video-LLaMA,它们使用与基于图像模型类似的策略将预训练的视频编码器整合到LLM中。

凭借卓越的感知和推理能力,多模态大型语言模型(MLLMs)在各种机器人任务中显示出巨大的潜力,如推理和规划。与作者最相似的是一种将通用基础模型用于端到端具身代理的想法。PaLM-e将图像、状态估计和其他传感器模态注入到LLM中,并自回归地生成自然语言命令。RT-2和RT-X在图像和低级机器人控制信号对上进行微调,以执行端到端的机器人控制。

特别是在驾驶方面,众多方法利用仅语言的LLM进行决策,然后通过外部感知模块反馈,设计思维链推理模板或下游规划器形成系统级的驾驶代理。另一项更相关的工作是端到端的驾驶代理。DriveGPT4利用在驾驶特定视觉指令调整方面基于BDD-X进行微调的视频语言模型Valley。Dolphins进一步使用设计的接地思维链来增强推理能力。DrivingMLM和Reason2Drive分别通过模拟器生成数据和现有大规模数据集的标注来扩展驾驶视觉指令调整数据集。

尽管这些方法展示了MLLM的潜力,但高昂的训练成本以及未解决的灾难性遗忘问题(这使得部署后重新训练或微调具有挑战性)进一步限制了它们在未知驾驶环境中的泛化能力。为了解决这个问题,作者采用了无需训练的检索增强上下文学习机制。

In-Context Learning and Retrieval-Augmented Generation

尽管大型语言模型(LLMs)展现出强大的生成和推理能力,但它们的输出仍然存在一些问题,比如产生幻觉[29]和知识更新缓慢。上下文学习(In-context Learning,ICL)已成为LLM推理中一个有前景的方法,可能解决其中一些问题。这个范式包括提供一个测试 Query 和几个演示示例作为上下文信息。然后,LLM基于从上下文中绘制的类比生成测试实例的输出,而无需更新其参数。

尽管观察到ICL在各种自然语言处理(NLP)任务中增强了泛化能力,但在多模态上下文中的应用仍然探索较少,这可能是因为与策划结构化高质量的多模态ICL数据集相关的挑战。检索增强生成(Retrieval-Augmented Generation,RAG)是LLM的另一个重要的推理范式。它提供一个外部知识数据库,通过动态检索相关信息片段作为上下文信息,增强推理中LLM内压缩的模型知识。其一个有前景的应用是采用系统化的方法来策划In-Context Learning(ICL)示例。

在这项工作中,作者基于这些推理范式,并将它们的应用扩展到多模态大型语言模型(Multimodal Large Language Models,MLLMs)。作者引入了一个检索增强的上下文学习机制,通过策划的多模态驾驶上下文指令调优数据集和一个特定为驾驶应用量身定制的基于向量相似度的检索引擎。

III Method

RAG-Driver 是一个检索增强的、多模态大型语言模型(MLLM),用于可泛化的可解释端到端驾驶。其多任务能力包括三个关键领域:

  1. 行为解释,提供人类可理解的驾驶行为描述;
  2. 行为辩护,阐明特定驾驶行为背后的推理;
  3. 下一控制信号预测,预测在应对驾驶条件下的即将出现的控制信号。

picture.image

如图3所示,它主要由两个组成部分构成:

  1. 一个基于MLLM Backbone 网络的统一感知规划单元
  2. 一个基于混合向量和文本数据库的记忆单元

这些组件通过检索引擎进行交互,使得在决策过程中能够进行稳健的多模态上下文学习(ICL)。

Multi-modal Large Language Model Architecture

遵循Video-LLaVA成功的多模态大语言模型(MLLM)范式,作者通过视觉指令调整来对齐视觉和语言嵌入。作者利用预训练的视频编码器和大型语言模型(LLM),并通过多层感知机(MLP)投影器将视频嵌入注入LLM中,以构建一个完全可微分的MLLM。

视频编码器 作者采用了预训练的LanguageBind视频编码器作为作者固定的视觉基础网络,该编码器基于ViT-B/32视觉 Transformer。

picture.image

如图4所示,对于给定的输入视频帧序列,作者首先将视频分割成多个时间序列,每个序列包含在不同帧中具有相同空间位置的块。然后这些块通过一个线性投影进行转换,以便视觉 Transformer 输出视频嵌入。视频编码器通过视频-语言对比学习进行预训练(即CLIP4clip),而没有进一步的微调。

跨模态投影器 然后,作者利用一个双层多层感知机(MLP)来投影并校准编码的视频嵌入 与语言标记嵌入 。

特别是,投影器 的形式如公式 (1) 所示,其中作者使用 GELU 作为激活函数。作者采用两阶段训练策略来训练投影器,具体细节在第三节B中描述。

大型语言模型 Backbone 网络 最后,LLM(大型语言模型)接收对齐的视频嵌入 和文本上下文信息以及任务说明的语言嵌入 来预测文本动作解释和数值控制信号。作者采用 Vicuna 1.5 7B,这是基于 LLaMA2 进行了指令调优的模型作为作者的LLM Backbone 网络。

对于仅解码器的LLM,在长度为 的多模态上下文前缀 条件下,输出的联合概率 如公式 (2) 所示,其中 是基于Transformer的LLM Backbone 网络,由参数 表征。

每个输出标记 然后基于之前的输出和上下文自动回归地采样,并最终通过文本去标记化器解码到语言空间。

Training Strategy

遵循视觉指导调整范式,作者采用两阶段训练策略,逐步实现跨模态对齐和多任务驾驶能力。在两个阶段中,作者都利用与方程(3)中相同的下一个 Token 预测交叉熵损失,旨在最大化方程(2)中的条件答案似然性,其中是 GT Token 。

预训练 在第一个预训练阶段,作者仅训练跨模态投影器,而将视觉编码器和大型语言模型(LLM)冻结。作者使用了一个子集VIDAL-10M ,其中包含300万个视频-字幕对。通过将预训练的视频嵌入投影到LLM可以理解的语言标记上,实现了视觉和语言特征之间的对齐。

监督式情境指令微调 虽然最先进的LLM展示了零样本情境学习(ICL)的能力,但几项工作以及作者第四节D的消融研究显示,在特定地为精心策划的ICL演示进行训练后可以进一步改进。特别是,作者基于BDD-X数据集构建了一个多模态指令微调数据集,其中包含结构化的ICL示例,从而生成了16K个视频问题与答案对。

picture.image

如图5所示,对于一个带有相关控制信号的8帧驾驶视频序列——速度、航向、加速度和曲率作为当前 Query ,作者使用第三节C中的检索机制来检索2个相关的驾驶经验,然后将它们作为ICL示例前缀到当前 Query 上。该数据集专门设计以支持三种不同的任务,每个任务都通过自然语言中的问题-答案对表示。

请注意,(1)动作解释和(2)理由自然地以自然语言表示,(3)控制信号预测也形成语言标记预测;这是可行的,因为数值与语言模型字典中特定标记的独特映射。

Retrival-Augmented In-context Learning

系统的另一个关键组成部分是记忆单元,它包括一个数据库和一个检索引擎。数据库融合了向量化的视频嵌入 ,这是用第III-A节中相同的视频编码器提取的,以及直接来自传感器记录的控制信号 。每个向量都与相应的人类专家文本解释和从训练样本中如第III-B节所见的理由唯一关联。

检索机制 为了执行检索,作者首先利用与方程(1)中相同结构的轻量级MLP投影器,通过度量学习[27]将异构视频和控制信号嵌入投影到相同的混合嵌入中。特别是,作者采用了如方程(4)所示的欧氏距离的三元损失:

在混合嵌入之间的正对和负对是根据BDD-X训练集中驱动行为和理由的文本相似性(即,TF-IDF分数)进行选择的,因为作者旨在形成一个度量空间,使得相似的场景能导致接近的驾驶行为,反之亦然。

这种方法解决了仅依赖视觉相似性的局限性,作者通过实验发现这可能导致次优性能(第IV-D节),同时也解决了难以进行相似性比较的异质传感器输入问题。然后作者通过高效的向量相似性搜索进行检索。

给定一个 Query 向量, Query 向量与数据库中每个向量的余弦相似性计算如下:

随后,作者根据这个相似度分数一致地选择了两个最相关的驱动样本。这些样本代表了整个推理过程,从上下文信息到问题-答案对,如图5所示。

检索增强的上下文学习(RA-ICL) 为了执行RA-ICL,作者在当前 Query 之前加上检索到的样本,这有助于通过LLM的元优化器实现隐式的梯度下降,正如文献ICL 中证明的那样。这种方法也适用于第III-A节中指定的架构的多语言LLM(MLLM)。

对于一个基于Transformer的预训练MLLM,它如公式(2)所示建模前缀条件下的输出概率,作者考虑单个Transformer块中的多头注意力机制中的一个头,如下所示:

其中 分别表示由ICL示例 和当前 Query 嵌入 组成的条件前缀。 分别是对注意力块中的 Query 、Key和Value的线性变换。

现在,在文献 ICL 中,上下文学习被证明可以有效实现一种元优化,通过隐式地使用估计的元梯度来更新模型。在作者的工作中,作者提供了这一点的新的、替代的推导,并得到了文献 Sima 中较新工作的支持,关于以下无softmax线性注意力表达式的情况。

这可以简化,更详细的推导在附录D中,如下所示:

在作者将术语 与ICL示例独立开来,并仅依赖于当前 Query 的情况下,与那些依赖于ICL示例的 进行区分,后者由以下给出:

现在,在附录D中有更详细的说明,一个前向传播过程。

通过一个线性层 ,在权重 经过 更新之后,其权重更新以某种形式与输入耦合。

其中 ,在这里 分别是反向传播损失 并更新权重时的(小批量)输入和输出,学习速率为 。因此,作者有一个加权点积之和,这类似于一种注意力机制。

实际上,通过检查类似的点积表达式 ,作者会注意到这与上面线性层的格式相匹配。

这可以解释为,注意力的输出以一种元最优的方式调整,以符合作为输入上下文提供的样本,类似于在线性层上梯度下降会调整该层以符合小批量训练数据,但至关重要的是,在RAG-Driver 的情况下,这种调整不需要反向传播。

RA-ICL作为一种有效的推理方法,在不进行额外训练的情况下提升了可解释驾驶中MLLM的性能,作者通过实验验证了它在提升模型预测性能和泛化能力方面极其有效。

IV Experiments

Settings and Datasets

作者实证评估了在多模态大型语言模型(MLLM)中提出的检索增强型上下文学习(RA-ICL)框架,旨在针对可解释驾驶应用。作者旨在验证其在一般驾驶场景中的有效性,重点关注两个主要方面:

(1) 在驾驶行为解释和证明中的可解释性。

(2) 控制信号预测。

作者使用BDD-X 数据集进行实验,这是一个在可解释驾驶中广泛采用的基准,包含在美国不同道路和天气条件下77小时的视频。作者按照图5所示自定义格式,从而分别得到用于训练和测试的16,803和2,123个视频问答对。更重要的是,作者进一步探索了在未见环境中零样本泛化的迁移学习能力。作者利用定制的包含58个测试问答对的数据集,这些数据是在英国伦敦录制的,与BDD-X数据集呈现显著的分布偏移。

基准设置 对于所有实验,作者使用BDD-X训练划分来训练MLLM。随后在BDD-X测试划分上对一般可解释性和控制信号预测能力的测试进行评估,以BDD-X训练划分为记忆数据库。对于迁移学习实验,作者采用了相同的基础模型并在Spoken-SAX上进行测试,但记忆数据库是使用BDD-X训练划分构建的,以实现零样本泛化。

实现细节 对于每个驾驶视频,作者统一将其采样为8帧,并将所有帧的大小调整为。对于MLLM,作者在预训练阶段训练模型一次迭代,在微调阶段训练两次迭代。对于嵌入投影器,作者训练模型300次迭代。进一步的实验实现细节在附录B中提供。

评估指标 对于驾驶动作描述和解释任务,作者采用了与Adapt相同的指标,包括4-gram BLEU (B4) ,METEOR (M) ,和CIDEr (C) 。这些指标旨在评估文本生成的质量,其中BLEU关注n-gram的准确率,METEOR融合了语义和句法的细微差别,而CIDEr在图像字幕等任务中强调共识和相关度。

此外,对于控制信号评估,作者再次遵循Adapt并展示转向角(◦)和速度(m )的均方根误差(RMSE)。作者还提出了“容差准确度”指标,Aσ,这代表当预测值以容差阈值σ内二值化时与 GT 值的准确度。

Baseline 方法 作者与各种驾驶动作描述和解释的 Baseline 方法进行了比较,例如基于视频-语言序列到序列的循环神经网络S2VT 和基于视觉注意力的卷积神经网络WAA。同时,作者还与最先进的可解释驾驶方法进行了比较,包括基于视频 Transformer 的ADAPT Adapt 和经过视觉指令调整的MLLM DriveGPT4,后者进一步能够预测控制信号。

Explainability in Driving Action and Justification

作者首先分别评估了驾驶行为解释和辩护的质量和准确性。

picture.image

如表格1的上部所示,RAG-Driver 表现与最先进的专业方法ADAPT Adapt相当,这是之前的MLLM(多任务学习模型)基础方法中没有观察到的特征。

特别是与DriveGPT4相比较时,后者同样使用了具有类似架构和参数数量的MLLM,并额外采用了LLAVA-150K数据集进行视觉指令调整,而仅依赖于BDD-X数据集的RAG-Driver ,在可解释性方面超过了它。所有指标上平均性能提升了10.8%,这一事实证明了ICL(指令控制学习)在提升MLLMs的潜在推理能力方面的有效性。

Control Signal Prediction

作者接下来评估课程(即转向角度)和速度控制信号预测的准确性。

picture.image

如表2所示,RAG-Driver 在开环控制精度上超越了其他方法,在各种容差范围内以及RMSE方面显著优于基准方法。特别是与同样使用相同的视觉输入结合过去的控制信号进行自回归预测的最先进DriveGPT4相比,RAG-Driver 通过实施检索增强的ICL示例而脱颖而出。这表明ICL示例提供的整体推理过程的相似性也有助于数值控制信号预测的改进。

Ablation Study on Retrieval Strategy

作者进行了一项更全面的消融研究,以评估作者提出的检索增强型情境学习(retrieval-augmented in-context learning)的有效性。首先,作者旨在研究用于检索的相似性度量。具体来说,作者将视觉相似性(即仅使用视频嵌入)与混合相似性(即混合视频和控制信号投影嵌入,第III-C节)进行了比较。

作者的实证研究发现,在使用视觉相似性时性能次优,这可能是因为它倾向于优先选择在感知上最相似的情境学习(ICL)示例,而不是有效地展示推理过程。通过微调嵌入,作者不仅利用了异构多模态传感器输入的潜力,还使得更有效的情境学习示例检索成为可能。

作者还探讨了是在训练过程中应用ICL示例,还是仅在推理时应用。正如表3所示,作者发现,在没有预先训练的情况下,MLLM无法使用ICL示例做出合理的预测,无论选择哪种检索策略。这表明,预训练的MLLM不能有效地执行零样本ICL。作者假设有监督的微调在提高MLLM的ICL能力方面发挥着关键作用,这需要提供推理演示,这与文献[18]中的观察结果一致。

picture.image

Generalisation Capacity

自主系统的一项关键能力是能够泛化到其训练分布之外未见过的环境。然而,在可解释驾驶领域,作者发现现有方法无法进行这种泛化,这给它们的部署带来了挑战。如表1下方所示,ADAPT和基础的MLLM(即不使用ICL进行训练)在分布内情况下的性能显著下降。

picture.image

然而,RAG-Driver 利用ICL学习样本来显著提高性能,并取得了很大的优势。请注意,尽管内存数据库是用BDD-X构建的,但RA-ICL仍然可以以零样本的方式进行泛化。这可能是由于混合检索过程的鲁棒性,其中分布偏移较小的样本仍然可以被选中作为有效的ICL示例。

Qualitative Demonstration

作者还展示了一系列定量的例子,比较了人类提供的 T 驾驶动作解释和理由以及作者方法的预测。如图6所示,作者观察到RAG-Driver 在不同环境(即夜间和对抗性天气)下生成了接近人类驾驶员记录的控制信号的健壮、可理解的动作解释和理由。更重要的是,在分布外设定Spoken-SAX中,正如清晰可见的视觉差异所表明的,作者观察到预测同样产生了人类可理解的答案,这定性验证了其非凡的零样本泛化能力。

picture.image

V Limitations and Future Work

这项工作旨在开发一个可泛化的可解释驾驶评论员,使用机器学习语言模型(MLLM),解决了一个阻碍部署的重大障碍:泛化能力不足。然而,仍有一些问题需要解决。例如,虽然已有所缓解,但在MLLM中仍然存在普遍的幻觉问题。作者假设这是由于有限的通用视频理解能力造成的,因为视频编码器每个视频仅处理8帧。

此外,由于对开源模型的获取有限以及计算成本,作者采用了一个相对较小的MLLM,拥有70亿个参数,这比一些最先进模型(例如GPT4V,Gemini)要少。作者预计,开发具有更低计算成本的更强大的MLLM基础模型可以进一步增强MLLM在驾驶应用中的使用。

VI Conclusion

作者提出了RAG-Driver ,这是一个具有检索增强的上下文学习能力的多模态大型语言模型,旨在实现可泛化和可解释的端到端驾驶。它在提供数值控制信号的同时,还能为驾驶行为提供解释和理由。更重要的是,它在不需额外训练的情况下,展示了卓越的零样本泛化能力,适用于未见过的环境。

Discussion and Limitation

多模态大语言模型(MLLM)的规模 尽管作者的多模态大语言模型(MLLM)在驾驶任务的视觉推理和规划方面表现出了令人印象深刻的能力,但值得注意的是,它仅包含70亿个参数。与更知名的模型如GPT4-V 和 Gemini 相比,这个规模相对较小,后者拥有显著更多的参数数量,并展示了接近人类水平的视觉理解和推理能力。

在诸如视觉问答、问题解决和交互式对话等各个相关领域,研究行人观察到了一个明确的趋势:模型的参数规模和训练数据源的广泛性是至关重要的。通常情况下,随着模型规模的扩大,性能也会得到提升。基于这一趋势,作者预计在驾驶应用领域也会出现类似的进步。一个更大的模型可能进一步增强MLLM在驾驶场景中的能力。

上下文学习示例的数量 在训练和推理过程中,作者为每个 Query 提供了2个ICL示例。这是由于LLM Backbone 的上下文窗口大小限制为2048所致。随着最近LLM上下文窗口大小的改进,作者预计将看到ICL示例的更灵活采用。

Training Details

嵌入投影器 作者采用三层MLP作为嵌入投影器,以融合视频和控制信号嵌入成一个混合嵌入。这种轻量级投影器的架构是一个带有GELU激活的四层MLP。它的输入维度为,输出维度为。在Triplet Loss中使用的边缘值为0.5。作者使用Adam优化器,以学习率训练模型200个周期。

MLLM 主干网络 作者采用的学习率为 ,并配合余弦调度器。作者在8块A100 GPU上使用批次大小为4,并采用2步梯度累积,从而实现有效的训练批次大小为128。在最初的5个周期内,作者采用预热策略,预热比例为0.03。作者对该模型进行2个周期的训练。

Baseline Details

在作者的比较中,作者评估了几种 Baseline 方法:

  1. 第一种方法是S2VT,它使用了一种端到端的序列到序列模型,配备长短期记忆(LSTM)网络。它是在配对视频-句子数据上进行训练的,将视频帧序列与相应的词序列相联系,使其能够生成描述视频事件的字幕。
  2. 第二种方法,WAA,采用了一种视觉注意力模型,该模型训练了一个从图像到车辆控制命令的卷积网络。这种方法通过控制器的注意力聚焦于识别有影响力的图像区域,并使用基于注意力的视频到文本模型产生与控制器的注意力图对齐的文字解释,将解释与相关的场景部分相联系。
  3. 第三种方法是ADAPT Adapt,它是一种基于 Transformer 的方法,利用多任务联合训练框架。它将驾驶动作标注与控制信号预测任务相结合。
  4. 最后,DriveGPT4,使用LLaVA生成一个视觉指令调整数据集,该数据集源自BDD-X数据集,处理多模态输入数据,并能够在预测控制信号的同时生成文本回复,在新数据集上借助ChatGPT进行微调。

Linear Layer Parameter Update Derivations

考虑在线性层 的权重 经过更新 后,对其进行一次前向传播。

权重更新本身表示为:

其中 是导致权重更新的层的输入和输出。现在,如果作者实际上是在一个输入-输出小批量 上进行优化,那么作者有

因此,作者有一个加权点积和的形式,这类似于一个注意力机制。实际上,从公式(6)作者可以应用如文献Sima 中所述的无softmax线性注意力表达式。

将线性注意力矩阵与堆叠的上下文和 Query 嵌入相乘,作者得到。

现在提取出的一个公共因子。

并将 和 作为两项都乘以 之前的项。请注意 _与上下文中的项独立_(只依赖于 Query )。现在,在 中,实际上作者有一组在上下文中检索到的样本 使得:

最终,通过观察类似的点积表达式 与 ,作者注意到它们的结构与上面线性层的格式相匹配。

因此,这可以解释为:注意力机制的输出以一种元最优的方式调整,以符合作为输入上下文的样本,类似于梯度下降在线性层上调整该层以符合小批量训练数据,但至关重要的是,在RAG-Driver 的情况下,这种调整是无监督的。

参考

[1].RAG-Driver: Generalisable Driving Explanations with Retrieval-Augmented In-Context Learning in Multi-Modal Large Language Model.

扫描下方二维码,添加 AI驾驶员

获取更多的 大模型 多模态 等信息

picture.image

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
基于火山引擎 EMR 构建企业级数据湖仓
火山引擎 EMR 是一款云原生开源大数据平台,提供主流的开源大数据引擎,加持了字节跳动内部的优化、海量数据处理的最佳实践。本次演讲将为大家介绍火山引擎 EMR 的架构及核心特性,如何基于开源架构构建企业级数据湖仓,同时向大家介绍火山 EMR 产品的未来规划。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论