Transformer交叉注意力让特斯拉弃用激光雷达?

戳蓝字“架构师带你玩转AI” 关注我哦!****

每日一模型系列文章的初衷是通过每天的学习和实操,带领大家深入探索大模型和小模型的奥秘,从而增强对AI模型的理解和应用能力。

2021年AIDAY上,特斯拉将Transformer架构引入了自动驾驶的感知领域,使得摄像头的2D图像可以转化为3D图景,也称鸟瞰图 BEV。

BEV+Transformer端到端的模型为特斯拉提供了强大的感知和数据处理能力,这是特斯拉有信心弃用激光雷达并转向摄像头纯视觉系统的重要原因之一。

本文将从 模型背景、模型介绍、模型应用 三个方面,带 您一文搞懂BEV + Transformer 模型。

picture.image

BEV + Transformer

***********1

*********

模型背景

自动驾驶

自动驾驶算法模块可分为感知、决策、规划控制三个部分。其中, 感知模块是关键组件。

感知部分:

负责获取并解析车辆周围环境的信息。 关键技术如下:

  • 传感器融合: 整合来自激光雷达、摄像头、毫米波雷达等多种传感器的数据,以获得全面而准确的环境感知。
  • 目标检测与跟踪: 识别并持续跟踪道路上的车辆、行人、障碍物等动态和静态目标。
  • 语义分割: 对道路、交通标志、车道线等关键元素进行像素级别的识别和分类。

决策部分:

基于感知信息,做出合适的驾驶行为决策。 关键技术如下:

  • 行为预测: 预测周围车辆、行人等可能的未来行为轨迹。
  • 风险评估: 评估当前驾驶环境的潜在风险,如碰撞可能性。
  • 决策制定: 根据风险评估和目标导航信息,决定车辆的行驶策略,如加速、减速、转向等。

规划控制部分:

根据决策结果,规划出车辆运动轨迹,并控制车辆执行。 关键技术如下:

  • 轨迹规划: 生成从当前位置到目标位置的平滑、安全的行驶轨迹。
  • 运动控制: 根据规划的轨迹,计算并输出控制指令,如方向盘转角、油门和刹车力度等,以实现对车辆的精确控制。

Transformer交叉注意力

Transformer

Transformer,本质上是一个基于自注意力机制的深度学习模型,由于全局注意力机制,Transformer更适合视角变换。目标域中的每个位置与源域中的每个位置访问的距离相同,从而克服了CNN中卷积层感知场的局部限制。

Vision Transformer(ViT)是Transformer在计算机视觉领域的一种重要应用 。

picture.image

Vision Transformer(ViT)

Cross Attention:

Cross Attention(交叉注意力)是一种注意力机制, 用于在两个不同序列之间进行注意力转移 。 在Cross Attention中,两个输入序列必须具有相同的维度,但它们可以是不同的模式形态,如文本、声音、图像等。

picture.image

Cross Attention

Cross Attention vs Self Attention

  • 输入来源:

  • Cross Attention:输入来自两个不同的序列,可以是不同模式的数据。

  • Self Attention:输入是一个单一的嵌入序列。

  • 交互方式:

  • Cross Attention:一个序列用作查询(Q),另一个序列提供键(K)和值(V),实现跨序列的交互。

  • Self Attention:查询(Q)、键(K)和值(V)均来自同一序列,实现序列内部的交互。

picture.image

Cross Attention vs Self Attention

模型介绍

论文 BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

提出了一种新的基于Transformer的BEV特征生成方法 ,该方法能够有效地聚合来自多摄像头的时空特征,并为自动驾驶系统中的多个感知任务提供支持。

picture.image

BEVFormer

模型思路

BEV + Transformer:

特斯拉在业内率先使用 BEV(Bird's Eye View,鸟瞰视图)+ Transformer 进行视觉感知任务,这无疑是自动驾驶技术的一大创新。

picture.image

BEV + Transformer

图像到BEV转换 + 多相机融合:

在Tesla AI Day上,特斯拉揭示了为其FSD(Full Self-Driving,完全自动驾驶)系统提供动力的神经网络复杂内部工作原理, 其中“图像到BEV转换+多相机融合”的构建模块引起了广泛关注。

picture.image

图像到BEV转换 + 多相机融合

构建模块的核心:

这个构建模块的核心是 一个Transformer模块,特别是交叉注意力模块。 交叉注意力允许模型混合不同相机视图的信息,并生成一个统一的BEV特征图,这对于自动驾驶车辆理解其周围环境至关重要。通过使用这种机制,特斯拉的自动驾驶系统能够更好地整合来自不同视角的数据,并形成一个全面的、三维的世界模型。

picture.image

Cross Attention

自信地宣称放弃激光雷达

马斯克能够自信地宣称特斯拉的感知不依赖激光雷达和毫米波雷达,而是依靠纯视觉,很大程度上是因为这种创新的BEV + Transformer架构。 这种方法不仅减少了硬件成本,还提高了系统的可靠性和鲁棒性,因为视觉信息通常比雷达信息更丰富、更易于解析。

模型架构

picture.image

BEVFormer模型架构

BEVFormer整体架构:

(a) BEVFormer的编码器层包含网格形状的BEV查询(BEV queries),时间自注意力(temporal self-attention)以及空间交叉注意力(spatial cross-attention)。

(b) 在空间交叉注意力中,每个BEV查询仅与感兴趣区域(regions of interest)内的图像特征进行交互。

(c) 在时间自注意力中,每个BEV查询与两种特征进行交互:当前时间戳的BEV查询和上一个时间戳的BEV特征。

网格状的BEV查询:

这些查询代表了车辆周围环境的三维空间网格。每个查询都关注于网格中的一个特定位置,用于提取该位置的特征信息。

时间自注意力:

此机制允许BEV查询在当前时间戳与自身进行交互,捕捉时间维度上的动态变化。这对于理解环境中的移动物体和预测它们的未来轨迹至关重要。

picture.image

TSA时间自注意力

空间交叉注意力:

在这个部分,BEV查询与图像特征进行交互,但仅限于感兴趣的区域。这种有针对性的交互有助于模型专注于与当前查询最相关的图像部分,从而提高感知的准确性。

picture.image

SCA空间交叉注意力

********* 3

*********

模型应用

智驾系统在路口主动让行后车:

picture.image

BEV + Transformer 实现智驾系统在路口主动让行后车

智驾系统灵活避开违停:

picture.image

BEV + Transformer 实现 智驾系统灵活避开违停

全文完,如果觉得写得不错,那就点个赞或者“在看”吧,感谢阅读。

如果转载本文,文末务必注明:“转自微信公众号:架构师带你玩转AI”。

推荐阅读

0
0
0
0
评论
未登录
暂无评论