Transformer交叉注意力让特斯拉弃用激光雷达? - 文章 - 开发者社区

戳蓝字“架构师带你玩转AI” 关注我哦！****

每日一模型系列文章的初衷是通过每天的学习和实操，带领大家深入探索大模型和小模型的奥秘，从而增强对AI模型的理解和应用能力。

2021年AIDAY上，特斯拉将Transformer架构引入了自动驾驶的感知领域，使得摄像头的2D图像可以转化为3D图景，也称鸟瞰图 BEV。

BEV+Transformer端到端的模型为特斯拉提供了强大的感知和数据处理能力，这是特斯拉有信心弃用激光雷达并转向摄像头纯视觉系统的重要原因之一。

本文将从 模型背景、模型介绍、模型应用 三个方面，带您一文搞懂BEV + Transformer 模型。

picture.image

BEV + Transformer

***********—1

—*********

模型背景

自动驾驶

自动驾驶算法模块可分为感知、决策、规划控制三个部分。其中， 感知模块是关键组件。

感知部分：

负责获取并解析车辆周围环境的信息。关键技术如下：

传感器融合： 整合来自激光雷达、摄像头、毫米波雷达等多种传感器的数据，以获得全面而准确的环境感知。
目标检测与跟踪： 识别并持续跟踪道路上的车辆、行人、障碍物等动态和静态目标。
语义分割： 对道路、交通标志、车道线等关键元素进行像素级别的识别和分类。

决策部分：

基于感知信息，做出合适的驾驶行为决策。关键技术如下：

行为预测： 预测周围车辆、行人等可能的未来行为轨迹。
风险评估： 评估当前驾驶环境的潜在风险，如碰撞可能性。
决策制定： 根据风险评估和目标导航信息，决定车辆的行驶策略，如加速、减速、转向等。

规划控制部分：

根据决策结果，规划出车辆运动轨迹，并控制车辆执行。关键技术如下：

轨迹规划： 生成从当前位置到目标位置的平滑、安全的行驶轨迹。
运动控制： 根据规划的轨迹，计算并输出控制指令，如方向盘转角、油门和刹车力度等，以实现对车辆的精确控制。

Transformer交叉注意力

Transformer ：

Transformer，本质上是一个基于自注意力机制的深度学习模型，由于全局注意力机制，Transformer更适合视角变换。目标域中的每个位置与源域中的每个位置访问的距离相同，从而克服了CNN中卷积层感知场的局部限制。

Vision Transformer（ViT）是Transformer在计算机视觉领域的一种重要应用。

picture.image

Vision Transformer（ViT）

Cross Attention：

Cross Attention（交叉注意力）是一种注意力机制， 用于在两个不同序列之间进行注意力转移 。在Cross Attention中，两个输入序列必须具有相同的维度，但它们可以是不同的模式形态，如文本、声音、图像等。

picture.image

Cross Attention

Cross Attention vs Self Attention

输入来源：
Cross Attention：输入来自两个不同的序列，可以是不同模式的数据。
Self Attention：输入是一个单一的嵌入序列。
交互方式：
Cross Attention：一个序列用作查询（Q），另一个序列提供键（K）和值（V），实现跨序列的交互。
Self Attention：查询（Q）、键（K）和值（V）均来自同一序列，实现序列内部的交互。

picture.image

Cross Attention vs Self Attention

模型介绍

论文 BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

提出了一种新的基于Transformer的BEV特征生成方法 ，该方法能够有效地聚合来自多摄像头的时空特征，并为自动驾驶系统中的多个感知任务提供支持。

picture.image

BEVFormer

模型思路

BEV + Transformer：

特斯拉在业内率先使用 BEV（Bird's Eye View，鸟瞰视图）+ Transformer 进行视觉感知任务，这无疑是自动驾驶技术的一大创新。

picture.image

BEV + Transformer

图像到BEV转换 + 多相机融合：

在Tesla AI Day上，特斯拉揭示了为其FSD（Full Self-Driving，完全自动驾驶）系统提供动力的神经网络复杂内部工作原理， 其中“图像到BEV转换+多相机融合”的构建模块引起了广泛关注。

图像到BEV转换 + 多相机融合

构建模块的核心：

这个构建模块的核心是 一个Transformer模块，特别是交叉注意力模块。 交叉注意力允许模型混合不同相机视图的信息，并生成一个统一的BEV特征图，这对于自动驾驶车辆理解其周围环境至关重要。通过使用这种机制，特斯拉的自动驾驶系统能够更好地整合来自不同视角的数据，并形成一个全面的、三维的世界模型。

picture.image