点击下方卡片,关注 「AI视界引擎」 公众号
传感器融合对于自动驾驶和机器人等任务领域的感知系统至关重要。最近,将Transformer与CNN集成在一起在各种感知任务的传感器融合中表现出了高性能。
在这项工作中介绍了一种融合相机和激光雷达数据的方法。通过在多个分辨率上使用Transformer模块,所提出的方法有效地结合了局部和全局的上下文关系。
通过对两个具有漫长路线和高密度交通的具有挑战性的基准进行大量实验,验证了所提方法的性能。在最具挑战性的基准测试中,所提出的方法优于先前的方法,实现了更高的驾驶和违规得分。与TransFuser相比,在Longest6和Town05 Long基准测试中,驾驶得分分别提高了8%和19%。
1、简介
融合来自相机和激光雷达的数据的多模态感知方法在自动驾驶领域取得了重大进展。尽管激光雷达在理解3D场景的几何属性方面表现出色,但其有限的检测语义对象的能力,例如交通信号灯,使其难以在实践中使用。
相比之下,相机提供语义信息,但它们没有3D深度感知。因此,在自动驾驶中,集成相机和激光雷达,弥补彼此的弱点,至关重要。与具有多个无线传感器的通道相关的数据融合方法不同,这些传感器可以选择性地进行数据解码,自动驾驶的传感器融合的整个关注点仅限于建立融合机制。
先前的方法通过在投影空间中合并传感器数据来成功地组合来自局部邻域的特征。与远处的交通灯和标志的交互对基于局部信息的方法提出了挑战。为了解决这个问题,需要弥合传感器数据处理和利用语义和空间信息之间的差距。
最近,在Transformer架构方面取得了显著的进展,它已经成为CNN在无线传感器网络以及自动驾驶领域的可行替代方案。在本文中提出了一种新颖的方法,利用Transformer架构中的注意力机制来聚合传感器数据特征。本文工作的主要贡献有3个方面:
- 本文的方法结合了正弦位置编码和可学习的传感器编码,产生了多模态融合的精细特征表示。
- 融合机制提高了自动驾驶场景中的安全性和可解释性,有助于更可靠的决策制定。
- 所提出的方法在两个具有挑战性的CARLA基准测试中表现出优越性能,即Longest6和Town05 Long。
2、相关方法
多传感器融合在3D检测中变得越来越受欢迎。基于不同传感器融合的时间点,目前的多传感器融合方法可以分为三类:
- Detection-level fusion
- Point-level fusion
- Proposal-level fusion
A. Detection-level fusion
Detection-level fusion,也称为后期融合,是一种将多个传感器的传感器数据合并的直接方法。模型为每个传感器生成鸟瞰视图(BEV)检测结果,然后对它们进行聚合和去重。
然而,这种方法没有充分利用传感器提供的独特特性。相机-激光雷达物体候选融合(CLOCs)解决了这一局限,通过有效地结合了每种模态的优势。它使用相机和激光雷达执行2D和3D检测,并使用几何一致性去除假阳性。
B. Point-level fusion
Point-level fusion,也称为前期融合,将来自激光雷达点云的数据与从相机图像中提取的特征相结合。这涉及使用变换矩阵增强激光雷达点与相机像素,但相机到激光雷达的投影可能会导致由于稀疏性而导致语义丢失,从而限制了融合质量。
C. Proposal-level fusion
值得注意的作品,如Multi-View 3D网络(MV3D),使用激光雷达特征提出初始边界框,并使用相机特征进行迭代精化。
BEVFusion从相机图像中生成BEV特征,并在BEV空间中与激光雷达特征融合。TransFuser使用Transformer来融合单视图图像和激光雷达BEV表示,从而得到了局部和全局上下文的紧凑表示。
本文引入了一些新技术,以捕捉多个传感器之间的局部和全局关系,解决了先前方法无法解决的挑战。
3、本文方法
所提出的方法如图1所示,包括3个主要过程:
- 使用CNN从所有模态单独提取空间特征;
- 集成编码集以生成可解释的特征;
- 利用可解释的特征预测前向路径点。
A. 提取空间特征
相机图像被输入到骨干网络,例如RegNetY-32。这个过程生成一个特征图,其中C代表特征图中的通道数;表示图像视图特征的尺寸。
对于激光雷达点云,考虑了先前的工作来将激光雷达点云数据编码成3D BEV网格上的3-bin直方图。在3D Backbone网络的基础上,获得了特征图。
B. 集成编码集以生成可解释的特征
对于编码,每个传感器的特征图F都经过1×1卷积处理,以获得一个低通道特征图,其中c是所需的输出通道数,和表示特征图的空间尺寸。和合并成一个维度,结果是个Token。每个Token都添加了一个固定的二维正弦位置编码,以保留位置信息。
此外,还包括一个可学习的传感器编码维,用于区分来自N个不同传感器的Token,如下所示:
其中代表编码的Token,代表从第n个传感器提取的Token,和表示每个Token由每个传感器获取的坐标。来自所有传感器的编码Token被连接在一起,并通过Transformer解码器传递。这使得所提出的框架能够捕捉Token之间的关系和相互作用。
所提出框架中的解码器采用标准的Transformer架构。每个解码器层使用查询通过注意力机制从多模态特征中收集空间信息。生成的输出被重新整形为具有尺寸和的两个特征图。这些特征图与每个模态分支中的现有特征图进行元素级求和。环境的紧凑表示被编码成一个512维的融合向量,捕捉了3D场景的全局上下文。
C. 预测前向路径点
Transformer解码器伴随着一个预测模块,利用多个门控循环单元(GRU)来预测路径点。512维的融合向量通过多层感知器(MLP)降低维度至64。得到的向量被馈送到GRU网络中以预测路径点。
与Learning by cheating中的训练过程类似,网络使用损失进行训练,该损失度量了预测路径点与实际路径点之间的差异。损失函数定义如下:
其中表示时间步的实际路径点。
4、实验
表格I和表格II显示了所提方法和现有技术方法的基准测试结果。TransFuser是一种模态集成技术,不包括局部和全局嵌入。
值得注意的是,使用他们公开可用的代码重新训练了基线模型。Latent TransFuser采用与TransFuser类似的架构,但用固定位置编码图像替代了BEV LiDAR。Late Fusion独立提取图像和点云特征,然后通过元素逐个求和来融合它们。Geometric Fusion受到[Deep continuous fusion for multi-sensor 3D object detection]的影响,通过投影使用多尺度特征融合来结合LiDAR和相机数据。
如表格I所示,所提出的方法在Longest6基准测试中以两个主要指标表现优越,DS最高达45.64,IS最高达0.65。在Town05 Long基准测试中,表格II中的结果表明所提出的方法在IS指标上表现最佳,最高达0.73。其他侧重于不惜一切代价达到目标的方法可能会犯更多的错误,违反交通规则,导致IS分数较低。本文的方法考虑了周围环境,做出了更正确的决策,增强了驾驶过程的安全性。
5、参考
[1]. Sensor Fusion by Spatial Encoding for Autonomous Driving.
点击上方卡片,关注 「AI视界引擎」 公众号