用于交通物体分割的CLFT模型，借视觉Transformer融合多源数据，应对多样场景 ! - 文章 - 开发者社区

ADAS

Laboratory

picture.image

点击上方

蓝字

关注 智驾实验室

picture.image

加入【

智驾实验室

】交流群，

获取更多内容和资料

picture.image

本文提出了一种用于交通物体分割的Camera-LiDAR融合Transformer（CLFT）模型，该模型利用视觉Transformer融合摄像头和激光雷达数据。

基于利用自注意力机制的视觉Transformer方法，作者扩展了分割能力，并增加了额外的分类选项，以应对包括自行车骑行者、交通标志和行人等多样化物体类别，以及各种天气条件。

尽管模型表现良好，但在恶劣条件下仍面临挑战，这突显了进一步优化以提升在黑暗和雨天的性能的必要性。

总之，CLFT模型为自动驾驶感知提供了一个有吸引力的解决方案，推动了多模态融合和物体分割领域的最新进展，同时需要持续努力来解决现有局限，并充分发挥其在实际部署中的潜力。

引言

本研究扩展了作者之前关于相机激光雷达融合 Transformer （CLFT）（Gu等人，2024年）的工作，该研究采用了 Transformer 网络中的编码器-解码器结构，但使用了一种新颖的渐进式视觉 Transformer 组装策略。作者详细阐述了CLFT方法，并在分割的基础上增加了额外的分类选项。作者的目标是利用相机和激光雷达数据的融合，超越现有的卷积神经网络和视觉 Transformer 模型。

Transformer （Vaswani等人，2023年）最初是为语言模型引入的，它依赖于一种称为自注意力的机制来处理输入数据片段。这使得模型能够同时全局权衡输入数据不同部分的重要性，从而提高计算效率。由于 Transformer 不包含关于输入 Token 顺序的信息，因此会添加位置编码到输入嵌入中，以保留在语言翻译和图像识别等任务中至关重要的信息。

视觉Transformer（ViT）（Dosovitskiy等人，2021年）通过将图像划分为块并将每个块视为一个 Token ，将Transformer架构应用于图像数据，这使得模型能够捕捉图像不同部分之间的全局上下文和关系。密集预测Transformer（DPT）（Ranftl等人，2021年）与ViT类似地处理图像块，但侧重于利用Transformer在捕捉长距离依赖和上下文信息方面的优势，生成像素 Level 的预测。作者的假设是，ViT和DPT的结合能够抓取数据中的依赖关系，从而改善对代表性较低的类别的解释，考虑到自动驾驶数据集在车辆方面存在强烈的不平衡性。

沿着这一研究方向，作者的工作主要有以下贡献：

作者对CLFT模型进行了增强，使其能够处理更广泛的交通目标，包括自行车、标志和行人。
通过广泛的测试，作者证明了与其它视觉Transformer模型相比，作者的模型在准确性和性能指标方面具有优势。
通过利用多模态传感器融合和多注意力机制的优势，CLFT模型被证明是适应多样化环境条件，包括复杂天气状况的解决方案。
相关研究工作

摄像头与激光雷达数据的融合是多模态融合领域广泛研究的话题，其在目标检测和分割方面有广泛应用。多年来，提出了各种技术来解决这些问题，（Cui等人，2022年）提出了以下分类选项：信号级、特征级、结果级和多级融合。信号级融合依赖于原始传感器数据，虽然它适用于深度补全（Cheng等人，2019年）（Lin等人，2022年）和地标检测（Lee和Park，2021年）（Caltagirone等人，2018年），但它仍然遭受纹理信息损失的问题。通过 Voxel 网格或二维投影来表示激光雷达数据作为特征图，例如，VoxelNet（Zhou和Tuzel，2017年）的实现使用原始点云作为 Voxel ，在将激光雷达数据与摄像头像素融合之前。结果级融合通过合并不同模型输出的预测结果来提高准确性（Jaritz等人，2020年）（Gu等人，2018年）。通过回顾文献，可以发现最近的趋势是转向多级融合，它代表了所有其他融合策略的组合。通过将三维激光雷达数据降维到二维图像来利用现有的图像处理方法，解决了由此产生的计算复杂性。作者的工作在解码器层中使用了基于transformer的网络，以交叉融合策略整合摄像头和激光雷达数据。

在(Vaswani等人，2023)的Transformer架构中引入的注意力机制在多个领域产生了巨大影响，尤其是在自然语言处理(Xiao和Zhu，2023)和计算机视觉领域。一个显著的变体是视觉Transformer（ViT）（Dosovitskiy等人，2021），它通过处理全局上下文和长距离依赖关系，在自动驾驶任务中表现出色。在二维平面上感知周围区域主要涉及从摄像头图像中提取信息，其中像(Zhu等人，2024)中提出的鸟瞰视点Transformer进行路面分割等作品值得关注。其他最近的方法包括用于车道线预测和结合语义和实例分割的轻量级Transformer（Lai-Dang，2024）。三维自动驾驶感知是一个广泛研究的主题，主要关注目标检测和分割。在(Wang等人，2021)的DETR3D中，作者提出了一种多摄像头目标检测方法，与依赖单目图像的其他方法不同，它从图像中提取2D特征，并使用3D物体 Query 通过相机变换矩阵将特征链接到3D位置。FUTR3D（Chen等人，2023）采用基于 Query 的模态无关特征采样器（MAFS），并结合具有集合到集合损失的Transformer解码器进行3D检测，从而避免了使用后期融合启发式方法和后处理技巧。BEVFormer（Li等人，2022）通过时空Transformer引入空间和时间注意力层，提高了目标检测和地图分割。

近期的研究强调了相机和激光雷达数据的融合以增强感知能力。例如，CLFT模型将激光雷达点云处理为图像视图，以实现二维语义分割，填补了多模态语义目标分割的空白。

方法论 =========

在本节中，作者详细阐述了CLFT网络在数据处理过程中的结构细节，旨在为读者提供独特的视角，了解感官数据在网络中的 Stream 方式，从而有助于加深对本研究成果的理解和重现。

CLFT网络通过逐步组装来自每个模态的特征，并在最后进行跨模态融合来实现相机-LiDAR融合。形象地说，CLFT网络在处理输入的相机和LiDAR数据时具有两个并行处理方向；两种模态的集成发生在网络解码器块中的“融合”阶段。整个过程中通常分为三个步骤。第一步是预处理输入，将图像类数据嵌入到可学习的Transformer Token 中；第二步紧密遵循ViT（Dosovitskiy等人，2021年）编码器的协议来编码嵌入的 Token ；最后一步是对数据进行后处理，逐步组装和融合特征表示，以获得分割预测。这三个步骤的细节将在以下三个子节中进行描述。

3.1 嵌入

相机和激光雷达输入数据的预处理是独立且并行的。如第1节所述，作者选择了激光雷达处理策略，将点云数据投影到相机平面上，从而获得激光雷达投影图像。对于深度多模态传感器融合，从不同输入到统一模态的转变简化了网络结构并最小化了融合误差。

图1显示，嵌入模块共有四个步骤。第一步是将相机和激光雷达矩阵调整至

行和

列，其中

代表行数，

代表列数。第二步是将输入图像分割成不重叠的固定大小块。每个块的大小

为

像素。因此，代表一个块的 Token 维度

为

。在第三步，将块展平成一维嵌入向量

，长度为

，作为 Transformer 模型的输入 Token 。由于 Transformer 本身缺乏理解块之间空间和二维邻域结构关系的能力，作者为每个块额外添加了位置嵌入（Dosovitskiy等，2021）。额外的嵌入为网络提供了关于块在原始图像中相对空间位置的重要信息。随后，在最后一步，作者将组合的块嵌入通过具有

维度的多层感知器（MLPs）进行处理，其中

表示网络针对不同网络参数配置的各种特征维度。得到的矩阵

是 Transformer 编码器的输入，用于进一步的学习和处理。

picture.image

3.2 编码器

Transformer编码器的核心是多头自注意力（MHSA）机制（Vaswani等人，2023年），它使得网络能够根据各个片段之间的相对重要性进行加权。借助MHSA，神经网络通过计算所有片段对之间的注意力分数，有效地捕捉全局依赖和信息。此外，这些分数被用于生成片段嵌入的加权和。编码器的输出由嵌入矩阵组成，每个矩阵对应于原始图像中的一个片段。

图2展示了作者CLFT编码器的详细过程。编码器的输入是从之前的嵌入步骤得到的矩阵

（参见图2(a)）。矩阵

包含了图像块和位置嵌入，以及可学习的类别 Token 。

的维度是

，这意味着有576个块嵌入和一个额外的位置嵌入。这种方法受到了BERT分词方法的影响，它使用类似的嵌入来捕捉文本中的上下文信息（Devlin等，2019）。随后，多头

矩阵被 Reshape 为

，分别代表 Query （Query）、键（Key）和值（Value）矩阵。方程1显示了这一步中多头注意力的

计算。

其中

表示 Head 向量的横向拼接，

是用于线性变换拼接输出的权重矩阵。每个 Head

都使用自己的投影矩阵单独计算，具体如下：

表示对 Query

、键

和值

的注意力机制。第

个头的投影矩阵

、

和

的计算方法如下：

softmax注意力机制遵循公式4：

术语

表示 Query 与转置键的点积，生成每个 Query -键对的相似度得分。键维度

的平方根防止点积过大，这有助于在训练过程中稳定梯度。对缩放后的相似度得分应用Softmax函数，将其转换为注意力权重，这些权重决定了对于给定的 Query ，每个键值对的重要性。最后，使用注意力权重计算值

的加权和，产生每个头的注意力机制的最终输出。

QKV矩阵随后被 Reshape 为

的形状，其中

代表在CLFT配置中定义的层数（如表1所示）。最后，这些指标经过归一化和MLP层处理，成为CLFT解码器的输入（图2(c)）。

picture.image

表1概述了CLFT编码器的四种潜在配置选项。名称遵循ViT的规范。每种配置都包含预定义的Transformer层和特征维度

，其中包含固定大小的 Token 。CLFT-Hybrid配置与其他配置的区别在于，它使用ResNet50残差网络（He等，2015）将

的图像转换为

的 Patch ，然后将其展平成尺寸为196的一维向量。

3.3 解码器

解码模块处理来自编码器层的 Token ，逐步将特征表示组装成一个三维矩阵。这个矩阵可以可视化成图像以进行预测。作者扩展了最初在(Ranftl等人，2021年)中提出的包含数据读取、连接和重采样的三阶段重组操作，并增加了额外阶段以执行摄像头和激光雷达数据的交叉融合。

在重组的第一阶段，如图3(a)所示，作者将一种特殊的分类键附加到一组N个 Token 上，这可能会捕捉到全局信息。（Ranftl等人，2021）评估了这种映射的三种不同变体：

picture.image

图3(b)展示了解码器的第二阶段。总共

个token在位置token的帮助下被塑造成一个类似图像的特征图。具有

个通道的特征图连接成一个结果

。图3(c)展示了第三阶段，也是最后一个阶段。特征图首先被缩放到大小

，其中

在所有实验中均设置为256。早期层的特征在更高分辨率下进行重采样，而Transformer深层层的特征在更低分辨率下进行重采样。CLFT-Base变体使用层

，CLFT-Large变体使用层

来提取特征。CLFT-Hybrid变体采用ResNet层进行初始特征提取，并包含

的transformer层以进行更深层次的特征表示。缩放系数

为

。

在最后的交叉融合阶段，从特征图中并行结合摄像头和激光雷达特征。提取的特征图使用基于RefineNet的特征融合方法进行结合，该方法按顺序使用两个残差卷积单元（RCUs）。从之前的融合阶段将摄像头和激光雷达表示的结果相加，并通过另一个RCU。最后一个RCU的输出传递到去卷积层，并上采样以计算预测的分割。

4 数据集配置

威姆奥开放数据集（WOD）旨在帮助研究行人进行自动驾驶研究。该数据集包含了在城市和郊区的不同驾驶条件下，由摄像头和激光雷达传感器收集的数据。它包含了对4个物体类别的标签——车辆、行人、骑自行车的人和标志。作者将数据集手动划分为四个子集：晴天、雨天、晴夜和雨夜，每个子集的帧数显示在表2中。

picture.image

作者采用交并比（IoU）来评估模型的性能，同时考虑精确率和召回率的值。IoU的计算被扩展以验证多类语义分割，通过将像素值分配给空值并从最终验证中排除它们来实现。作者将真实值（Waymo标签值）与CLFT模型的输出进行比较，以衡量作者工作的性能。

4.1 指标

作者采用交集与并集（IoU）作为评估网络性能的主要指标。此外，作者还提供了精确率和召回率的结果。IoU主要应用于目标检测应用中，其输出是围绕物体的边界框。作者对普通的IoU算法进行了修改，以适应多类像素级语义目标分割。给定一组预定义的语义类别

，记作

，图像中的每个像素都可以表示为一个对

，其中

和

分别表示预测和真实类别。网络的性能通过具有相同类别的像素数量统计来衡量。并非所有像素都有有效的标签，因此属于类别列表之外的模糊像素被赋予空值，并在评估中不计入。每个类别的IoU由公式5给出，其中

表示非相同类别。

相应地，精确率和召回率通过方程6和方程7获得。

表3：在不同天气条件下，CLFT-Hybrid方法的性能比较。

picture.image

实验结果

5.1 实验设置

基于Transformer的网络在配备Nvidia A100 80GB显卡的服务器上进行训练。每次训练会使用24个样本的批量大小，持续运行最多400个epoch。实施了提前停止的标准，以防止过拟合并确保计算资源的有效使用。

该数据集被划分为三个部分：60%用于训练，20%用于验证，20%用于测试。这种分配方式确保了平衡的方法，使得模型能够有效地学习，在训练过程中验证其性能，并在未见过的数据上评估其泛化能力。

总共进行了九次训练，每次训练使用不同的网络参数：CLFT-Base、CLFT-Large和CLFT-Hybrid。针对仅使用激光雷达、仅使用摄像头以及摄像头+激光雷达数据融合的三种情况，分别进行了独立的训练，以全面评估不同传感器配置下的性能表现。

5.2 气候条件的多样性

作者针对四种不同的天气条件进行了网络性能分析：晴天、雨天、干燥的夜晚和雨夜。在这些不同条件下CLFT-Hybrid方法的测试结果总结于表3中。

在干燥天气条件下，仅使用激光雷达（LiDAR）的CLFT-Hybrid模型的性能与仅使用摄像头数据的性能相当（自行车检测的IoU为64%，行人检测的IoU为68%），略优于结合数据的情况。

在雨天条件下，激光雷达数据优于相机数据（自行车识别度：

，行人识别度：

，相比之下，自行车的识别度为

，行人的识别度为

）。这是预期之中的结果，因为摄像头在雨中会变得模糊不清，而激光雷达通常受影响较小。综合数据也具有竞争力，自行车识别度为

，行人识别度为

，这显示了激光雷达对视觉噪声和低光环境的适应性。

在干燥的夜晚条件下，激光雷达（LiDAR）数据的表现优于组合数据以及单独的相机数据（自行车手识别交并比IoU为67%，行人识别交并比IoU为67%，而相机单独识别自行车和行人的交并比IoU为66%），这展现了激光雷达在低光条件下的优势。

在雨天夜晚条件下，结合激光雷达和摄像头的数据表现最佳（交并比：骑自行车者达到63%，行人达到48%，而仅使用激光雷达时，骑自行车者和行人的交并比均为50%）。跨传感器融合有效地利用了互补信息，提供了深度和纹理细节。

5.3 网络配置的多样性

不同配置的CLFT在干燥天气条件下的性能指标总结于表4中。CLFT-Base配置显示，单独使用相机或激光雷达可以提供相当的结果，但将它们结合并没有带来显著改进。CLFT-Large配置得益于更高的精度，尤其是在结合数据源时，表明在识别物体方面有更好的准确性，尽管交并比（IoU）并没有显著提高。CLFT-Hybrid配置在整体表现上最佳，尤其是单独使用相机数据或激光雷达数据时。此模型有效地利用了两种数据类型的优点，两种数据源的融合为标志提供了高召回率。

picture.image

扫描下方二维码，添加 AI驾驶员

获取更多的 大模型 与 多模态 等信息

picture.image