南洋理工提出Lidar与Camera融合新方法 | AYDIV在数据不一致的情况下也能检测小目标

技术

ADAS Laboratory

picture.image

点击上方蓝字关注 智驾实验室

picture.image

picture.image

结合激光雷达和摄像头数据在提高自动驾驶系统中近距离目标检测方面显示出潜力。然而,由于激光雷达稀疏数据与摄像头高分辨率之间的对比,这种融合在远距离检测上遇到了困难。此外,两种数据表示之间的不一致性进一步复杂化了融合方法。

作者引入了AYDIV,一个新颖的框架,它集成了一个专门设计的三阶段对齐过程,以增强即使在数据不一致的情况下也能进行远距离检测。AYDIV包括全局上下文融合对齐 Transformer (GCFAT),它提高了摄像头特征的提取并提供了对大规模模式的深入理解;稀疏融合特征注意力(SFFA),它微调激光雷达和摄像头细节的融合;以及用于全面空间数据融合的体积网格注意力(VGA)。

AYDIV在Waymo开放数据集(WOD)上的表现,mAPH值(L2难度)提高了1.24%,在Argyrese2数据集上的性能提高了7.40%的AP值,这证明了与其他现有基于融合的方法相比,其有效性。

代码:https://github.com/sanjay-810/AYDIV2

1 Introduction

自动驾驶感知系统依赖一系列传感器来不断提升在关键驾驶场景下的性能。在这些传感器中,激光雷达(LiDAR)和摄像头在自动驾驶车辆中发挥着至关重要的作用,特别是在3D目标检测(3D OD)领域,该领域涉及定位和分类。尽管激光雷达的重要性不言而喻,但它提供的是低分辨率信息,已有许多方法被探索以提高在各个基准数据集上的竞争力表现。然而,由于激光雷达传感器的固有局限性,它们产生的点云数据通常比较稀疏,缺乏有效区分远距离区域的必要上下文信息,最终导致性能不佳。

传感器融合,尤其是激光雷达(LiDAR)与摄像头数据的融合,是一项复杂的任务,因为需要对来自两个源的特征进行对齐。研究主要有两种主导方法:早期融合和中期融合。早期融合,如文献[7]和[8]所示,立即结合两种数据源。另一方面,中期融合,如文献[9, 10]中的方法,特别是MV3D和AVOD,在特征提取后进行融合。MV3D使用感兴趣区域(RoI)融合进行细致的组合,而AVOD通过混合图像和鸟瞰图(BEV)特征来强调高召回率。MMF方法整合了2D检测和深度信息,提高了3D检测的准确性。在源之间实现准确的数据对应对于有效的融合至关重要。

为了解决前述问题,作者提出了一种新颖的融合网络,称为AYDIV,它在全局和局部层面上执行激光雷达-相机融合,如图1所示。作者的AYDIV由三个新型组件组成:全局上下文融合对齐 Transformer (GCFAT)、稀疏融合特征关注(SFFA)和体积网格关注(VGA)。

picture.image

为了为不同距离的目标提供详细区域特定的数据同时保留更精细的位置信息,作者提出了GCFAT 方法,通过将深度估计与RGB图像合并来增强图像特征提取,利用两种关注机制:局部多尺度关注(LMSA)处理小尺度细节,以及全局扩散关注(GDA)处理更广泛的模式,从而实现了全面的图像理解。SFFA 提供了一种独特的稀疏关注机制,以整合 Voxel 化的激光雷达特征数据与图像特征,在其关注块中使用整流线性单元(ReLU)而非传统的sigmoid函数,可能优化图像识别。相比之下,VGA 关注于3D RoI特征融合而非2D,提供丰富的带有深度细节的空间数据,这对于3D目标识别等任务至关重要。

作者的AYDIV在3D目标检测方面展示了卓越的性能,在WOD和AV2上的表现均非常出色。令人印象深刻的是,AYDIV在这两个数据集上超过了所有目前使用摄像头和激光雷达进行3D检测的方法,在WOD上达到了令人印象深刻的82.04 mAPH(L2)检测率。

总之,作者对这篇论文的主要贡献如下描述:

  1. 作者是首个将Transformer块与GCFAT结构相结合的团队,这使得全局深度信息能够与RGB图像融合,从而增强从RGB数据中提取深度特征的能力。
  2. 使用SFFA框架,作者引入了一种方法,通过稀疏注意力机制融合 Voxel 点云和图像特征,优化它们的整合。
  3. 作者的新型RoI特征融合VGA方法改进了伪点云与图像特征之间的融合过程,从而实现了最终的整合。
  4. 在Waymo和Argoverse 2等多类别3D数据集上的测试显示,AYDIV在不同距离上均表现出一致的性能,突显了其在3D目标检测中的有效性。

2 AYDIV

AYDIV Pipeline ,如图1所示,围绕三个关键组件:GCFAT、SFFA和VGA。

为了简化,作者考虑给定的多模态输入-输出序列,由定义,其中第个输入序列包括两种模态:LiDAR表示为和相机图像。第个输入的原始LiDAR点云表示为,其中,其中表示LiDAR点的位置,是强度,是点的总数。

深度估计() 。将稀疏激光雷达生成的点云数据()与相关的RGB图像相结合,后者表示为,在图像特征提取模块中提取全局相关特征已被证明是有利的。当提供一组表示为的点云时,作者有能力通过一个定义良好的投影函数,即,将它们转换为稀疏深度图,。在这种情况下,映射函数采取的形式是一种通常称为深度网络[33]的神经网络。

LiDAR Feature Extraction through Voxelization

作为预处理阶段的一部分,作者将第个输入点云数据()转换为维度为的 Voxel 化表示,记作,并通过计算非空 Voxel 点的平均特征来得到 Voxel 特征。为了识别关键点,作者采用了最远点采样(FPS)方法,得到个关键点(),其中在两次实验中都等于4096。

接着,作者通过计算每个 Voxel 内所有点的3D坐标和反射值等特性的平均值来表征非空 Voxel 。点云的特征体积随后通过一系列的3D稀疏卷积进行变换,产生下采样的空间分辨率,分别为和。稀疏特征体积可以被概念化为与特定 Voxel 相关的特征向量的集合。最终,激光雷达样本中每个 Voxel 的特征向量表示为。

Gcfat

作者介绍了一种新型的融合对齐 Transformer ,称为GCFAT,如图2所示,它将来自RGB图像()的局部特征与全局深度估计()相结合,以生成对齐的特征表示。因此,每个GCFAT阶段都包括交替的局部关注和全局扩散关注(GDA)模块,这些模块提取丰富的特征表示。局部窗口的操作类似于基准视觉 Transformer ,例如Swin Transformer,Global Transformer,而当RGB图像通过局部 Query 生成器时,它利用局部多尺度关注(LMSA)模块提取局部特征并关注不同 Level 的细节。

picture.image

GDA LMSA机制被限制在指定的局部窗口内 Query Patch 。相比之下,全局注意力机制具有在统一框架内从深度图()的计算中 Query 不同模态的能力。与其它单一模态方法不同,全局 Query 元素的计算是预先确定的。因此,GDA使用来自深度图()的全局 Query Token与局部Key和Value表示进行交互,而GCFAT通过在两种模态()之间交换局部和全局自注意力块,有效地捕捉局部和空间复杂性。GDA模块通过将注意力应用到整个场景来增强全局上下文,考虑到RGB衍生特征(键-值对)与初始深度图( Query )之间的相关性。

具体来说,全局深度 Query 具有维度,表示批量大小(),嵌入 Patch 维度(),以及局部 Patch 窗口的高度和宽度(和)。为了与总窗口数对齐,沿着批量维度进行复制,得到增强的批量大小,其中表示局部 Patch 窗口的数量。在每个局部窗口中,使用线性层计算Key和Value,有效地提取相关信息。

通过局部窗口和全局深度 Query Token的交互,GDA模块扩展了其感受野,关注输入特征图中的不同区域。因此,GDA模块表示为:

在文中,、 和 分别代表全局深度 Query 、Key和Value的GDA。 表示如方程1所描述的两个不同模态之间的注意力函数。另外, 指的是不同的归一化变体,作者使用层归一化。因此,作者将基于全局深度 Query 的图像特征提取表示为 。

Sffa

介绍一种单阶段集成技术,如图3所示,称为SFFA,它将稀疏 Voxel 化的激光雷达特征()与来自GCFAT的图像特征()对齐。

类似于GDA模块,作者将从GCFAT提取的特征视为Key()以搜索与 Query ()的对应关系,从而将激光雷达特征()与图像中的相似结构对齐。为了更清楚地理解作者提出的SFFA机制中的 Key - Query - Value匹配,下面将对其进行描述。

picture.image

在哪里,, 和 分别是针对SFFA的 Query 、Key和Value。 表示如公式2所描述的两个不同模态之间的注意力函数。此外,ReLU块输出和原始的值通过矩阵乘法合并,捕捉对应关系并将从的3D结构与从的纹理和颜色细节整合在一起。另外,作者遵循所提出的AYDIV方法中的相同标准化方法 LN(·) = RMSNorm(·)。因此,作者使用全局LiDAR Query 表示图像特征的提取,记作。

Vga

作者在图4中展示了VGA,这是一种新颖的网格融合技术,它整合了两种模态之间的沿通道维度:伪图像RoI特征(由SFFA模块输出),表示为,以及伪激光雷达RoI特征,表示为。因此,作者应用了一个全MLP层来生成一组标量(,),其中和都是可学习参数。通过用(,)加权(,),得到融合的注意力网格特征。从数学上讲,的获取方式如下:

通过将2D图像转换为类似3D的云结构,作者可以将来自图像和点云的RoI特征复杂地结合在一起。

Loss function

AYDIV使用Voxel R-CNN 进行RPN和RoI损失计算,此外还使用了融合损失和与 Transformer 相关的损失。

IV Experiments

Dataset details

WOD 在3D目标检测基准测试中领先,包含1,150个序列,20万+帧图像,以及激光雷达、图像和3D边界框的混合。它由798个训练序列、202个验证序列和150个测试序列组成,具有75米的检测范围和150m x 150m的覆盖面积。作者使用平均精度(AP)和加权航向的平均精度(APH)来评估模型。作者展示了LEVEL_1(L1)和LEVEL_2(L2)难度项的结果,对模型的性能进行了全面评估和对比。

AV2 验证了作者的远程实验,强调200米的感知范围和400m 400m的覆盖面积。它包含1000个序列:700个用于训练,150个用于验证,150个用于测试。AV2涵盖30个目标类别,但作者使用20个 Head 类别进行评估,排除了10个尾部类别,采用平均精度(AP)指标。

Implementation Details

网络架构。 AYDIV中的LiDAR模块基于Voxel-RCNN架构。作者使用两种模态计算深度信息,遵循来自[33]的深度网络。作者采用数据增强方法,如旋转、翻转、全局缩放、局部噪声以及与类似类别一起训练。使用具有四个 Level 的3D Voxel CNN提取 Voxel 化特征,特征维度为16、32、64和64。在GDA模块中,关注头的数量()设置为8,投影维度为,关注窗口的 Patch 大小(和)设置为7。

作者对注意力亲和矩阵应用30%的dropout进行正则化。GDA模块后的MLP层与SFFA共享相同的结构,SFFA中有一个头。RoI网格池化使用VGA,在每个3D Proposal 内选择的网格点,然后是一个没有dropout的64个滤波器的MLP层。

训练与推理细节。 AYDIV模型是从零开始训练的,使用ADAM优化器,批量大小为32,学习率为0.01,持续100个周期。在 Proposal 细化阶段,随机选择128个 Proposal ,保持正负 Proposal 之间的1:1比例。作者对两个数据集都将 Voxel 大小设置为(0.1m, 0.1m, 0.15m),以增强空间分辨率。

在推理过程中,非极大值抑制(NMS)被应用了两次:首先使用IoU阈值为0.7来选择前100个区域 Proposal 作为检测Head的输入,然后在细化之后,使用IoU阈值为0.1来移除冗余的预测。

Performance on WOD and AV2

WOD。 表1和表2分别详细列出了AYDIV在WOD测试集和验证集上的性能表现。正如表1所展示的,AYDIV表现出色,在L1和L2难度 Level 上都超越了其他领先方法。与LoGoNet相比,AYDIV显示出显著的提升,且这些提升都是在未使用集成技术或测试时间增强(TTA)的情况下实现的。

更具体地说,非TTA版本的AYDIV在车辆类别上比LoGoNet分别高出2.18 AP/L1, 1.92 APH/L1, 3.21 AP/L2, 和 2.68 APH/L2;在行人类别上高出1.98 AP/L1, 2.69 APH/L1, 3.67 AP/L2, 和 4.21 APH/L2;在骑行者类别上高出7.68 AP/L1, 7.96 APH/L1, 7.95 AP/L2, 和 7.10 APH/L2,总计在L2 Level 上提升了4.67 mAPH。

在使用TTA版本的情况下,AYDIV在车辆类别上比LoGoNet-Ens高出0.79 AP/L1, 0.58 APH/L1, 1.04 AP/L2, 和 0.31 APH/L2;在行人类别上高出0.05 AP/L1, 1.05 APH/L1, 1.36 AP/L2, 和 1.96 APH/L2;在骑行者类别上高出1.25 AP/L1, 1.18 APH/L1, 1.38 AP/L2, 和 0.81 APH/L2,这导致了整体mAPH/L2增长1.24%。

picture.image

表2在WOD验证集上为3D检测模型的性能提供了全面比较。值得注意的是,AYDIV在不同难度 Level 上均显示出显著的改进。在L1难度 Level 上,它在WOD上的验证结果比LoGoNet 分别高出:对于车辆,3.15 AP/L1,3.00 APH/L1,5.20 AP/L2,和4.37 APH/L2;对于行人,2.40 AP/L1,3.10 APH/L1,3.82 AP/L2,和2.74 APH/L2;对于骑车人,3.15 AP/L1,2.45 APH/L1,2.65 AP/L2,和2.59 APH/L2,在总体上提升了4.27% mAPH/L2。这些改进显示了AYDIV准确识别所有类别的能力,凸显了多模态特征对齐在细化3D目标检测中的潜力。

AV2. 表3展示了AYDIV与其他最先进方法的性能对比,其中作者考虑了两种模态的性能。在引入修改版本CenterPoint+后,作者发现与之前的版本CenterPoint相比,AP显著提升了52.4%。此外,FSD方法在基于单一模态的3D目标检测方面也展示了显著性能提升。

picture.image

与CenterPoint+相比,FSD方法在AP上提高了10.91%。当考虑两种模态时,BEVFusion相对于FSD将AP提升了4.73%。当通过特征对齐将cross-former-based特征融合添加到DeepFusion中时,与BEVFusion相比,AP增加了10.62%。

在考虑了LoGoNet中的局部-全局注意力机制后,AP值的性能提升微乎其微,仅为0.5%。AYDIV集成了三种注意力组件,以37.70的AP值超越了LoGoNet,提升了7.40%。为了更好地理解AYDIV的性能,作者在图5中进行了性能比较,从图中可以明显看出,AYDIV可以在BEV地图中以高置信度检测到更多目标。

picture.image

V Ablation Studies on WOD

(A) 各组成部分的影响。 表4总结了在两种场景下,单个组成部分对AYDIV模型性能的影响。在没有SFFA的情况下,仅使用GCFAT和VGA,相较于使用所有组件,车辆的性能下降了4.51%,行人的性能下降了7.78%,自行车的性能下降了5.64%。这是由于稀疏激光雷达特征提取器()的限制,尽管它通过在图像上使用激光雷达估计深度(),但未能实现最佳融合对齐。

picture.image

当不包括GCFAT时,性能下降更为显著:车辆的下降9.48%,行人的下降23.97%,自行车的下降14.18%,尽管将图像特征投影以匹配激光雷达特征,使其表现得像传统的基于激光雷达的 Voxel 化检测器。

(B) 在 AYDIV 中的重要性。 作者评估了两种流行的视觉 Transformer 模型,SwinV2 和 GCVIT,结合了 SFFA 和 VGA 组件,但没有包含深度信息 ()。

picture.image

表5的结果显示,与 AYDIV 相比,使用 SwinV2 使作者的模型在车辆上的性能降低了7.04%,在行人上降低了6.58%,在骑车人上降低了4.95%。当作者使用融合了 conv2D 的 GCVIT 时,性能相比 SwinV2 有所提高,但仍然没有达到 AYDIV 的水平,车辆上降低了5.51%,行人上降低了6.01%,骑车人上降低了3.75%。尽管包含了其他对齐方法,但全局上下文激光雷达信息(与图像的视差)的缺失会导致检测性能明显下降。这突显了使用 作为全局 Query 以最小化视差并提升性能的重要性。

VI Conclusions

作者引入了AYDIV,一种基于 Transformer 的三维多模态目标检测方法,该方法由三个关键组件组成:GCFAT、SFFA和VGA。这些组件旨在捕捉局部和全局的依赖关系,从而在短距离和长距离上提高3D检测的有效性。

为了确定AYDIV的有效性,作者在WOD和AV2基准数据集上进行了全面的实验。AYDIV在多模态目标检测中展示了其有效性,与现有先进技术相比,取得了具有竞争力的性能。此外,作者还进行了全面的消融实验,以比较每个提出组件对AYDIV性能的影响与其它基于 Transformer 技术的影响。

在未来,AYDIV 可以被扩展到包括健壮性分析,在这里作者将检查自然健壮性和对抗性健壮性条件。虽然作者已经将其应用于自动驾驶车辆数据的背景下,但融合对齐方法有望在其他安全关键领域找到应用,例如自主机场,其中空中交通管制员依赖于精确的3D检测方法来为复杂任务做出关键决策。

参考

[1].AYDIV: Adaptable Yielding 3D Object Detection via Integrated Contextual Vision Transformer.

扫描下方二维码,添加 AI驾驶员

获取更多的 大模型 多模态 等信息

picture.image

picture.image

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论