ECFusion 消除冲突增强多模态 BEV 特征融合 | 在 nuScenes 3D 目标检测数据集上取得了SOTA 表现!

技术

点击下方卡片,关注 「AI视界引擎」 公众号

picture.image

近期,3D目标检测器通常利用多传感器数据和在共享的鸟瞰图(BEV)表示空间中统一多模态特征。然而,我们的实证研究发现,以前的方法在生成无跨模态冲突的融合BEV特征方面存在局限性。这些冲突包括由BEV特征构建引起的外在冲突和源于异质传感器信号的内在冲突。

因此,提出了一种新颖的消除冲突融合(ECFusion)方法,以明确消除BEV空间中的外在/内在冲突,并生成改进的多模态BEV特征。具体而言,设计了一个语义引导的基于流的对齐(SFA)模块,在融合之前通过统一BEV空间中的空间分布来解决外在冲突。此外,我们设计了一个消解查询恢复(DQR)机制,通过保留在融合BEV特征中丢失的目标性线索来弥补内在冲突。

总体而言,ECFusion最大化了每种模态的有效信息利用,并利用了模态间的互补性。ECFusion在竞争激烈的nuScenes 3D目标检测数据集上取得了最先进的表现。

关注公众号,获取代码链接。

1 Introduction

三维目标检测对于实现安全高效的自动驾驶至关重要,它让车辆能够准确地在现实世界的三维环境中定位和识别物体。为了达到精确可靠的三维目标检测,一些方法通过多种多模态融合策略结合来自激光雷达点云和摄像头RGB图像的信息。具体来说,点云提供了准确的3D定位信息,而RGB图像则提供了丰富的上下文细节。因此,结合这些互补的模态提高了三维目标检测的准确性和鲁棒性。最近,先进的方法[1, 2]试图在统一的鸟瞰图(BEV)空间中融合激光雷达-相机特征。

通常,鸟瞰图(BEV)空间为多模态特征融合提供了一个合适的中间表示。然而,现有的融合策略仅考虑了模态间互补BEV特征所带来的好处,而忽略了跨模态冲突所引起的干扰。然而,我们认为,受异构跨模态特征间冲突影响的多模态融合操作可能会损害准确预测。特别是,跨模态冲突主要来自两个方面,即外在冲突和内在冲突。

  1. 外在冲突源于在不同模态构建BEV特征过程中的变异性。具体来说,由于LiDAR和摄像头模态是由独立编码器分别提取并使用不同的投影方法映射到BEV的,因此它们表现出空间上错位的BEV特征分布。因此,这些错位在合并时不可避免地导致错误的物体信息。例如,图1(a)所示,在LiDAR预测中可以正确定位的汽车,在摄像头BEV中却明显存在空间特征错位,因为基于不确定深度的冗余物体被投影。这种来自特征投影的外在冲突导致融合预测中出现假阳性。
  2. 内在冲突源于模态间传感器信号的差异模式。具体而言,由于物体距离、光照、天气状况、遮挡情况等因素的影响,多模态特征对不同物体表现出不对称的感知能力。先前的方法预期具有更优越感知能力的模态将主导融合过程。然而,我们发现另一个模态过弱的物体置信度同样会阻碍正确结果。如图1(b)所示,由于丰富的图像视觉线索,摄像头可以召回远距离和小型的行人和交通锥,而在LiDAR预测中却因稀疏点结构而遗漏。这种来自传感器信号的内在冲突导致融合预测中出现假阴性。因此,在使用多模态特征实现准确和鲁棒检测时,跨模态冲突是一个不容忽视的因素。

picture.image

在本文中,我们提出了一种消除冲突融合(ECFusion)方法,以避免融合过程中因冲突造成的感知能力退化。首先,为了消除外在冲突,我们提出了一个基于流的对齐的语义引导(SFA)模块,该模块通过使用从语义对应中导出的空间流,将激光雷达和相机鸟瞰图(BEV)特征对齐到一致的分布。

具体来说,首先将具有类别感知Heatmap语义信息的对应位置与另一种模态进行关联。然后,将这种对应转换为流场,用于传播BEV特征以便对齐。通过这种方式,可以在融合之前通过对齐来减轻由外在冲突引起的融合干扰。其次,为了消除内在冲突,引入了一种消解查询恢复(DQR)机制,旨在发现因内在冲突而在融合Heatmap中溶解的目标查询,并从单独的激光雷达和相机BEVHeatmap中恢复它们。

具体而言,除了像先前方法那样从融合Heatmap中生成目标查询外,我们还探索潜在的单模态目标查询。我们通过Mask Heatmap策略关注那些与融合特征不一致地表现出高对象性的位置。我们的设计旨在确保最大限度地利用单模态特征中的感知能力。

贡献总结如下:

  1. 研究了在将多模态特征融合到统一鸟瞰图(BEV)空间时被忽略的跨模态冲突,以及它们如何阻碍激光雷达-相机三维目标检测。
  2. 提出了ECFusion方法,以消除多模态BEV特征之间的冲突,包括在融合前进行空间对齐的SFA模块,以及融合后恢复有用对象查询的DQR机制。
  3. 广泛的实验表明,ECFusion在nuScenes数据集上实现了激光雷达-相机3D目标检测的最先进性能。

2 本文方法

如图4所示,ECFusion方法首先利用激光雷达和相机BEV特征提取分支,从各个模态生成特定模态的BEV特征。然后,利用多模态BEV特征融合分支整合激光雷达和相机BEV特征,形成一个统一的融合BEV特征。

picture.image

在融合分支中,我们提出了一种基于语义引导的流式对齐(SFA)模块,首先减少激光雷达和相机BEV特征之间的空间分布差异(即外在与冲突),然后再进行融合。接着,基于激光雷达、相机和融合的BEV特征,我们设计了一个消解式查询(Dissolved Query)。

恢复(DQR)机制以生成全面的对象查询。具体来说,DQR机制旨在恢复由于两种模态之间不对称的感知能力(即固有冲突)导致的分解对象查询,这种感知能力来自单模态特征。最后,使用Transformer解码器根据导出的对象查询来预测最终的3D边界框。

Single-Modal BEV Feature Extraction

激光雷达和相机BEV特征提取分支的细节展示在图2中,其中激光雷达和相机BEV特征是分别产生的。

picture.image

激光雷达鸟瞰图特征提取。 对于输入的点云数据 ,如图2(a)所示,我们首先将它们划分为规则体素 ,并使用带有3D稀疏卷积的体素编码器来提取特征 ,其中 表示3D体素网格的大小。然后,我们沿着轴将 投影到鸟瞰图(BEV)上,并采用几个2D卷积层来获得激光雷达鸟瞰图特征图 。

相机BEV特征提取。 对于给定的输入视角图像,如图2(b)所示,我们首先通过图像编码器提取特征,其中表示图像特征图的大小。为了构建相机BEV特征图,我们通过Lift-Splat-Shoot(LSS)模块对每个视角的图像特征应用视图变换。最后,相同BEV网格内的特征通过BEVPool操作进行聚合。

Semantic-guided Flow-based Alignment

在多模态的鸟瞰图(BEV)特征融合分支中,我们旨在将激光雷达的鸟瞰图特征 和相机的鸟瞰图特征 结合起来,构建融合的鸟瞰图特征 。然而,先前的方法忽略了这两种鸟瞰图特征之间的外在冲突,即不一致的空间/语义分布模式,并直接将两种鸟瞰图特征拼接作为融合结果。

请注意,这种外在冲突是由原始信号坐标的差异、鸟瞰图特征提取流程以及投影过程中的不同造成的。例如,将图像特征投影到鸟瞰图空间需要解决病态的单目深度估计问题,这不可避免地会导致预测的对象深度不准确。因此,由于这种不准确的对象深度,投影的相机鸟瞰图特征将包含错误位置上不存在的/冗余的对象,与激光雷达的鸟瞰图特征形成明显的错位。

因此,详细阐述了一个基于语义引导流的对齐(SFA)模块,用于对齐激光雷达和相机鸟瞰(BEV)特征,以在融合前获得一致的空间分布。受到光学流方法的启发,通过在不一致区域应用适当的流变换来修正空间差异。

picture.image

具体来说,如图3所示,首先建立两种模态之间的空间对应关系。由于激光雷达和相机鸟瞰图特征 是从两个独立/异构的分支生成的,直接在 和 之间建立对应关系是不可行的。因此利用归一化的激光雷达和相机鸟瞰图Heatmap ,其中 是物体类别的数量,来捕捉逐像素的空间对应关系。在技术上基于 邻域内的跨模态语义相似性,为每个像素构建空间对应关系。

首先,从中获得跨模态代价体积,其可以表示为:

然后使用一个轻量级的卷积块来估计流场 ,它们在模态间起到空间对应关系的作用:

接下来,采用可微的双线性采样操作,基于 对特征进行扭曲,这种操作线性插值了扭曲位置周围邻域的特征。正式地说,对齐的鸟瞰图(BEV)特征 获取方式如下:

在这里, 表示邻域双线性插值。然后将它们融合为 。得益于融合前的基于流的空间对齐,它避免了由外部冲突引起的特征不协调。

Dissolved Query Recovering Mechanism

基于融合的鸟瞰图(BEV)特征 ,遵循[3]的方法,大多数先前方法直接生成类特定的融合Heatmap 并选择 Top- 局部最大候选索引。所选候选者的信息用于初始化对象查询 的上下文特征和位置嵌入,这些查询通过 DETR 风格的解码层用于聚合相关的上下文和预测框参数。

因此,确保初始查询的高质量对准确检测至关重要,因为如果没有相应的查询,对象是不太可能被回忆起来的。从理论上讲,我们期望融合查询 能够整合来自点云和图像模态的所有有价值的目标性线索,使它们能够继承每种模态的独特检测能力。

picture.image

然而,我们发现当前的方法 ,如图5所示,这意味着中的许多对象,如果未被融合查询匹配,可以通过模态特定查询来回忆。我们的研究显示,尽管当前方法学到的融合策略确实可以识别新对象,但它将牺牲不可忽视的单模态检测能力的一部分。因此,研究如何在利用跨模态互补的同时保持单模态检测能力是至关重要的。

因此,我们提出了一个溶解查询恢复(Dissolved Query Recovering, DQR)机制,以明确保持单一模态的检测能力。我们的基本概念围绕着探索那些因冲突而溶解在融合Heatmap中的查询,但可以从单一模态Heatmap中恢复的查询。此外,我们还全面整合了多源查询,以提高召回率。

具体来说,除了从多模态Heatmap 中产生的查询 之外,还生成特定于模态的查询 ,以单模态Heatmap 作为补充。首先基于融合查询位置 生成一个融合掩码 。将这个掩码应用于单模态Heatmap,我们避免了为同一对象生成冗余的查询,因此专注于探索与融合Heatmap相比具有独特对象位置 的过程,如下所示:

其中 表示逐元素相乘。在获得多组查询位置后,使用相应的位置嵌入对对应的鸟瞰图(BEV)特征进行采样,以构建统一查询 ,如下所示:

在这里, 表示位置编码函数。然后在Transformer解码器中,我们采用查询之间的自注意力来处理不同对象之间的关系,以及查询与融合特征之间的交叉注意力来聚集相关上下文。最后,使用一个前馈网络(FFN)根据聚集的查询特征来预测三维边界框 。

Model optimization

在训练过程中,采用了文献[1]中的匹配成本和损失函数。具体来说,对所有边界框预测的计算检测损失 以进行优化,包括对所有结果的分类损失以及仅与GT框匹配的正样本对的位置回归损失。此外,还采用了Focal Loss 用于三种Heatmap预测,这些预测由GT框中心生成的具有高斯分布的GT图。

需要注意的是,对于 的GT图应该通过融合掩码 同步进行遮蔽。总损失是 。

IV experiments

Datasets and Metrics

我们验证了ECFusion在大规模nuScenes数据集上的有效性,该数据集是目前最受欢迎的多模态3D目标检测基准。nuScenes包含700个序列用于训练,150个序列用于验证,以及150个序列用于测试。每个序列大约20秒长,包括从10个类别的采样关键帧中标注的3D边界框。

每个样本由来自32线激光雷达扫描的点云和6个环视分辨率图像组成,这些图像提供水平视场。对于评价指标,nuScenes为3D检测任务提供了官方评估指标,包括平均精度(mAP)和nuScenes检测分数(NDS)。

Implementation Details

我们按照BEVFusion的方法实现了我们的单模态BEV特征提取分支。我们将图像大小设置为,这是基于相机的官方设置,并将体素大小设置为0.075m,这是基于激光雷达的官方设置。训练分为两个阶段,与BEVFusion相同:

  1. 分别用单模态输入训练激光雷达和相机分支;
  2. 联合训练整个模型,该模型加载来自两个预训练分支的权重并冻结模态编码器。

我们将查询数量设置为,用于训练和测试。对于验证和测试结果,直接使用单个模型的预测,没有任何测试时的增强或额外的后处理。

Comparison with State-of-the-Art Methods

在表1中展示了nuScenes的主要结果,ECFusion超越了所有先前的激光雷达-相机融合方法,并在_val_集上达到了最新的73.4% NDS性能,在_test_集上达到了73.9% NDS。

picture.image

与激光雷达或相机方法相比,ECFusion有了显著的提升。此外,与基准方法BEVFusion相比,ECFusion在_val_集上以+2.2% mAP和+2.0% NDS的优势大幅超过它。我们将这一性能提升归因于消除了BEV空间中的跨模态冲突。

Ablation Studies

在本小节中,我们展示了对我们设计的消融研究及深入分析。mAP和NDS在nuScenes_val数据集上进行评估。

多模态融合。在表2中验证了多模态融合的有效性,对基于激光雷达的结果有提升(mAP提升+6.1%,NDS提升+4.2%),对基于相机的结果也有提升(mAP提升+34.6%,NDS提升+37.5%)。

picture.image

主要贡献。为了展示在融合方面的改进,在表3中对我们的两个主要组成部分SFA和DQR进行了消融实验。结果显示,我们的SFA模块可以使基线提高0.7%的mAP和0.5%的NDS。此外,采用DQR机制的方法展示了显著的改进,将基线提高了2.1%的mAP和1.4%的NDS。同时,两个主要设计组件的同时使用协同提高了性能,使得总体改进达到了2.3%的mAP和1.7%的NDS。

定性结果。 为了更深入地了解我们的改进,在图6中比较了定性结果。在子图(a)中,由于远处车辆深度估计的不可避免的不确定性所引起的外在冲突,融合的鸟瞰图(BEV)Heatmap 在车辆类别上有过多的激活。相比之下,Heatmap可以通过SFA模块的校准来获得准确的对象位置辅助。

picture.image

此外,在子图(b)中,展示了一个案例,当相机由于遮挡而失去了对这些障碍物的检测能力时,基线的融合鸟瞰图Heatmap 因固有的冲突而失去了障碍物宝贵的对象性。同时,ECFusion可以从激光雷达Heatmap 中恢复对象查询以保持正确的预测。

SFA模块。为了精确展示我们校准的特定模态BEV特征的优越性,在表4中消融了我们的SFA模块的设计。对比#2-#4与#1可以看出,将基于流的校准应用于任何模态都能带来改进,_即_,使用激光雷达BEV流带来0.4%的NDS提升,使用相机BEV流带来0.7%的NDS提升。

picture.image

两者的利用还能进一步实现显著的1.1%的NDS提升。此外,我们在#5与#4的对比中显示,如果没有由代价体积表示的语义引导,会导致性能下降-0.6% NDS。总的来说,ECFusion估计多模态流以促进跨模态一致性,从而改善融合后的BEV特征。

DQR机制。在表5中验证了DQR的有效性。比较#2-#4与#1的结果显示,从单模态Heatmap中恢复溶解查询的结果显著优于基线。例如,LiDAR查询 带来了+0.9%的NDS提升,相机查询 带来了+0.6%的NDS提升,而两者结合使用可以实现更高的+1.4%的NDS提升。

picture.image

为了确认融合Mask 的必要性,进行了实验#5,它不使用 独立从Heatmap中生成三组查询。与#1相比,结果为的NDS下降,突显了Mask设计的必要性。此外,在实验#6中简单地将查询数量从200增加到300只带来了微小的改进,这表明ECFusion有效发现并恢复因跨模态冲突而丢失的物体,而不是依赖于更多的查询。

V Conclusion

在这项工作中提出了一种新颖的方法来消除在激光雷达-相机3D目标检测融合过程中广泛存在但长期被忽视的跨模态冲突。这一关键想法是在融合之前对齐不同的空间分布,并在融合后恢复丢失的目标信息。为了实现这一点,引入了一个SFA模块来利用跨模态对应关系,并通过空间流场对齐多模态特征。

此外,设计了一个DQR机制来保持因冲突干扰而在融合特征中变得模糊的目标查询。在nuScenes数据集上的实验证明了我们方法的有效性。

参考

[1].Eliminating Cross-modal Conflicts in BEV Space for LiDAR-Camera 3D Object Detection.

点击上方卡片,关注 「AI视界引擎」 公众号

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论