2024年一起研究更细节点的东西吧 | Lidar-Camera融合模型稳健性究竟如何？你探索了吗？ - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

picture.image

近年来，为了实现自动驾驶，开发3D检测融合方法，这些方法旨在将摄像头和激光雷达信息进行融合，已经引起了广泛关注。作为一种常见的做法，人们依赖于大规模的数据集，以公平地比较不同方法的表现。虽然这些数据集已经仔细清洗，以理想地最小化任何潜在噪声，但作者观察到它们并不能真正反映出实际自动驾驶车辆所看到的真实数据，因为这些数据由于各种原因往往具有噪声。这阻碍了在实际噪声环境下简单估计稳健性能的能力。

为此，作者收集了一系列具有噪声数据分布的真实世界案例，并系统地制定了一个稳健性基准工具包。它可以在这任何干净的数据集上模拟这些案例，这些数据集具有摄像头和激光雷达输入模态。通过在广泛采用的数据集（nuScenes和Waymo）上建立两个新的稳健性基准来展示作者工具包的有效性，然后整体评估最先进的融合方法。

作者发现：

在仅针对这些数据开发的情况下，大多数融合方法在激光雷达输入中断时必然失败；

与激光雷达输入相比，摄像头输入的改进显著不足。

稳健融合数据集、基准、详细文档和说明：https://anonymous-benchmark.github.io/robust-benchmark-website

1 Introduction

3D检测作为自动驾驶场景中的基本任务之一，已经引起了广泛关注。最近，将两种常见的模态（摄像头输入和激光雷达传感器输入）进行融合已成为3D检测领域的事实标准，因为每种模态都具有另一种模态的互补信息。类似于计算机视觉领域中的其他文献，展示提出的融合方法有效性的常见方法是将其在现有的基准数据集上进行验证，这些数据集通常是从明确设计、昂贵数据收集车辆收集的，以尽量减少硬件设置的任何潜在错误。

然而，作者发现由于各种原因，这些流行的数据集的数据分布可能与实际的驾驶场景有极大不同：

可能存在无法控制的外部原因，如设备上的溅泥或车载计算机的故障，这些原因可能会暂时禁用某些传感器的输入
由于外部和内部原因，输入可能会难以同步，例如在颠簸的道路上行驶时由于严重的振动导致空间对齐错误，或者由于时钟同步模块故障导致的时间对齐错误

因此，仅在干净的数据集上评估的方法可能在实际场景中不可靠，并阻碍了在实际自动驾驶车辆上的实际部署。

picture.image

为此，作者通过提出一个新颖的工具包，将具有摄像头和激光雷达输入模态的任何干净基准数据集转换为一个稳健性基准，以模拟实际场景。作者首先根据实际驾驶数据对摄像头和激光雷达的潜在传感器噪声案例进行系统性的概述。如图1（a）所示，作者确定了七个独特的案例，分为三个类别：两个噪声激光雷达案例，两个噪声摄像头案例，以及三个时序错误案例。然后仔细研究每个案例，并构建一个编码工具包，将干净数据转换为每个案例相关的实际数据分布。

为了验证作者方法的有效性，作者将作者的工具包应用到两个大规模的自动驾驶流行基准数据集nuScenes和Waymo上。请注意，尽管这些噪声案例在实际场景中很少出现，但作者将给定数据集中的所有数据转换为完全评估给定方法在极端情况下的稳健性。并且作者只调查一个失败案例，不会同时创建一个具有多个故障的稳健基准。然后作者收集了两种单一模态和三种最先进的融合方法，并将它们在生成的基准上进行基准测试。如图1（b）所示，作者观察到一些令人惊讶的发现：

最先进的融合方法在激光雷达传感器遇到由于其融合机制严重依赖于激光雷达输入时，往往会不可避免地失败
仅将摄像头输入进行融合只带来了微小的改进，这表明当前方法可能没有充分利用摄像头的信息，或者摄像头信息没有携带与直觉相符的互补信息

总之，作者的主要贡献如下：

系统地研究了实际驾驶场景中的噪声传感器数据，并提出了一个新颖的工具包，可以将包含摄像头和激光雷达输入的任何自动驾驶基准数据集转换为稳健性基准。
这是第一个在噪声设置下对现有方法进行基准测试，并发现目前的融合方法存在根本缺陷，当激光雷达出现故障时，它们往往会不可避免地失败。
作者希望本文的工作可以为开发能够真正部署到自动驾驶车辆的稳健融合方法提供一些启示。

2 Related Work

在这里，作者对3D检测和稳健性评估中的当前融合方法进行文献综述。

3D检测中的融合方法。激光雷达（LiDAR）和摄像头是自动驾驶3D目标检测中的两种互补传感器。本质上，激光雷达传感器提供了一种以稀疏点云形式表示的周围世界的准确深度和形状信息，而摄像头传感器则提供了一种基于RGB的图像，其中包含丰富的语义和纹理信息。

最近，将这两种模态融合以利用互补信息已成为3D检测领域的事实标准。根据融合机制的位置，这些方法可以分为三类：早期融合方法、深度融合方法和晚期融合方案。早期融合方法主要将图像特征与原始LiDAR点云连接在一起，以增强表示能力。具体而言，这些方法依赖于LiDAR到世界和相机到世界的校准矩阵，将LiDAR点投影到图像平面上，其中它作为图像特征的 Query。深度融合方法从某些预训练神经网络中提取深度特征，这些特征用于同时处理两种模态，其中一种流行的选择是鸟瞰视角（BEV)。

虽然早期和深度融合机制通常发生在神经网络 Pipeline 内，但晚期融合方案通常包含两个独立的感知模型，用于分别生成两种模态的3D边界框预测，然后使用后处理技术将这些预测融合。这些工作的一个好处是它们对单一模态输入失败的鲁棒性。然而，由于后处理技术通常是非可微的，因此同时优化这一行方法具有挑战性。此外，这种 Pipeline 具有潜在的更高部署成本，因为它需要维护三个独立的模块。

激光雷达-摄像机融合的鲁棒性。尽管有一些工作从不同角度探索了3D检测的鲁棒性，例如恶劣的天气条件，但在自动驾驶领域，针对融合模型的鲁棒性分析的基准数据集还知之甚少。据作者所知，还没有任何初步尝试来研究这个问题。

TransFusion评估了在三个场景下不同融合策略的鲁棒性：将验证集分为白天和晚上，随机丢弃每个帧的图像，随机向转换矩阵中添加相机到激光雷达传感器的翻译偏移，此外，作者还向转换矩阵中添加了旋转偏移。总体而言，TransFusion主要研究了针对相机输入的鲁棒性，并忽略了噪声激光雷达和时间错位的情况。DeepFusion通过向激光雷达反射和摄像机像素中添加噪声来检查模型的鲁棒性。尽管DeepFusion中的噪声设置很简单，但噪声案例几乎从未在实际场景中出现。

因此，以前的方法没有提供更全面的研究，这对融合方法非常有用。相比之下，作者系统地回顾了自动驾驶感知系统，确定了三个类别，总共七个鲁棒性场景，并提出了一个可以将现有数据集转换为鲁棒性基准的工具包。作者希望作者的工作可以帮助未来的研究在公平地基准他们的方法鲁棒性，并给研究行人更多关于设计更鲁棒融合框架的洞察。一个理想的融合框架应该比单一模态工作更好，而且在另一个模态失败时不会比单一模态模型更差。作者希望深度融合方法比使用复杂后处理技术的晚期融合方法更好。

3 Robust Fusion Benchmark

在本节中，首先提供了一个关于具有激光雷达和摄像头传感器的自动驾驶车辆系统的系统概述，以说明为什么干净数据集中的每个案例的数据分布可能与实际场景不同。这些噪声数据案例可以分为三个广泛的类别：噪声激光雷达、噪声摄像头和时序错误案例。然后，提出一个可以将现有干净数据集转换为实际场景的工具包。

An overview of modern autonomous driving vehicle system

picture.image

在图2中，作者可视化了自动驾驶感知系统的常见设计，其主要组件包括摄像头和激光雷达传感器以及安装在车辆某些固定位置上的设备，并通过特定的电缆以通信协议连接到计算机。

本质上，计算机可以访问传感器的数据流并将数据捕获为具有特定时间戳的点云或图像。由于原始数据在传感器坐标系中，传感器校准在执行有效的坐标转换方面起着重要作用，以便感知系统可以根据自身坐标系识别物体。

根据作者的经验，上述系统的每个步骤都可能遇到某些故障或中断，从而产生与正常干净数据截然不同的噪声数据。作者确定了三种案例，并在附录中的表5中简要讨论了潜在的原因和后果。

Case analysis

在本节中，作者将详细分析收集到的自动驾驶领域中的实际噪声数据案例。

3.2.1 Noisy LiDAR Data

作者确定了两个在实践中可能导致噪声激光雷达数据常见的情况。

激光雷达视野限制（FOV）。尽管大多数公司收集的激光雷达数据视野为360度，但某些激光雷达数据可能由于各种原因无法获取。例如，某些类型的车辆只在前部安装了半固体激光雷达传感器，而不是使用全架安装，如图3右下角所示。

picture.image

为通用起见，作者首先将激光雷达点的坐标从欧几里得（）转换为极坐标系统（）。然后，作者可以通过保持满足的点来模拟这种有限视野。在实际中，作者将设置为0度、60度和90度，以模拟常见场景，这些场景具有实际意义。

作者澄清，两种有限视野设置有不同的原因：

完全故障（无激光雷达数据）是由于临时硬件故障；
减少视野，如[-60, 60]，是由于数据收集车辆和最终生产车辆之间的差异。

激光雷达物体故障。人们往往忽视的一个常见场景是，激光雷达在某些约束条件下可能会对物体视而不见。作者在图4中展示了一个来自商用自动驾驶系统实际数据捕获的例子。

picture.image

作者观察到激光雷达点云与两旁停车的汽车有极大不同，其中黑色汽车几乎没有点，而白色汽车有正常的点分布。作者将这种现象称为激光雷达物体故障，通常是由于物体纹理导致的低反射率、不适当的反射角度或水膜引起的。

为通用起见，作者通过随机在边界框内丢弃点的概率为0.5来模拟这种场景。请注意，作者没有改变相机输入，因为作者的目的是评估单一模态输入数据。

3.2.2 Noisy Camera Data

与激光雷达模块不同，摄像头模块通常安装在自动驾驶车辆的较低位置，以覆盖激光雷达传感器的盲区。这种盲区是由于激光雷达通常安装在车辆的顶部，以最大化可视距离，而无法看到车辆附近的区域，因为存在遮挡。因此，摄像头可以很容易地受到周围环境的影响，如临时性普通物体覆盖或镜头遮挡泥土等。作者详细讨论了这两种场景。

缺失摄像头输入。由于摄像头模块通常比激光雷达模块小（在一厘米内），最常见的覆盖场景是覆盖整个摄像头传感器。因此，作者删除整个摄像头输入以模拟这种覆盖场景以及摄像头传感器损坏的情况。在实际中，作者设计了两种更细粒度的案例来执行稳健性基准测试，一次删除一个摄像头，因为通常有一个或多个摄像头被覆盖或损坏，而某些巡逻机器人或物流机器人只有一个摄像头在前部。

摄像头镜头遮挡。另一种常见的摄像头覆盖问题是由于非透明液体或污垢引起的镜头遮挡。一些工作也引入了带有污渍的数据集[48]，以及[47]，它们使用这些数据训练一个GAN模型以生成真实的镜头遮挡以及相应的标注。

相反，为了模拟真实场景中摄像头镜头的遮挡，作者在透明薄膜上喷涂泥点，并在镜头上覆盖脏薄膜，然后在白色背景上进行拍摄。然后，作者采用图像马赛克算法在图像中裁剪背景部分并分离泥点口罩。

picture.image

最后，作者将分离的口罩贴在干净数据集的图像上以模拟镜头遮挡，如图5所示。此外，作者还喷涂不同大小的泥点并随机移动和旋转薄膜以创建具有不同遮挡区域和遮挡范围的不同口罩。

Ill-synchronization

如图2所示，当数据流进入设备上的计算机时，数据首先被固定为一个带有给定时间戳的数据帧。然后，需要通过校准过程获得的相机到世界和激光雷达到世界矩阵进行坐标转换。然而，这会导致两个潜在的时序不匹配问题，即校准矩阵的外部原因导致的空间错位，以及由于系统内部原因导致激光雷达和相机数据的时序错位。

空间不匹配。由于摄像头模块的物理尺寸远小于车辆的尺寸，汽车中心相对于摄像头中心的相对位置会因各种原因（如在颠簸的道路上行驶时的振动）而不可避免地发生变化。由于这种噪声随时都可能发生，因此无法使用在线校准来避免。此外，随着车辆行驶里程的增加，这种错误可能会累积。

picture.image

为了模拟这种情况，作者对每个摄像头的校准分别添加随机旋转和翻译噪声。噪声旋转角度的范围为至，翻译范围为厘米至厘米，以适应实际场景中的噪声范围。传感器校准不匹配将导致点云和图像之间的空间不匹配，如图6所示。

时间不匹配。在实际的自动驾驶系统中，系统组件的故障相当常见，这种故障贯穿整个时间段。当流式数据首先带有特定时间戳通过系统套接字进入深度学习模型的对应代码模块时，两种模态传感器的timestamp可能不会总是同步。

在某些罕见的情况下，例如传感器连接失败或临时性电缆带宽不足，一个模态的数据帧可能会因为系统实现的不同而卡住超过一分钟。为了模拟这种效果，作者让不匹配的数据帧保持与前一个帧相同，并将其称为“数据卡住”。最初，作者根据所有帧中卡住帧的百分比应用了九个严重程度等级。

picture.image

此外，作者考虑了两种选择卡住帧的方法，即离散选择和连续选择。在离散选择中，随机选择离散的卡住帧。而在连续选择中，选择连续的多个帧。一个示例如图7所示，激光雷达通过离散选择卡住在顶部，而摄像头通过连续选择卡住在底部。

A toolkit to transform generic autonomous driving dataset into robustness benchmark

为了消除基准比较的随机性，作者编写了一个工具包，可以将自动驾驶数据集转换为稳健性基准1。本质上，作者只通过更改图像和激光雷达数据来模拟噪声数据案例，而真实的标注将保持不变，当传感器出现故障时，周围世界的3D位置不会改变。

为了促进未来的研究，作者利用了两个流行的自动驾驶数据集nuScenes和Waymo，并首次针对它们的最先进方法进行了稳健性评估，以作者所能知道的最优方式。作者称新创建的稳健性基准为nuScenes-R和Waymo-R。

评估指标。为了直观地展示激光雷达-摄像头融合方法的可鲁棒性，作者简单地将干净数据集上的性能和相对性能降级作为作者的评估指标。

具体而言，激光雷达-摄像头融合模型在干净数据集上的性能用表示，其在基准数据集上面对不同严重程度的破坏类型的鲁棒性性能用表示。然后，可以通过平均所有噪声类型和严重程度 Level 来估计模型的鲁棒性。公式可以总结如下：

其中表示破坏类型的数量，表示严重程度的数量。模型的相对平均鲁棒性能被定义为。更高的表示模型对于较差的传感器融合条件具有更高的鲁棒性。

在实际中，采用平均精确度（mAP）和加权综合指标NDS作为nuScenes-R和L2-mAP和L2-mAPH作为Waymo-R的。

4 Benchmark Existing Methods

在开放的基准数据集上调查和评估了现有的流行激光雷达-摄像头融合方法，包括PointAugmenting，MVX-Net，TransFusion和BEVFusion。此外，还评估了仅使用激光雷达的方法CenterPoint，以及仅使用摄像头的DETR3D，以便进行更好的比较。

值得注意的是，Waymo上的指标侧重于交点与交点（IoU）。然而，严格计算基于相机的3D边界框的IoU相当具有挑战性。因此，将IoU阈值降低到0.3，并在Waymo上报告DETR3D的车辆类别。

Benchmark Results

picture.image

为了分析模型对激光雷达和摄像头破坏的鲁棒性，提出了和的指标，并在表1中展示了融合鲁棒性结果。此外，还提出了和指标，以分析模型对激光雷达和摄像头的破坏鲁棒性。

picture.image

在表2中分别对激光雷达和摄像头模态进行分析。总体而言，现有方法在作者的鲁棒融合基准测试上的表现不佳，改进空间很大。尤其是，在表2中列出的所有激光雷达-摄像头融合方法中，模型对噪声激光雷达的鲁棒性比噪声摄像头差。在作者调查的所有激光雷达-摄像头融合方法中，BEVFusion和TransFusion在整体鲁棒性上表现最好。值得注意的是，它们对摄像头噪声的鲁棒性表现出色，而对激光雷达噪声的鲁棒性甚至不如其他融合方法。

作者推测这主要是由于将摄像头输入仅带来微小的改进，暗示了当前方法可能未能充分利用来自摄像头的信息，或者摄像头信息并未携带预期的互补信息。当前大多数基于融合的3D目标检测方法的主要融合机制严重依赖于准确的激光雷达输入。

一些方法[50]基于输入级的校准矩阵，使用相应的摄像头特征装饰激光雷达特征。其他方法使用深度特征级融合，在特征提取后组合特征，例如将点云投影到BEV平面上，然后将其用作 Query 来选择相应的图像特征，或者使用校准矩阵将摄像头特征提升到相同的BEV平面，以获得融合特征。因此，如果激光雷达传感器输入缺失，当前的融合方法将无法产生有意义的结果。

此外，在比较作者的基准数据集上激光雷达-摄像头融合方法与单模态方法的表现时，作者发现所有融合方法在激光雷达和摄像头模态上的鲁棒性都大于单模态方法。这表明在遇到不完美的模态输入时，融合方法某种程度上具有利用其他模态信息来增强特征并预测最终输出的能力。

A complete analysis of each noisy data case

作者分析在第三节中提出的每个噪声案例上现有流行方法的鲁棒性。

4.2.1 Noisy LiDAR Data

激光雷达视野限制。作者研究了在角度范围为，，和，以及角度范围为的情况下的激光雷达点。其中，角度范围是激光雷达传感器完全损坏的极端情况。

picture.image

结果如表3所示。对于激光雷达单独方法和融合方法，它们在这三种情况下的性能下降很大。尤其是，在所有激光雷达点都缺失的极端情况下，当前的融合方法无法预测像激光雷达单独方法这样的目标。因此，对于现有的融合方法，激光雷达模态是主要的模态，而摄像头模态是辅助的。理想的融合模型在单一模态输入下仍然应该有效。

激光雷达物体故障。激光雷达物体故障的结果如表1所示。作者可以发现，在50%的概率下，将目标的所有点都丢弃，激光雷达单独方法和激光雷达-摄像头融合方法的表现大约减少了一半。

这表明，当前景激光雷达点不存在时，当前的融合方法无法工作，即使物体出现在图像中。从另一个角度来看，这表明当前激光雷达-摄像头融合方法中的融合机制，相机信息并未得到很好的利用。融合过程仍然主要依赖于激光雷达信息。更多关于物体故障设置的结果可以在附录C中找到。

4.2.2 Noisy Camera Data

缺失的摄像头输入。在缺失摄像头输入的情况下，考虑了安装在不同位置上的多个摄像头组合，并报告了综合结果，如表4所示。

picture.image

在其中，作者可以发现，缺失nuScenes的前摄像头或后摄像头对检测结果的影响更大。因此，作者考虑了缺失前摄像头的情况，以及极端情况下，除前摄像头外，所有其他摄像头都缺失的情况，在作者的基准数据集中。

当除前摄像头外所有其他摄像头都缺失时，PointAugmenting和TransFusion在nuScenes-R和Waymo-R上的性能下降不到50%。这表明，PointAugmenting和TransFusion对摄像头噪声的鲁棒性比其他两种方法要好得多。此外，Waymo-R上的性能退化比nuScenes-R要小得多，这表明在各种数据集上的鲁棒性不同。

摄像头镜头遮挡。对于摄像头镜头遮挡的情况，在表1中展示了结果。作者观察到，在融合模型中，TransFusion相对于干净设置是最鲁棒的，而DETR3D是最敏感的。有趣的是，尽管MVX-Net在干净设置中显著优于PointAugmenting，但在遮挡情况下，它遭受了更严重的性能退化。

4.2.3 Ill-synchronization

空间不匹配。对于空间不匹配，噪声旋转和翻译矩阵对融合模型的影响与噪声摄像头传感器案例的影响相当，如表1所示。作者发现，与干净设置相比，TransFusion是最鲁棒的，而DETR3D对空间不匹配最敏感。

时间不匹配。对于时间不匹配，作者探索了9种严重程度和两种选择卡住帧的方式，即离散选择和连续选择。结果如图8所示。

picture.image

可以观察到，所有方法的表现降级都与卡住帧在所有帧中的百分比成线性关系。因此，为了减轻基准测试的负载，作者只考虑卡住帧占所有帧的50%作为最终的基准设置。有趣的是，尽管TransFusion在卡住相机帧的情况下表现良好，但当LiDAR-卡住帧的比例增加时，TransFusion的表现比其他融合方法更快地下降。

5 Discussion and Conclusion

在这项工作中收集了一系列具有噪声数据分布的实时案例，并系统地制定了一个鲁棒性基准工具包，该工具包可以在任何干净的自动驾驶数据集上模拟这些案例。通过建立鲁棒性基准nuScenes-R和Waymo-R来展示作者的工具包的有效性，然后整体评估最先进的融合方法。还进一步在附录C中提供了一个简单的鲁棒训练策略，该策略在这些鲁棒性场景上微调模型，并显示它可以适度提高鲁棒性。然而，与干净设置的结果相比，性能仍存在较大差距。

作者还提供了一些关于开发鲁棒融合模型的见解。一般来说，作者认为一个理想的传感器融合框架应该能够做到以下几点：

给定两种模态数据，它可以显著超越单模态方法的表现；
当一种模态出现中断时，性能不应比另一种模态的单模态方法更差。

参考

[1].Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object Detection

picture.image

点击上方卡片，关注「AI视界引擎」公众号