多模态融合再进化 | SAMFusion以距离加权Query替代纯LiDAR方案，夜间远距+3.45AP - 文章 - 开发者社区

picture.image

精简阅读版本

本文主要解决了什么问题

1. 现有多模态传感器融合方法在恶劣天气条件（如大雾、大雪、低光照或因污垢造成的遮挡）下性能显著下降的问题。
1. 传统方法对单一模态（如LiDAR）的依赖导致在传感器失效时检测性能不佳的问题。
1. 传感器融合中模态投影质量不高以及对恶劣天气下传感器失真鲁棒性不足的问题。

本文的核心创新是什么

1. 提出了一种基于transformer的多模态传感器融合方法SAMFusion，结合RGB、LiDAR、NIR门控相机和雷达四种传感器模态，提高恶劣天气下的目标检测性能。
1. 设计了一种新颖的编码器架构，包含深度引导的相机-激光雷达变换、两种相机模态间的早期融合以及自适应混合机制，实现跨模态投影。
1. 引入了多模态、基于距离的Query生成方法，避免仅依赖LiDAR模态生成检测提案，并通过transformer解码器根据距离和可见性对不同模态进行加权。

结果相较于以前的方法有哪些提升

1. 在恶劣天气条件下，SAMFusion将平均精度提高了17.2 AP，特别是在远距离（50-80米）和具有挑战性的雾天场景中对行人的检测更为准确。
1. 在大雪天气下，对行人的检测提高了15.62 AP（相对提升60.51%），在雾天条件下对行人的检测提高了17.2 AP（相对提升101.2%）。
1. 在夜间条件下，SAMFusion通过整合门控相机的主动照明优势，在中距离和远距离行人检测中分别提升了1.08 AP和3.45 AP。

局限性总结

1. 汽车类别的检测性能提升有限，主要由于3D标注中汽车类别的标注偏差（优先考虑精确性而非完整性），导致少于五个LiDAR点的物体被标记为"不关注"。
1. 恶劣天气条件下的检测性能与场景难度相关，道路使用者数量减少可能简化了任务，影响性能提升的普遍性。
1. 方法在实时性方面虽有一定保证，但多模态融合的计算复杂度较高，可能对实际部署中的计算资源提出更高要求。

深入阅读版本

导读

多模态传感器融合是自主机器人的基本能力，使其能够在输入失效或不确定的情况下进行目标检测和决策。尽管最近的融合方法在正常环境条件下表现出色，但这些方法在恶劣天气（如大雾、大雪或因污垢造成的遮挡）中会失效。作者提出了一种针对恶劣天气条件的新型多传感器融合方法。除了融合最近自动驾驶文献中使用的RGB和LiDAR传感器外，作者的传感器融合堆栈还能够从NIR门控相机和雷达模态中学习，以应对低光照和恶劣天气。

作者通过基于注意力和深度的混合方案融合多模态传感器数据，在鸟瞰图(BEV)平面上进行学习式优化，以有效结合图像和距离特征。作者的检测结果由transformer解码器预测，该解码器根据距离和可见性对不同模态进行加权。作者证明了SAMFusion提高了自动驾驶汽车在恶劣天气条件下多模态传感器融合的可靠性，弥合了理想条件与真实世界边缘情况之间的差距。SAMFusion将平均精度提高了

，与次优方法相比，在远距离和具有挑战性的雾天场景中对易受伤害的行人检测更为准确。作者的项目页面可在此处获取1。

1 引言

自动驾驶车辆依赖于多模态感知系统，包括LiDAR [16, 34, 71, 84]、摄像头 [22, 73, 75] 和雷达 [49] 等传感器，结合具有互补优势和劣势的不同模态，以实现安全的自动驾驶。近期研究 [3,13,28,47,62,77,83] 结合这些不同传感器的输入，通过准确捕捉街景中物体的定位和分类来增强环境感知。因此，这些系统受益于LiDAR深度信息的准确性 [77]、雷达的鲁棒性 [28,51] 以及摄像头的密集语义信息 [13, 47, 62]。尽管融合对于下游分类和定位任务至关重要，如 [3, 7, 29] 所示，但当传感器失效时，需要特别小心才能使融合取得比单一摄像头网络更好的结果。融合策略的例子包括 [3] 中提出的受物理启发的熵驱动融合，以及 [7] 中所示的学习注意力融合。最有效的3D目标检测方法通常利用鸟瞰图（BEV）表示，通过连接特定模态的特征图 [42,47] 或采用多个基于注意力的模块来增强BEV特征 [1,19]。然而，这些技术的鲁棒性通常仅在有利天气条件下收集的数据集上得到验证 [8,20]，并且尚未被证明对恶劣天气相关干扰有效，例如LiDAR点云中的不对称退化 [4]。这种脆弱性主要归因于对单模态 Query 生成器的依赖，以及对基于LiDAR的深度投影的依赖 [83]，这在缺乏可靠LiDAR数据时可能导致网络故障。

门控成像技术的最新进展为传统成像方式提供了一个有前景的替代方案，并在[5, 22, 31, 66, 67]中进行了探索。这项工作展示了门控相机能够主动消除后向散射[5]，提供精确的深度[66, 67]，并在夜间、雾、雪或雨等不利条件下实现高信噪比(SNR)，所有这些都归功于其主动门控场景照明。因此，除了更传统的相机、LiDAR和雷达数据外，作者还将使用门控相机来进一步提高鲁棒性。

总之，作者通过解决传感器融合中的两个关键问题——模态投影质量和恶劣天气下传感器失真的鲁棒性，来应对恶劣天气下鲁棒目标检测的挑战。为此，作者提出了一种传感器自适应多模态融合方法——SAMFusion。作者引入了一种新颖的编码器结构，该结构具有深度引导的相机-激光雷达变换和两种相机模态之间的额外早期融合， incorporating 距离精确的跨模态投影。此外，作者引入了一种新颖的多模态、基于距离的 Query 生成方法，以避免如[1, 83]中那样仅依赖激光雷达模态生成检测 Proposal 。

具体而言，作者做出了以下贡献：

• 作者提出一种新颖的基于transformer的多模态传感器融合方法，改善在存在严重传感器退化情况下的目标检测。
• 作者介绍一种编码器架构，结合了早期相机融合、基于深度的跨模态转换和自适应混合，与学习到的距离加权多模态解码器 Proposal 一起，以提高在不同光照和天气条件下目标检测的可靠性。
• 作者设计了一个transformer解码器，通过多模态 Proposal 初始化在BEV中聚合多模态信息。
• 作者在汽车恶劣天气场景[4]中验证了该方法，并改进了3D-AP，特别是在行人类别上，在最具挑战性的50米-80米距离类别中，相对于现有技术水平，在浓雾中提高了超过

，在大雪中提高了15.62 AP。

2 相关工作

3D目标检测

3D目标检测任务从2D目标检测发展而来，需要预测物体的3D边界框（bboxes）和方向[21,34,41,54,82]。单模态LiDAR方法，如[34,88]，已被探索利用LiDAR传感器的深度准确性，基于LiDAR点云预测3D边界框。基于点的方法[54,55,59,82]因此从原始点云特征生成检测结果。其他方法将LiDAR点分组为3D Voxel [14,15]或 Pillar [74,84]。 Voxel 和基于点的方法也可以链接在一起，如[58,60,76]中所示，这些方法实现了额外的精化步骤，基于感兴趣区域池化[23,57]来提高3D目标检测性能。基于相机的方法在[44-46,73]中被研究，这些方法在图像空间本身中工作。然而，相机数据已被证明是与LiDAR融合的良好候选，因为前者可以映射到BEV表示，而后者原生存在于BEV空间中。因此，相机表示空间已从相机坐标[46,73]发展到联合多视图设置和预测的BEV表示[26,39]，提高了3D检测准确性。

多模态传感器融合。虽然常见的BEV地图不一定是默认选择，但几种多模态传感器融合方法已经融合了语义相机信息来丰富单个LiDAR点，如[65, 69, 85]中所述。后续研究，如[78, 86]，研究了如何从相机数据中提取详细信息用于LiDAR点云，这很大程度上依赖于投影的质量，并且被[85]进一步改进。这些方法引入了虚拟3D相机点，以提供更密集的环境上下文，用于增强远距离的Sparse点云。Li等人[38]通过整合可变形注意力[89]扩展了这种方法，在3D Voxel 空间中创建两种模态的统一表示。

最近，在BEV空间中运行的另一研究方向已显示出显著的效果。这种方法融合了在参考帧（例如LiDAR BEV视角）中聚合的特征，然后由执行各种感知任务的任务解码器处理，如3D目标检测[

、车道估计[37, 45, 53]、跟踪[25]、语义分割[40, 45, 47]和规划[25]。这样的框架支持多任务和多模态模型，这些模型受益于这些配置提供的额外监督和正则化。然而，即使是最新的BEV表示方法[32, 47]在将详细的相机特征投影到BEV世界坐标系中以及在传感器失真的情况下防止错误传播方面仍然面临挑战。

恶劣天气下的传感器融合

在本工作中，作者特别旨在解决恶劣天气条件下单个传感器的性能退化问题，如先前文献[28, 50, 63, 64, 72]所示，这会显著降低目标检测性能。多模态传感器融合已成为在这些场景下实现鲁棒性的可行方法[2,3,7,18,50,87]。具体而言，[2,13,29,43]将摄像头模态与雷达信息融合，而[3, 7]引入了额外的传感模态并利用了新颖的、基于物理的融合技术。然而，这些方法仅允许进行2D目标检测的预测。SAMFusion投影到一个共同的BEV平面，采用基于注意力的特征融合并结合密集深度信息，以实现更高性能的3D目标检测。

3 SAMFusion

在本节中，作者介绍用于多模态3D目标检测的SAMFusion架构。SAMFusion利用了LiDAR、雷达、RGB和门控摄像头的互补优势。门控摄像头在雾天和低光条件下表现出色，而雷达在雨天和远距离情况下有效。通过将这些传感器集成到基于深度的特征变换、多模态 Query Proposal 网络和解码器头中，SAMFusion确保了在不同场景下的稳健可靠的3D目标检测。该架构如图2所示。

picture.image

输入 - RGB/门控相机、LiDAR、雷达 - 通过各自的特征提取器2a转换为特征。这些特征在多模态编码器2b中以注意力方式进行融合，并与相机特定的特征图相结合以产生丰富的特征

作者将此称为"早期融合"。

特征

现在被传递到多模态解码器 Proposal 模块2c，在该模块中，它们在鸟瞰图表示中通过另一 Level 的融合进行优化，以自适应、距离加权的方式结合图像特征（门控相机）和范围特征（LiDAR、雷达）来生成初始物体 Proposal 。此外，增强的特征

被发送到transformer解码器，该解码器优化初始物体 Proposal 以注意力方式生成检测输出。解码器 Proposal 包含优化，通过学习到的权重方案自适应地加权距离，该方案了解测距传感器的物理特性，同时与信息密集的相机模态融合。

3.1 跨模态自适应融合

本节描述了个体传感器特征的早期注意力融合方案。该方法的图示展示在图2b中。

在SAMFusion编码器中，早期注意力融合整合了来自不同模态的信息。为实现这一点，作者首先从主模态的特征创建加权上下文，该上下文与次级模态的特征对齐。然后，使用第二模态的数据( Query ) Query 此上下文(键)，从而产生丰富的对齐特征混合。

作者的早期融合方法支持来自摄像头和LiDAR模态的 Query ，创建了两个平行的成对( Query ,键)注意力融合实例。在"摄像头自适应融合"中，来自RGB和门控摄像头的 Query 与加权的LiDAR上下文样本进行比较(RGB摄像头与采样LiDAR比较，门控摄像头与采样LiDAR比较)。这种融合考虑了在一个模态中可见但在另一个模态中不可见的物体。类似地，在"LiDAR自适应融合"中，LiDAR Query 通过在RGB和门控图像之间混合的采样加权摄像头上下文特征进行评分(LiDAR与采样摄像头比较)。

最后，作者以类似的方式精炼radar features，其中radar proposals通过来自RGB camera的加权上下文进行评分。

相机自适应融合

在该模块中，作者使用注意力机制对相机特征

（ Query ）与从LiDAR模态导出的加权上下文

（键、值）进行评分。为了生成这样的上下文，作者收集与相机特征相对应的LiDAR BEV特征

。作者注意到，LiDAR特征编码器的输出以BEV图像的形式提供。因此，作者将所有相机像素

转换到LiDAR坐标系中。为了实现这一点，作者需要每个相机特征坐标的像素级深度

。在图2b中，作者用符号

表示连接操作，该操作为每个像素分配相应的深度。

结合深度信息，作者使用已知的相机内参和外参（相对于LiDAR）将图像点提升到3D

LiDAR坐标空间。在作者的实验设置中，作者针对RGB和gated相机采用不同的方法计算深度。对于RGB相机，作者使用数据集中的立体RGB对，并利用[35]预测深度，而对于gated相机，深度

是通过monoRGB方法[56]获得的，该方法根据[68]在gated相机数据上进行了微调。

投影 -

用于RGB相机，

用于门控相机，

通过使用将像素提升为点云来实现

其中

是相机的水平和垂直焦距，

是对应于相机中心的像素位置，然后应用参考系变换，将3D点转换到LiDAR坐标系中。

重投影的3D相机点

随后沿高度坐标

被压缩到LiDAR BEV网格上。此外，作者通过对相应BEV坐标进行双线性插值来解决LiDAR特征图

的离散化问题。随后，找到的对应关系用于用提取的LiDAR特征

来丰富每个3D相机点

，这些特征被反向投影到相机图像中，并在使用注意力进行评分之前与图像特征配对。通过这个过程，对于每个RGB和门控相机像素

和

，作者获得对应的LiDAR特征点

和

。

最后，这两个独立的加权LiDAR上下文被融合在一起，以获得一个能够感知两种相机模态的复合表示

。这种复合表示是通过将两个特征图相加得到的，其中为了表示方便，作者省略了

和

中的位置依赖性：

其中

是逐元素加法运算。

所描述的过程被引入，用于将详细的相机特定信息整合到

中，从而避免在不良光照条件下传感器能见度降低时，任一模态失效的情况。

在获取了用于比较的相关LiDAR特征点后，作者整合跨模态注意力来学习丰富的模态特定特征图，包括来自LiDAR模态的物体特征，这些特征可能由于传感器的物理位置而在相机帧中被遮挡。作者在相应的相机和LiDAR模态

和

之间进行注意力计算，以生成最终的丰富相机特定特征图

和

，用于指导解码器物体 Proposal 。作者写出带有LiDAR（键，值）

的跨模态注意力融合方程，将提取的RGB和门控特征

缩写为

，并将丰富的特征图

缩写为

，如下所示：

注意力计算在采样点

周围的局部窗口

上执行，窗口大小为

，softmax归一化因子为

，表示点云特征的维度。

作者注意到，除了跨模态注意力机制外，作者还在 Query 模态上并行执行模态内注意力，其描述如下

随后，

特征图、跨模态注意力和内模态注意力结果通过学习到的加权方案进行融合（分别对RGB

和门控

独立进行）。

LiDAR自适应融合。在该模块中，作者使用注意力机制将LiDAR特征

与来自RGB和门控相机特征

的加权上下文进行融合，其中LiDAR特征作为 Query ，相机特征作为 Key和Value 。与相机自适应融合不同，深度信息固有地包含在LiDAR BEV特征

中。因此，在投影到相机特征图之前，作者将LiDAR点

分配到相应特征图网格位置

的列中。

此外，3D LiDAR特征

通过投影，类似于公式1，通过

LiDAR到相机(RGB; gated)投影矩阵映射到相应的2D图像点

。与相关LiDAR特征坐标

相对应的相机特征是通过双线性插值从图像模态中采样获取的。

接下来，作者融合来自两种摄像头模态的LiDAR感知采样图像特征

在对相应的LiDAR Query 进行评分之前。如前所述，为了符号表示的便利，作者省略了

中的位置依赖性。

增强的LiDAR特征图

的获取方式与第3.1节中的CameraAdaptive-Blending类似，将LiDAR Query 与LiDAR感知图像特征之间的跨模态注意力的输出（类似于公式3）与LiDAR特征上的模态内注意力的输出（根据公式4）进行混合。

雷达自适应融合。在雷达分支中，作者采用与第3.1节描述的激光雷达自适应融合相同的原理，唯一区别是作者仅从RGB相机模态计算加权上下文，并且由于雷达点云的Sparse性，作者不执行模态内注意力。

3.2 多模态解码器 Proposal

SAMFusion基于多模态BEV特征图生成初始目标 Proposal

，并采用额外的学习加权方案，根据距离和天气优先考虑不同模态。距离加权被编码在雷达和LiDAR的基于BEV的融合中，而通过使用门控模态丰富多模态 Query 来获得额外的天气鲁棒性。例如在雨天天气中，LiDAR性能受损，可以通过来自摄像头和雷达模态的 Proposal 进行增强。

特别是，

是由 LiDAR、雷达和 gated camera 特征生成的。该方法的说明如图2c 所示。

加权雷达与激光雷达特征图融合。作者利用距离相关的传感器特定测距特性，并采用加权融合方法将增强的特征图

和

融合为由...描述的联合特征图

其中

，且

是每个特征点距离自车的距离，

是一个可学习参数。

学习到的

通过具有学习方差的高斯 Mask 来权衡LiDAR和雷达特征，该 Mask 在近距离增强LiDAR并在远距离抑制LiDAR以有利于雷达。该范围取决于学习到的高斯方差。因此，得到的特征

被调制为包含LiDAR和雷达，并根据它们在整个ROI中的相对重要性进行加权。

晚期门控相机特征融合

为了生成最终的目标 Proposal ，SAMFusion对从门控相机提取的初始 Proposal 进行编码。由于传感器的飞行时间原理，它们在捕获的强度分布中编码距离信息。为了编码详细的门控相机特征

，采用了一种基于 Pillar 的条件处理方法，将相机特征图转换为与距离加权特征图

匹配的通用BEV表示。如第3.1节所述，原始LiDAR坐标根据3D LiDAR点转换为相机表示，并用于采样相机特征

。然后，相机特征被分配到相应的LiDAR Pillar ，并通过平均池化确定LiDAR BEV网格中的特征位置，从而得到BEV相机特征图

。特征

和

以加法方式进行融合，通过使用相应的门控相机特征对测距传感器特征图进行条件处理，获得依赖于三种模态的距离编码加权特征图

。此外，作者在

上应用类别相关的卷积层，基于最大强度值提取目标 Proposal 中心，并获得初始目标 Proposal

。

为通过Yang等人[83]获得的多模态预测交互层的解码器优化过程设置了起点。

3.3 Training

SAMFusion架构设计为一个transformer网络，遵循Carion等人[11]和Bai等人[1]的学习方法。它首先使用Hungarian损失[33]将标签与预测进行匹配，然后最小化由分类（交叉熵）、回归和IoU的加权和组成的损失。详细的损失公式在补充材料中提供。

3.4 实现

作者在PyTorch [52]和开源库MMDetection3D [17]中实现了SAMFusion。作者使用ResNet-50 [24]主干和预训练的Cascade Mask R-CNN [10]权重来初始化相机分支。原始RGB和门控相机图像通过基于中心的裁剪缩放到[800,400]以减少计算成本。作者将 Voxel 定义为0.075米深、0.075米宽和

高。作者将LiDAR和雷达点云的范围限制在(0米,

)，宽度限制在(-40米, 40米)。LiDAR和雷达的高度范围分别设置为(-3米, 1米)和(-0.2米,

)。作者实现了四个堆叠的transformer解码器层，由RGB、门控相机和LiDAR模态引导，使用200个初始多模态 Proposal 。作者在NVIDIA V100 GPU上以端到端的方式训练所有模型12个epoch，批大小为4。有关SeeingThroughFog数据集[3]上的超参数和训练设置以及与多模态传感器融合方法的完整延迟比较，请参考补充材料，这证明了SAMFusion的实时能力。

4 实验

在本节中，作者展示了验证SAMFusion设计选择的实验。4.1小节介绍了评估指标和数据集，4.2小节展示了各个贡献的消融实验，而4.3小节展示了在白天、夜晚、雾天和雪天场景下与现有的最先进的单模态和多模态3D检测方法的比较。

4.1 数据集与评估指标

本节描述了在SeeingThroughFog数据集[3]上对SAMFusion的评估，该数据集包含12,997个在恶劣天气条件下的标注样本，涵盖了北欧的夜间、雾天和雪天场景。遵循[31]，作者将数据集划分为10,046个样本用于训练，1,000个用于验证，1,941个用于测试。测试集进一步划分为1,046个白天样本和895个夜间样本，并按天气条件进行相应划分。此外，作者在补充材料中提供了在NuScenes数据集[8]上的评估结果。

评估指标

目标检测性能是根据KITTI评估框架[21]中指定的指标进行评估的，包括针对乘客车辆和行人类别的3D-AP和BEV-AP。作者在AP计算中采用了40个召回位置[61]。为了匹配预测结果和真实标签，作者应用IoU(IoU)[12]，其中乘客车辆的IoU阈值为0.2，行人的IoU阈值为0.1。此外，作者遵循[81]并根据相应的距离区间报告结果。

4.2 消融实验

在本小节中，作者验证如表2a和表2b所示的方法论贡献。

picture.image

表2a探索了使用SAMFusion架构进行不同数量输入模态的消融实验。配置包括单一摄像头-LiDAR (CL)、门控-LiDAR (GL)、摄像头-LiDAR-radar (CLR)、门控-LiDAR-radar (GLR)和摄像头-门控-LiDAR-radar (CLGR)输入。这些方法利用基于LiDAR和radar数据的 Query ，并具有学习到的距离权重。作者将结果集中在远距离的行人类别上，由于LiDAR点Sparse，这里的检测最具挑战性。结果强调了整合额外模态的好处，这在白天和夜间条件下都特别明显。

被动RGB与主动门控成像(GL和CL)的单摄像头模态之间的性能比较在不同光照条件下显示出明显的优势。在日光条件下，CL中包含的RGB颜色信息在

到

范围内提供了2.85 AP点的性能提升。相反，在夜间，GL中主动照明的优越SNR增强了检测能力，在中距离和远距离分别带来了+1.08 AP和+3.45 AP的改进。在CGL配置中集成两种摄像头技术利用了各自的优势，在白天和夜间设置中都提供了增强的性能。添加雷达数据进一步放大了整体性能，尽管缺少门控摄像头会略微降低夜间效能。

当使用所有四种模态(CGLR)时，最佳结果得以显现，利用每个传感器的独特优势来增强架构在不同光照条件和恶劣天气下的弹性。这种配置还受益于利用所有涉及模态生成的 Proposal 。

此外，在表2b中，作者扩展了验证范围，以评估作者的融合技术超越简单模态集成的影响。作者研究了基于深度的变换、加权BEV地图和各种模态 Proposal 策略的有效性。逐步纳入这些方法学改进与显著的性能提升相关，表明简单地堆叠模态不足以最大化结果。例如，与仅基于点云的 Proposal 相比，采用多模态 Proposal 将夜间行人检测提高了

。此外，作者的距离感知加权机制

进一步将检测能力提高了高达

。值得注意的是，利用门控成像数据的 Proposal 比基于彩色数据的 Proposal 产生更大的改进幅度，这是由于它们固有的距离编码，从而促进了卓越的几何定位。

4.3 评估

作者将SAMFusion与九种最先进的方法进行比较，包括一种单目相机3D目标检测方法[6]、两种门控相机方法[31, 48]、一种立体相机方法[36]、一种LiDAR方法[80]以及四种LiDAR-RGB融合方法[42,62,77,83]。结果总结在表1中，进一步的定性评估在图3和图4中呈现，其中报告的检测包括BEV和透视图两种视角。

picture.image

SAMFusion在恶劣天气和变化光照条件下的行人检测中优于所有最先进的多模态方法。特别是在

到

的远距离范围内，SAMFusion在3D行人检测中白天达到高达

的幅度，夜间达到

的幅度。此外，行人检测性能在中距离范围内提高了

。这些改进可归因于额外主动传感器带来的夜间增强可见性，也可归因于通过基于距离的多模态加权方案对这些传感器的有效整合。

汽车检测略有改善。这是由于3D标注中汽车类别的标注偏差，该偏差优先考虑精确性而非完整性。少于五个LiDAR点的物体被 Token 为"不关注"，这使得在如此具有挑战性的情况下难以衡量改进。对于行人，采用了一种不同的策略，该策略侧重于完整性，从而提供了更多汽车类别所不具备的具有挑战性的真实标签。

恶劣天气评估

表3验证了所SAMFusion在恶劣天气（如雪和雾）中的有效性。最先进的LiDAR-RGB方法在恶劣天气中因能见度降低和后向散射而面临挑战，导致这些融合方法的表现明显差于晴朗条件下的表现，尽管场景配置相对简单。与这些 Baseline 相比，在雪天场景中，SAMFusion对于中距离行人实现了高达

（相对提升20.4%）的改进，对于远距离行人实现了

（相对提升

）的改进，相比第二好的（LiDAR和RGB）方法。在雾天场景中，SAMFusion对于行人实现了高达

（相对提升

）的大幅改进。在雾天条件下，对于汽车类别，它实现了高达

（相对提升5.2%）的改进。

picture.image

恶劣天气条件下的检测性能与场景难度相关。与表1相比，性能的相对提升可以通过这些天气划分中道路使用者数量的减少来解释，因为参与道路交通的人更少，简化了当前的一般任务。

5 结论

作者提出了SAMFusion，一种用于自动驾驶中在恶劣天气条件下进行鲁棒3D目标检测的多模态自适应传感器融合方法。SAMFusion通过门控相机和雷达传感器增强了传统的相机-激光雷达感知堆栈，显著提高了在低光和恶劣天气场景下的性能，特别是对于检测轮廓狭窄和易受伤害的道路使用者。SAMFusion采用基于深度的感知模态自适应融合，并结合学习到的多模态、距离加权的解码器- Query 机制，该机制利用了传感器特定的随距离变化的可见性。作者在具有挑战性的SeeingThroughFog数据集[3]上验证了SAMFusion，在浓雾中对行人的检测提高了

点，在远距离大雪中提高了

点。未来的工作将纳入额外任务，如在恶劣天气条件下的规划和不确定性传播，以改进决策和轨迹规划，进一步增强自动驾驶系统在挑战性条件下的鲁棒性和有效性。

参考

[1]. SAMFusion: Sensor-Adaptive Multimodal Fusion for 3D Object Detection in Adverse Weather