超越BEVFusion,快3倍！高2个点！SparseFusion在语义和几何模块引入稀疏性，让多模态BEV速度和性能登峰造极 - 文章 - 开发者社区

ADAS Laboratory

picture.image

点击上方蓝字关注 智驾实验室

picture.image

扫描上方二维码，加入【 智驾实验室 】交流群，

获取更多内容和资料

picture.image

多模态三维目标检测在近年来已经取得了显著的进展。然而，由于大多数现有方法依赖于密集的3D特征，它们很难扩展到长距离场景，这大大增加了计算需求和内存使用。在本文中，作者介绍了SparseFusion，一个全新的多模态融合框架，完全建立在稀疏3D特征之上，以促进高效的长距离感知。

作者方法的核心是Sparse View Transformer模块，它有选择地将2D图像空间中的感兴趣区域提升到统一的3D空间。所提出的模块从语义和几何方面引入了稀疏性，只填充前景目标可能存在的网格。

全面实验验证了作者的框架在长距离3D感知中的高效性和有效性。值得注意的是，在长距离Argoverse2数据集上，SparseFusion与密集检测器相比，减少了内存占用并加快了大约两倍的推理速度。

它还使用mAP 41.2%和CDS 32.1%的成绩达到了最先进的表现。SparseFusion的通用性也在时间目标检测任务和3D车道线检测任务中得到了验证。

1 Introduction

三维目标检测是自动驾驶的关键组成部分，旨在精确识别和分类三维环境中的物体。近期该领域的进展[9, 19, 27, 35, 50, 52, 55, 58]通常采用周围图像、稀疏点云或多模态数据作为输入，这显著提高了目标定位和分类的准确性。然而，这些方法大多是为短距离感知而定制的（例如，在nuScenes[2]中为0-50米，在Waymo[46]中为0-75米）。这种局限性在实际应用中变得明显，尤其是在大型和高速度的自动驾驶车辆（如卡车）需要更广阔的感知范围时。因此，对长距离感知的探索变得日益重要，并越来越多地受到领域的关注。

近期，对长距离感知的探索[6, 8, 9]主要集中在了激光雷达点云上。这种偏好源于激光雷达在远距离上的固有的稀疏性，以及其准确定位远处物体的能力。为了克服在长距离场景中创建密集的鸟瞰图（BEV）特征所相关的计算和内存负担，这些基于激光雷达的3D检测器[6, 7, 8, 9, 40]通常首先将点云转换成稀疏 Voxel 特征[64, 65]，然后采用稀疏卷积[12, 59]或Transformer[36, 37, 49]来提取特征。然而，这些方法可能由于在远距离处缺乏语义信息以及点密度的降低，特别是在对小物体进行检测时，性能可能会下降。

与稀疏点云数据相比，视觉数据可以提供丰富且密集的语义信息。近年来，基于相机的3D检测受到了越来越多的关注，主要焦点是基于多视角相机的工作。这些多视角3D检测器可以根据它们是否生成鸟瞰图（BEV）特征表示分为两类：基于BEV和无BEV方法。基于BEV的方法[19, 25, 26, 27, 57, 60]明确生成密集的BEV特征，并在这些特征上进行3D检测。尽管基于相机的BEV方法为多模态特征的融合提供了一个统一的表示空间，但它们遇到了与基于密集BEV的激光雷达方法类似的挑战，特别是在感知范围增加时内存和计算需求急剧增加的问题。相反，由DETR3D[54]开创的无BEV方法采取了另一种方法。利用稀疏 Query 来聚合图像特征[21, 30, 32, 53, 55]，它们避免了对密集BEV特征的需求，从而容易扩展感知范围。然而，与激光雷达基于的检测器相比，纯基于相机的检测方法在定位精度上仍然存在明显的差距。

为了充分利用不同传感器的优势，已经出现了许多采用多模态传感器进行3D检测的方法[1, 11, 28, 35, 50, 52, 58]。这些方法旨在将相机提供的丰富语义信息与LiDAR的精确定位能力相结合。通过融合这些不同的数据源，多模态3D检测器可以实现更准确、更可靠的目标检测性能。然而，目前流行的多模态融合方法，如BEVFusion[28, 35]，在很大程度上依赖于密集的鸟瞰图（BEV）特征表示，这在将这些方法扩展到长距离感知时带来了重大挑战。探索如何让这些基于BEV的多模态融合方法在长距离场景中有效工作，是一个值得研究的课题。

在本文中，作者提出了一种高效的框架，名为SparseFusion，它将基于鸟瞰图（BEV）的方法扩展到长距离感知。从点云固有的稀疏性中汲取灵感，作者将注意力集中在三维环境中的特定元素上，如物体或车道线。通过将计算努力专门用于这些关键元素，作者的框架旨在最小化计算开销，同时实现扩展范围内的有效感知。为此，作者提出了一个Sparse View Transformer模块。它通过从2D感知任务预测的语义和几何先验，有选择地将感兴趣的2D信息提升到3D空间，从而产生稀疏的3D特征。具体来说，作者预测前景物体的边界框或 Mask 以及深度分布，并且只填充那些可能存在物体的BEV网格。然后，这些特征与来自点云的稀疏特征融合，形成如图1所示的稀疏多模态3D特征。最后，作者使用精心设计的稀疏特征编码器和 Head 来生成检测结果。此外，作者还扩展了作者的方法以验证其在时序检测和3D车道线检测上的多功能性。

picture.image

在Sparse View Transformer的帮助下，作者的SparseFusion在长距离检测数据集Argoverse2 [56]上取得了最新的领先性能，同时它在nuScenes数据集上也展示了具有竞争力的结果。作者的主要贡献如下：

作者提出了一种新颖的多模态稀疏融合三维检测框架，它扩展了基于鸟瞰图（BEV）方法在远程感知方面的能力。特别是，它借助来自二维感知任务的语义和几何先验信息来稀疏化三维特征。

在长距离感知数据集Argoverse2上，作者的模型取得了最先进的性能，同时显著降低了计算和内存占用。作者还展示了所提方法在时间目标检测任务和3D车道线检测任务上的通用性。

2 Related Work

LiDAR-based 3D Object Detection

基于LiDAR的三维目标检测方法[22, 62, 64]通常涉及将不规则的点云划分为规则的 Voxel 或柱状体[64, 65]，然后使用PointNet[43]方法进行特征提取。这些特征一旦重新映射到密集的特征空间，就会使用密集卷积进行处理，以进行后续的三维感知任务。然而，这些依赖于密集特征的检测器受到特征空间大小的限制，这是由于计算资源的有限性。当试图将它们的有效性扩展到长距离感知时，这个限制成为一个重大挑战，因为这需要大幅增加密集特征空间的大小。

针对这一挑战，SECOND [59] 提出了用于特征提取的稀疏卷积，有效地减少了内存和时间上的开销。随后基于稀疏特征[22, 40, 62]的检测器进一步验证了稀疏卷积在涉及点云的三维检测任务中的优势。与基于稀疏卷积的方法相比，点云 Transformer [7, 36, 49]通过将不规则的稀疏点云分组到规则窗口中，并在窗口内执行自注意力，从而在数据内部捕捉长距离依赖关系。

为了进一步降低计算开销，最近的工作集中在移除密集检测 Head 。FSD [8]首次提出了一个完全稀疏结构，用于基于激光雷达的3D检测，该方法通过分割-聚类-细化流程。VoxelNext [6]通过提出一种全新的标签分配策略，改进了这一方法，实现了一种完全端到端的架构。最近，FSDv2 [9]提出了一种简单但有效的方法，通过引入“虚拟 Voxel ”的概念。所有这些方法都极大地促进了基于激光雷达方法的远距离感知。

Multi-View 3D Object Detection

多视角3D目标检测领域的最新进展主要集中在直接在3D空间内检测目标。这些多视角3D检测方法大致可以分为两类：基于鸟瞰图（BEV）的方法和无需鸟瞰图的方法。基于鸟瞰图的方法[19, 23, 25, 27, 31, 57, 63]通过技术如LSS[19, 25, 57, 63]或可变形注意力[27, 60, 67]明确创建密集的BEV特征，并在这些特征上进行检测。然而，随着感知距离的增加，生成额外BEV网格的必要性导致内存和计算开销的二次增长。这一挑战使得基于BEV的模型难以扩展用于长距离感知。

无BEV方法避免了显式生成BEV特征。相反，它们引入了一套稀疏的目标 Query 集用于特征聚合和目标预测[21, 30, 32, 33, 54, 55]。作为这一领域的先驱，DETR3D [54] 从目标 Query 生成3D参考点，利用固有参数和外在参数将其投影到图像上，从而促进了多视角特征获取和聚合。PETR [32, 33] 引入了一种新颖的3D位置感知特征表示，使目标 Query 能够通过交叉注意力直接与密集图像特征交互。MV2D [55] 利用2D检测器的高召回特性生成动态目标 Query ，从而通过较少的目标 Query 提高了性能。这些方法不生成密集的BEV特征，减轻了远程感知的计算负担。

Multi-modal based 3D Detection

多模态输入提供了关于周围环境的互补信息，使得基于多模态的方法能够比仅使用激光雷达或仅使用视觉的方法实现更优的性能。最近的多模态3D检测方法主要依赖于鸟瞰图（BEV）特征表示进行检测[1, 5, 11, 15, 16, 35, 52]。BEVFusion [35]采用LSS [42]操作将图像特征投影到BEV空间，然后通过简单的拼接方式与激光雷达特征融合。TransFusion [1]和FUTR3D [5]生成稀疏的全局 Query ，并通过与来自激光雷达和图像的特征进行交叉注意力细化它们。所有这些方法都是建立在密集的特征表示之上的。随着感知距离的增加，模型的计算负载和内存需求显著增加，限制了这些模型在长距离场景中的实际应用。

3 Method

作者提出的SparseFusion的整体架构如图2所示。作者使用两个独立的网络作为相机和LiDAR输入的特征提取器。LiDAR分支采用一个稀疏 Voxel 编码器[64]来获取稀疏特征，其中和分别表示 Voxel 数量和特征维度。相机分支接收个环视图像作为输入，表示为，其中。然后采用一个图像 Backbone 网络（例如，ResNet [14]，Swin [34]）以及一个 Neck 结构（例如，FPN [29]）来提取多视图图像特征，表示为，其中是从图像中提取的特征。

picture.image

在获得图像特征后，最近的基于鸟瞰图（BEV）的方法[19, 25, 27]使用如LSS[42]或可变形注意力[67]的技术将2D特征转换为密集的BEV特征。然而，这些方法随着感知范围的扩大，会导致计算负载和内存需求大幅增加。为了有效应对这一挑战，作者引入了稀疏视角 Transformer 模块，它有选择地将感兴趣的前景信息提升到3D空间，从而生成稀疏特征，表示为，其中是前景 Voxel 的数量。

一旦作者从图像中提取出稀疏特征，作者可以将它们与稀疏激光雷达（LiDAR）特征进行融合。这一融合过程之后，会通过稀疏编码器和稀疏 Head 来获取最终的感知结果。

Sparse View Transformer

在深入探讨作者提出的稀疏视图 Transformer （Sparse View Transformer）之前，作者首先简要概述了LSS [42]方法，作者的方法是基于此构建的。LSS的核心思想是明确预测每个图像像素的深度分布，然后通过预测的深度将2D像素提升到3D空间。对于每个图像像素，LSS预测一个上下文向量和一个深度分布，其中是一组离散深度，如图2（a）所示。随后，上下文向量通过加权，将每个2D像素提升到3D空间，从而得到图像的特征分布张量，记作。然后，每个通过相机外参变换到统一坐标系统，之后进行柱状池化操作[18]进行多视图特征融合。最终，获得一个密集的鸟瞰图（BEV）特征表示，该表示随后被特征编码器和特定任务头用于进一步处理。然而，这种方法面临着计算速度慢和内存占用高的挑战，特别是在需要增加深度区间和特征图大小以提高性能的长距离感知场景中。

为了应对这些挑战，作者从点云固有的稀疏性中汲取灵感。作者的解决方案围绕在特征张量中引入稀疏性，从而降低LSS操作的复杂性，并使得能够使用稀疏卷积来加速后续的鸟瞰图（BEV）特征编码器和 Head 计算。以下，作者将详细阐述如何将稀疏性引入到特征张量的空间和深度维度，分别对应图像感知稀疏模块和深度感知稀疏模块。

图像感知稀疏模块。 为了减轻特征图尺寸带来的计算负担，作者的图像感知稀疏模块重点关注选择性地保留前景物体，如图2(b)所示。这是通过使用2D检测器[44, 45, 47]来识别并为每张图像生成边界框来实现的，表示为，其中。然后这些边界框被用于生成前景 Mask ，有效过滤掉背景像素，只保留行人、车辆和其他感兴趣的目标等前景物体。然后作者仅在候选前景像素上执行LSS操作，从而使模型专注于图像中的特定兴趣区域。这种方法不仅降低了LSS的计算复杂性，还为在3D空间中定位物体提供了有价值的前置信息。

深度感知稀疏模块。 影响LSS计算复杂性的另一个因素是深度区间数量。在每一个深度区间保持恒定分辨率的情况下，随着感知距离的延伸，会增加。为了应对长距离感知中枚举更多深度值挑战，作者只保留每个像素预测的具有前K个最高概率的深度值，而将其他值设为零。这使得作者能够为每个像素生成一个深度分布 Mask 。

通过将图像感知 Mask 和深度感知 Mask 同时应用于，作者可以为每张图像获得一个稀疏张量。然后，作者采用遵循BEVPoolV2 [18]的操作来构建一个稀疏的鸟瞰图（BEV）特征，该特征随后被稀疏编码器和 Head 进一步处理。值得注意的是，为了最大化从图像衍生出的BEV特征的空间稀疏性，深度分布尽可能集中是至关重要的。受到BEVDepth [25]的启发，作者使用一个由点云投影到相应图像得到的真实深度图来监督深度分布。

Sparse Encoder

在从相机和激光雷达获得稀疏特征之后，作者采用了一个融合模块以及一个稀疏编码器来进行特征融合和细化。有多种方法可用于融合来自不同模态的稀疏特征，例如加法、拼接和交叉注意力[48]。在这里，作者采用拼接方法来融合多模态特征，以简化作者的方法。遵循BEVFusion [35]，作者使用基于卷积的鸟瞰图（BEV）编码器进一步从融合的稀疏张量中提取特征。这有助于解决由于图像深度估计不准确而导致的相机特征与激光雷达特征之间的空间不对齐问题。值得注意的是，作者将原始BEV编码器中使用的标准卷积替换为稀疏卷积[59]。这个改动避免了生成密集特征图，与长距离感知的需求相吻合。

Sparse Object Detection Head

对于3D目标检测，作者的框架容纳了各种检测Head，包括基于卷积的头，如CenterPoint [62]中的CenterHead，以及基于 Query 的头，如同TransFusion头[1]。在表1中详细展示了作者的框架使用CenterHead和TransFusion头在Argoverse2（AV2）上的性能表现。在实验中，作者主要采用TransFusion头，之所以选择它，是因为它与作者的稀疏框架兼容并且性能有所提升，除非有特别说明。所有标准的卷积操作都被替换为稀疏卷积。此外，作者采用可变形注意力[67]而非全局注意力。可变形注意力不仅有助于减少内存使用和计算开销，而且随着感知距离的增加，更多的背景信息被融入到特征中，这可能会使得全局注意力在特征聚合时更容易受到背景信息的干扰。

picture.image

4 Experiment

Datasets and Metrics

作者主要在Argoverse2数据集[56]上进行实验和消融研究，这个数据集特别适合于长距离感知。此外，为了便于与各种最先进（SOTA）方法进行比较，作者还评估了广泛认可的nuScenes数据集[2]。Argoverse2 是一个大规模、长距离的数据集，感知距离为200m（覆盖400m 400m的区域）。它包含1000个场景，其中700个用于训练，150个用于验证，150个用于测试。每个场景都是用七台高分辨率相机以20Hz的频率录制，以及一台以10Hz的频率的激光雷达。作者在200m范围内用26个类别评估SparseFusion。除了平均精度（mAP）之外，AV2数据集还提出了一种综合指标，名为复合检测得分（CDS），它同时考虑了AP和定位误差。

nuScenes 是广泛应用于自动驾驶领域的3D目标检测数据集之一。它包含1000个场景，每个场景持续20秒。数据集中有140万个来自10个类别的标注3D边界框。nuScenes的感知范围为50米（覆盖一个100m 100m的区域）。作者使用mAP和nuScenes检测分数（NDS）作为作者的检测指标。

Implementation Details

为了提取点云特征，作者采用了VoxelNet [64] 作为激光雷达的主干网络。作者将 Voxel 大小设置为（0.075m, 0.075m, 0.2m），并且遵循BEVFusion [35]将鸟瞰图（BEV）网格大小设置为（0.6m, 0.6m）。对于nuScenes数据集，作者使用Swin-T [34] 作为图像主干网络，图像输入分辨率为256704。作者从118个深度区间中保留了前10个深度值。至于AV2，作者采用ResNet50 [14] 作为图像主干网络，并将源图像调整至384768。从648个深度区间中选择前10个深度值。在训练过程中，SparseFusion使用 GT 2D边界框生成图像 Mask 。由2D检测器生成的2D边界框仅在推理阶段使用。默认情况下，作者使用带有ResNet50主干网络的Faster-RCNN [45] 作为2D检测器。作者将3D边界框投影到图像上，以获得用于Faster-RCNN训练的2D GT 边界框。

Main Results

为了验证作者的框架在长距离场景下的性能，作者在AV2数据集上进行了实验。作者将在AV2验证集上，将作者的模型与现有的最先进算法[6, 9, 21, 24, 58]进行了比较。如表格2所示，作者的模型显示出显著的优势。与作者的 Baseline BEVFusion [35]相比，在相同的图像和 Voxel 分辨率下，作者的方法实现了1.0%的mAP和0.9%的CDS提升。正如表格3所示，即使是在近距离场景下，作者的模型也表现出色。在nuScenes数据集上，作者的模型与 Baseline 取得了相似的结果。

Ablation Studies & Analyses

作者在AV2数据集上进行了消融研究，遵循与第4.2节中作者的主要实验相同的实施方式，除非有特别说明。

稀疏模块。 作者对模型的稀疏组成部分进行了全面分析。从BEVFusion [35]开始，作者报告了每个模块的性能，并计算了融合的BEV特征（记为）的稀疏性，以及在每种设置中的延迟和内存成本。为了与BEVFusion进行公平的比较，作者将BEVFusion中的全局注意力替换为可变形注意力，以此作为作者稀疏模块的 Baseline 。

picture.image

正如表4所示，仅融合图像感知稀疏模块可使稀疏性提高到50%，与 Baseline 相比性能相似。然而，由于稀疏卷积[59]固有的开销，50%的稀疏性并没有带来显著的加速改善。读者可以参考附录材料来直观了解稀疏性-延迟/内存之间的关系。当仅使用深度感知稀疏模块时，与 Baseline 相比，在91.9%的稀疏水平上，作者实现了0.4%的mAP和0.6%的CDS提升，同时延迟减少了近170ms。这强调了在长距离场景中直接从3D特征中提取冗余信息可能是过度的。消除这种冗余不仅减少了内存使用和计算负载，还提升了模型的性能。通过结合IAS和DAS，作者的框架优于 Baseline ，实现了57%的延迟减少和49%的内存使用降低。为了更清楚地展示作者模型的效率，表5提供了在较大输入分辨率下SparseFusion和BEVFusion的延迟的详细分解。

picture.image

如表5所示，相比于基准模型，作者的算法在视图 Transformer 中的推理延迟降低了约80%，在特征编码器中降低了75%，在检测Head中降低了35%。通过利用稀疏特征，作者的方法有效减少了内存使用并提升了推理速度。改进后的资源占用和卓越的性能表明了SparseFusion适用于长距离检测任务。

Top-K深度值。 在作者提出的深度感知稀疏模块中，通过调整top-K值来控制输出特征中的稀疏性。

picture.image

作者在AV2验证集上针对不同的K值进行了消融实验，具体细节如表6所示。除了mAP和CDS之外，作者还提供了对摄像头输出特征（记为）和融合特征（记为）的稀疏性洞察。根据实验结果，即使只保留top-10的深度值，尽管图像特征的稀疏性为93.8%，该模型的mAP与 Baseline 相比仍然具有竞争力。

这表明在提升的图像特征中存在大量冗余信息，忽略这些信息可以减少内存使用和计算开销。在引入深度损失后，图像特征的稀疏性大约增加了5%到16%，这表明加入深度损失可以集中预测的深度，进一步增加模型的稀疏性。

输入分辨率。 随着距离的增加，激光雷达点的密度会降低，这限制了远处物体的可用信息量。在作者的融合框架中，作者通过增加图像的分辨率来弥补这一点。表8展示了作者模型在AV2验证集上不同图像分辨率下的结果。随着图像分辨率的提高，作者在mAP和CDS上都观察到显著的改进，分别从39.8%和31.0%提升到41.2%和32.1%。这种性能的提升主要归功于更高的图像分辨率能够更清晰地看到远处的物体，从而提供了更丰富的信息，这对于有效的远程目标检测至关重要。

picture.image

然而，对于作者 Baseline 方法BEVFusion，图像分辨率的增加会导致延迟显著增加，如图3(a)所示。这强调了作者框架中稀疏性的必要性：虽然高分辨率图像提供了更详细的信息，但稀疏视角转换可以在不产生过高延迟的情况下有效保留必要信息。

picture.image

2D目标检测器。 作者分析了2D检测器对模型性能的影响，如表格9所示。当采用Faster-RCNN作为2D检测器时，模型可以实现0.6%的mAP提升。在使用相对较弱的2D检测器（FCOS）时，模型的性能仍能保持稳定，这表明作者的模型对不同质量的2D边界框具有很好的鲁棒性。作者还提供了一个采用真实值2D边界框作为输入的对照实验。

这个预兆实验比其他检测器实现了更高的性能，这展示了作者SparseFusion框架的潜力。在未来的工作中，作者将尝试融入更优秀的2D先验知识。

Application to Temporal Object Detection

时间输入通常会产生更多冗余信息。为了评估作者的模型在处理多帧输入时的效率和性能，作者将模型扩展到时序目标检测。遵循BEVDet4D [17]的方法，作者首先根据自运动将历史BEV特征对齐到当前时间戳，然后采用拼接和稀疏卷积方法融合历史帧。如表10所示，随着输入帧数的增加，作者的模型在特征稀疏性仅降低6.1%的情况下，依次比BEVFusion模型提高了0.4、0.5和0.8 mAP，这表明它能有效过滤冗余信息。相比之下，依赖于密集BEV表示的时序检测方法[3, 13, 17, 27]需要存储历史帧，而密集对齐操作成为了延迟瓶颈，特别是在远距离感知场景中。由于作者的模型仅融合前景区域，因此在内存和计算方面都是高效的，如图3(b)所示。在4帧设置中，作者的模型可以将推理速度提高1.9倍，将内存消耗降低2.4倍。

picture.image

Application to 3D Lane Detection

为了展示SparseFusion的灵活性，作者将其实际应用于3D车道线检测。先前的方法[10, 38, 51]通常依赖于密集的鸟瞰图（BEV）特征，这对于长距离感知的计算开销提出了挑战。作者通过将基于边界框的 Mask 替换为来自2D车道线分割的 Mask ，来调整这种方法用于3D车道线检测。至于这个任务的头（head），作者采用了BEV-LaneDet[51]中的头。

作者在OpenLane [4]上进行了3D车道线检测任务，这是一个基于Waymo [46]构建的大规模3D车道线检测数据集，并将作者的SparseFusion与最近的最先进（SOTA）方法进行了比较。结果在表7中提供。与 Baseline BEV-LaneDet相比，作者的方法实现了高出2.5%的F1分数，X和Z的误差都降低了。这种改进强调了来自激光雷达点的精确空间信息在提高定位精度中的价值。这些结果还展示了作者模型与不同任务的强大兼容性。实施细节在补充材料中提供。

picture.image

5 Conclusion

在本文中，作者引入了一种高效的多模态稀疏融合框架SparseFusion，用于长距离的3D感知。作者的框架利用了精心设计的Sparse View Transformer模块，它有选择地将感兴趣区域提升到3D空间，并与3D点云特征无缝集成。这种方法显著降低了计算需求和内存使用，扩展了基于BEV方法的在高效长距离感知方面的能力。实验结果突显了作者方法的卓越性能，强调了其实际应用的潜力。

SparseFusion: Efficient Sparse Multi-Modal Fusion Framework for Long-Range 3D Perception

Implementation details

本节提供了作者提出方法的更多实现细节及实验。所有实验都是使用混合精度进行训练的。遵循先前的方法[1, 35]，作者首先使用 Copy-Paste 增强策略[62]对激光雷达分支进行20个周期的训练，并在最后5个周期中禁用此增强。然后作者再对激光雷达-摄像头融合模块进行另外6个周期的训练。作者采用CBGS [66]进行类别平衡学习。实验是在16块RTX 3090 GPU上进行的训练。作者使用余弦退火衰减学习率，并采用带有1e-2权重衰减的AdamW [37]进行优化。

对于nuScenes [2] 数据集，学习率设置为4^-4，每个GPU上使用批量大小为4。对于Argoverse2 [56] 数据集，作者的方法在每个GPU上使用批量大小为2，而BEVFusion [28] 则在每个GPU上使用批量大小为1。为了公平比较并减轻不同批量大小的影响，作者在Argoverse2数据集上的BEVFusion中加入了SyncBN [41]。

OpenLane

OpenLane 数据集。 OpenLane 数据集是一个基于 Waymo [46] 数据集构建的大型3D车道线检测数据集。它包含1000个片段，20万帧以及超过88万条标注的车道。数据集包含激光雷达和摄像头输入，并提供2D和3D车道标注。OpenLane 数据集只有一个前向摄像头，感知范围为100m（覆盖区域为20m 100m）。作者在 OpenLane 数据集上评估了 F1 分数。

3D车道线检测。 在遵循BEV-LaneDet [51]之后，作者将BEV网格大小设置为（0.5m, 0.5m）。在X轴上的感知范围设置为[3m, 103m]，Y轴上为[-12m, 12m]，Z轴上为[-4m, 4m]。对于图像编码器，作者使用与图像 Backbone 相同的ResNet34 [14]，并将图像大小调整为5761024。至于激光雷达编码器，作者使用VoxelNet作为激光雷达的 Backbone 网络，并将 Voxel 大小设置为（0.125m, 0.125m, 0.2m）。作者采用了BEV-LaneDet中使用的2D车道分割分支来生成图像 Mask 。作者使用8个RTX 3090 GPU对激光雷达-相机融合模块进行训练，每个GPU的批处理大小为8，共训练10个周期。作者将学习率设置为2e-3。其他设置与Argoverse2相似。

Experimental results

BEV稀疏性。 作者在Argoverse2数据集上计算了作者的方法在不同BEV稀疏性下的内存成本和延迟，如图6所示。结果表明了一个明显的趋势：随着BEV稀疏性的增加，SparseFusion的内存成本和延迟呈现下降趋势。然而，值得注意的是，由于稀疏卷积固有的开销[59]，当BEV的稀疏性低于47%时，SparseFusion的开销超过了BEVFusion。为了充分利用稀疏卷积来加速推理速度和最小化内存成本，作者发现保持BEV稀疏性超过70%是至关重要的。

picture.image

2D边界 Mask 策略。 在训练过程中，只保留与 GT （GT）边界框相对应的区域会导致过滤掉很大一部分背景区域，从而降低了模型准确区分前景和背景元素的能力。为了解决这一限制，作者在训练过程中采用了一种随机保留部分背景区域的策略。具体来说，作者引入了随机初始化的噪声窗口，这些噪声窗口与GT 2D边界框一起作为前景 Mask 使用。在测试阶段，只使用预测的边界框，从而减轻了内存和时间开销的增加。《表12》中的实验结果显示，在引入噪声窗口后，模型的性能提高了0.4 mAP。

picture.image

召回率分析。 在图7中，作者展示了AV2数据集中实例数量最多的前10个目标类别的精确度-召回率曲线。这些曲线说明，与基准模型相比，作者的模型在精确度和召回率方面都有更高的表现，特别是在小目标，如行人、路障和停车标志上。

picture.image

在不同范围内的性能表现。 作者分析了SparseFusion在不同模态输入和感知范围内的性能表现。如表11详细所示，与单模态输入相比，作者的模型在使用多模态输入时，在检测性能上有了显著的提升。这种改进归功于作者的多模态融合模型中对LiDAR的几何信息与相机的语义信息的协同整合。此外，与BEVFusion相比，作者的模型表现出更优的性能，在0-50m和50-100m距离上的mAP分别提高了1.4和0.2，尽管在100-200米的距离上略有0.8的下降。作者在Fig. 5中展示了作者模型在不同范围内的稀疏性。值得注意的是，超过100m的范围内，只有1.4%的鸟瞰图（BEV）网格包含非空特征。这强调了作者稀疏处理方法的高效性，因为作者的模型使用最少的特征也取得了相当的结果。

picture.image

参考

[1].SparseFusion: Efficient Sparse Multi-Modal Fusion Framework for Long-Range 3D Perception.

扫描下方二维码，添加 AI驾驶员

获取更多的 大模型 与 多模态 等信息

picture.image