点击下方名片,关注「集智书童」公众号
本文主要解决了什么问题
-
- 3D目标检测模型依赖基于VGG或ResNet的特征提取Backbone网络,导致模型复杂度增加,计算成本高。
-
- 轻量级Backbone网络设计在2D目标检测领域已得到充分探索,但针对3D目标检测的研究仍较为有限。
-
- 自动驾驶车辆计算资源有限,需要在边缘设备上实时执行众多任务,但现有3D目标检测模型计算成本高。
-
- 现有3D目标检测器使用的Backbone网络并非专门为点云数据设计,没有针对点云的稀疏性和非结构化特性进行优化。
本文的核心创新是什么
-
- 提出了Dense Backbone,一种专为3D目标检测设计的轻量级Backbone网络,结合高处理速度、轻量级架构和鲁棒检测精度。
-
- Dense Backbone采用密集层和一次性聚合策略,实现高效的特征重用,特别适合处理点云数据的稀疏性和非结构化特性。
-
- Dense Backbone具有即插即用能力,无需修改编码器、Neck和Head等其他组件,即可无缝集成到现有架构中。
-
- 首次提出了一种基于全密集层的Backbone网络,专门用于基于LiDAR的3D目标检测。
-
- 采用逐步增加的增长率策略,为更深的层分配更多可学习参数,增强提取高级语义特征的能力。
结果相较于以前的方法有哪些提升
-
- 在nuScenes测试集上,基于PillarNet的DensePillarNet实现仅损失2%的检测精度,模型参数减少了29%,延迟降低了28%。
-
- DensePointPillars在KITTI测试集上,相比基础模型在3D和BEV任务上的所有类别检测精度均提高了1-2%,计算量减少了33%,参数数量减少了四倍。
-
- DenseCenterPoint在nuScenes数据集上,相较于CenterPoint,mAP提升了2%,NDS略有提高。
-
- DensePillarNet在nuScenes数据集上,性能与基础模型相似,NDS仅下降了1.5%,但计算需求显著降低。
-
- 在轻量级模型方面,Dense Backbone应用于PointPillars时,参数数量减少了9倍,FLOPs减少了1.5倍;应用于PillarNet时,参数数量减少了2.5倍,FLOPs减少了2.5倍。
-
- 在边缘设备部署方面,DenseCenterPoint在nuScenes数据集上展现出更快的推理速度和更低的内存使用,而基础模型因内存溢出无法执行。
局限性总结
-
- Dense Backbone的一个关键局限性是内存使用增加,尽管采用单次聚合策略减少了计算开销,但仍然具有内存密集性。
-
- 较高的内存需求可能在内存限制极为严格的设备上部署时构成挑战,可能会限制其在高度受限环境中的应用。
导读
基于LiDAR的3D目标检测近期取得了显著进展,极大推动了现实环境中完全自动驾驶的实现进程。尽管多数方法已实现高检测性能,但它们仍依赖基于VGG或ResNet的特征提取 Backbone 网络,导致模型复杂度增加。轻量级 Backbone 网络设计在2D目标检测领域已得到充分探索,但针对3D目标检测的研究仍较为有限。本文提出Dense Backbone,一种结合高处理速度、轻量级架构和鲁棒检测精度的轻量级 Backbone 网络。作者使用该 Backbone 网络对PillarNet等多款SoTA 3D目标检测器进行适配,实验表明,这些模型在显著降低计算成本的同时,仍保留了大部分检测能力。据作者所知,这是首个专为从点云数据中进行3D目标检测而设计的基于密集层的 Backbone 网络。作者基于PillarNet的DensePillarNet实现,在nuScenes测试集上仅损失2%的检测精度,模型参数减少了29%,延迟降低了28%。此外,Dense Backbone的即插即用设计允许其直接集成到现有架构中,无需修改其他网络组件。
- 引言
自动驾驶领域的关键挑战之一是车辆计算资源的有限性。现实中的自动驾驶车辆必须在边缘设备上实时、局部地同时执行众多任务,如目标检测、路径规划、操控等。这些任务需要大量的计算能力[2, 22],而由于空间和能源限制,在车内部署大型服务器是不切实际的。另一种替代方案是将计算任务卸载到云服务器上;然而,该方案受网络可靠性和带宽限制的制约,同时还会引入与安全、数据隐私和实时响应性相关的重要挑战,而这些对于自动驾驶应用至关重要。为解决这些限制,机器学习模型——特别是用于目标检测的模型——必须设计为在最小化计算需求的同时实现实时运行,并保持高性能。
近年来,自动驾驶领域最先进的(SoTA)目标检测模型依赖于使用激光雷达点云进行3D目标检测。这些模型通常将点云转换为 Voxel 或 Pillar ,并采用3D卷积神经网络(3D CNNs)[5, 9, 30, 35] 或2D卷积神经网络(2D CNNs)[14, 16, 21, 24, 29, 31] 进行特征提取。使用3D卷积神经网络的模型在目标检测任务上取得了最先进的结果,但不可避免地会面临高计算成本的问题,这使得在资源受限的硬件上部署这些模型成为挑战。相反,尽管使用基于2D卷积神经网络的特征提取器能够实现更高的帧率(FPS)和较低的计算成本,但其检测精度略低。多年来,3D目标检测领域的研究更广泛地集中在改进点云编码 [16, 24, 36]、 Neck 特征聚合 [16, 24, 35] 或改进检测Head以实现更高的精度 [5, 33]。然而,在 Backbone 网络设计方面的研究非常有限。相比之下,
2D目标检测领域,已有明确研究致力于设计轻量级模型[6, 8, 12, 13, 23, 27, 28],这些模型兼具高效性并展现出提升的检测精度。这些方法中的特征提取器(即 Backbone 网络)通过深度可分离卷积[6, 12, 23]或密集层[27, 28]等特殊设计。然而,对于3D目标检测器而言,该研究方向仍基本未得到探索。采用2DCNN Backbone 网络的最优3D目标检测器并未明确设计其 Backbone 网络,而是直接使用一些流行的图像网络如ResNet[11]。作者认为这些模型中观察到的检测精度下降,主要源于对缺乏针对点云数据(其本质上是Sparse的)的适配的图像目标检测器的依赖。因此,重新审视专门为有效学习Sparse点云表示而设计的 Backbone 网络设计策略,同时保持低计算复杂度,变得至关重要。
本文介绍了一种基于密集层的 Backbone 网络,用于3D目标检测,命名为Dense Backbone。受DenseNet [13]、PeleeNet [28]和VovNet [15]的启发,作者认为在从点云中学习表示时,高效的特征图重用至关重要,因为点云具有固有的Sparse性和缺乏结构。作者 Backbone 网络的核心组件是具有一次性聚合的密集层,这提供了多个感受野,从而增强了学习到的特征的表示能力。
所提出的密集 Backbone 网络的一个关键优势是其即插即用能力。作者将即插即用定义为无需修改编码器、 Neck 和 Head 等其他组件,即可无缝集成作者的 Backbone 网络到现有架构中的能力。为了证明这一点,作者在PointPillars [14]、CenterPoint [33]和PillarNet [24]框架 [14]上实现了作者的 Backbone 网络。作者将这些适配版本称为DensePointPillars、DenseCenterPoint和DensePillarNet。DensePointPillars在KITTI数据集上进行评估,而DenseCenterPoint和DensePillarNet在nuScenes数据集上进行评估。在nuScenes数据集上的评估中,作者的DensePillarNet在最近的最优模型(使用基于ResNet的 Backbone 网络)中具有最低的计算需求,且性能没有显著下降,如图1所示。
作者的贡献如下:
- • 作者提出了Dense Backbone,一种轻量级 Backbone 网络,旨在最大化特征重用,以降低计算成本的同时实现具有竞争力的检测精度。
- • 作者的密集 Backbone 网络具有即插即用能力,这意味着可以替换现有网络中的 Backbone 网络,而无需修改任何其他组件。
- • 据作者所知,作者首次提出了一种基于全密集层的 Backbone 网络,专门用于基于LiDAR的3D目标检测。
- 相关工作
2.1 基于LiDAR的3D目标检测
由于点云数据的Sparse性,3D目标检测器在特征提取之前通常先将点云数据转换为结构化表示。一种基本方法是鸟瞰图(BEV)变换,该方法是Chen等人于MV3D [3]中提出的。Simon等人则在他们的工作Complex YOLO [25]中提出了不同的方法。该方法利用BEV变换后的复杂区域 Proposal 网络(RPN)来提升模型速度和精度;然而,这些方法在BEV变换过程中会丢失大量信息。一种更广泛采用的方法是基于网格的变换,将点云数据划分为3D Voxel 或2D Pillar 。在特征提取方面,基于 Voxel 的方法 [5, 9, 31, 35, 37] 使用3D卷积神经网络(3D CNNs)或3DSparse卷积(3D SpConv)将点云数据划分为3D Voxel ,分别由Zhou等人于VoxelNet [37]和Yan等人于SECOND [31]提出。近期,Chen等人提出的 Voxel 到目标方法VoxelNext [5]直接从 Voxel 特征进行端到端的3D目标检测,无需后处理。其他方法,如[4, 30],利用RGB图像特征来提升点云特征表示。Zhang等人最近的工作SAFDNet [35]引入Sparse自适应特征扩散,以优化检测精度和推理时间。
尽管在降低计算需求方面取得了进展,基于 Voxel (voxel-based)的检测器仍然涉及高昂的计算成本和较长的推理时间。另一方面,基于 Pillar (pillar-based)的方法,如Pointpillars [14] 或 HVPR [21],在特征提取过程中消除了对3D卷积的需求。避免基于 Voxel 的方法,转而将点云投影到伪图像(pseudo-image)格式,PointPillars在推理速度和检测精度之间取得了良好的平衡,特别是在KITTI基准测试上。Shi等人提出的PillarNet [24]引入了一种专门针对伪图像表示优化的 Pillar 编码器,并搭配一个高容量特征聚合 Neck (feature aggregation neck),以增强多尺度特征融合。它在精度上不仅优于[14],而且处理速度几乎翻倍。Li等人最近的工作PillarNext [16]采用了受2D目标检测启发的扩大感受野(enlarged receptive fields),在性能上均优于基于 Pillar 和 Voxel 的模型。尽管近期方法提升了基于 Pillar 的目标检测器,但它们仍然依赖于基于ResNet的 Backbone 网络,且仅在架构上进行了微小的修改。这突显了进一步研究设计专门针对点云3D目标检测的 Backbone 网络的需求。
2.2. 主干网络
特征提取网络,在3D目标检测中通常被称为 Backbone 网络,负责从点云中提取多级特征。这些特征随后由 Neck 进行融合和细化,而 Head 用于检测3D目标。尽管3D卷积网络最初很受欢迎,但由于其高计算需求和延迟,它们被取代了。基于鸟瞰图的算法[25, 26, 32]和早期的 Pillar 模型[14, 21]依赖于2D卷积网络的 Backbone ,通常使用基于ResNet的 Backbone 。
然而,这些 Backbone 网络并非专门为点云设计,模型也未调整其架构以处理点云的Sparse性和非结构化特性。因此,近期的 Voxel 和 Pillar 模型主要采用了基于SpConv的 Backbone 网络。当前方法,如[33-35],利用子流形SpConv残差块(SRB)后接Sparse编码器-解码器层,以高效地捕获长距离依赖关系。一些 Pillar 模型[16, 24]采用改进的ResNet-18[11]作为 Backbone 网络,用2DSpConv替换传统的2DCNN。 Voxel 模型如[5]使用全SpConv架构,无需后处理步骤,如 Anchor 点或RPN。虽然基于SpConv的 Backbone 网络已被证明有效,但近期研究表明,人们对替代 Backbone 网络设计的兴趣日益浓厚。Zhou等人提出的FastPillars[36]引入了一种新型 Pillar 编码技术,表明当与定制的基于2DCNN的 Backbone 网络结合时,可以在降低计算负载和提高速度的同时实现更高的检测精度。Mao等人提出的PillarNest[20]设计了一种受ConvNext[17]启发的 Backbone 网络,该网络首先在大规模图像数据集(如ImageNet)上进行预训练,然后扩展以适应点云特征。然而,这两种方法都需要对 Pillar 编码器以及损失函数[20]进行一些修改,以整合新的 Backbone 网络。作者证明,作者的 Backbone 网络是完全即插即用的,可以轻松地适应网络,而无需修改任何其他组件。
2.3. 轻量级网络设计
随着2D目标检测技术的进步,在资源受限的硬件上实现模型成为一项关键挑战。除了传统的剪枝和量化技术之外,一些研究行人引入了一种称为轻量级网络设计的方法,以在保持性能的同时减小模型尺寸。Chollet提出了Xception[6],采用了深度可分离卷积。受Xception成功的启发,Howard等人提出了MobileNet[12],Sandler等人进一步扩展了它,提出了MobileNetv2[23],两者均利用深度可分离卷积进行目标检测。这些模型证明,轻量级、高效的检测器能够满足移动和嵌入式应用的计算需求。
此外,Huang等人提出了DenseNet[13],采用传统的2D卷积神经网络,强调通过特征重用来提升模型性能,同时减少模型参数。DenseNet通过将所有先前层的特征图连接到每一新层中,而非像ResNet[11]那样进行求和,从而创建密集连接。这种结构差异使DenseNet能够在网络中实现更丰富的特征重用,有助于提高效率。
虽然DenseNet最初针对图像分类,但目标检测提出了额外的挑战,包括处理具有不同类别和宽高比的多个目标。为了应对这些复杂性,Wang等人开发了PeleeNet[28]用于2D目标检测,该网络通过引入双向密集层来扩展感受野,增强了模型的时空上下文感知能力。这种设计使得PeleeNet在保持较低FLOPs和延迟的同时,优于其他轻量级目标检测器,如MobileNet。然而,由于每层特征的级联,PeleeNet和DenseNet都面临着较高的内存访问成本。Lee等人提出的VovNet[15]通过在多层后使用一次性聚合代替逐层级联,构建了一个能耗和部署效率更高的网络。
通过在Dense Backbone中结合密集层和一次性聚合,作者以边际计算成本实现了高效3D目标检测所需的时空深度和效率,特别是在计算资源受限的场景中。
- 密集 Backbone 网络
3.1. 设计理由
作者的目标是通过策略性地减少层间连接来最小化模型参数和计算成本。这通常可以通过增加步长或减少卷积层的输出通道数来实现。然而,较大的步长往往会降低空间分辨率并限制感受野的重叠,从而阻碍对细粒度特征的捕捉。类似地,减少通道数可能会阻碍模型表示细节的能力,如果每个通道都无法捕捉到重要的特征差异。这促使作者提出了以下方法:首先,减少输出通道数以降低计算成本;其次,通过跨层最大化特征重用来弥补由此产生的表示能力损失。这使得模型能够有效地捕捉多尺度空间特征,从而重新思考 Backbone 网络的传统设计。
3.2. 设计
密集块 - Dense Backbone的基本构建模块是密集层。受VoVNet[15]的启发,作者采用一系列前馈Conv层,并在末端进行拼接,如图2所示。特征的拼接使得能够同时学习不同长宽比的物体的特征。
过渡层 - 过渡层是后续密集块之间的中间层。为了避免减少拼接特征的感受野,作者使用逐点卷积层对这些特征进行聚合。最后,作者加入了一个步长为2的平均池化层。作者的广泛研究表明,池化层在检测精度方面优于步长卷积。
增长率 - 增长率
决定了每个密集层中可学习参数的数量。3x3核中的通道数更少确实有助于减少网络权重,但这也会影响特征学习。为了克服这一问题,与DenseNet [13]采用标准增长率
不同,作者针对每个密集块修改
,以确保拼接通道和输出通道
之间没有较大差异。作者在第一个密集块中初始化增长率
为32,遵循[13, 28]中的设计选择,并在后续的每个密集块中逐步将其加倍。这种策略为更深的层分配了更多可学习参数,增强了它们提取High-Level语义特征的能力。
3.3. 密集点桩
编码器:与原始PointPillars模型类似,DensePointPillars采用基于网格的编码器将原始点云组织成 Pillar 结构。这些 Pillar 结构随后被堆叠,多层感知机(MLPs)从中提取特征。提取的特征被转换为2D伪图像以进行进一步处理。
Backbone 网络:由于作者的DenseBackbone具有即插即用的特性,作者保留了原始网络的 Backbone 网络配置,包括层数和输出到 Neck 的输出通道数。 Backbone 网络中的每个密集块由特定数量的密集层组成,其排列方式与原始论文中的结构相似,为[3,5,5],即第一个块包含三层,后续每个块包含五层。
Neck 模块:该 Neck 模块聚合来自 Backbone 网络的特征,融合过渡层的输出以整合多尺度上下文并扩展感受野。这种方法增强了检测Head对各种尺寸物体的精确定位和分类能力。作者采用论文中提出的特征金字塔网络(FPN)作为 Neck 模块。
检测Head:检测Head负责定位物体周围的边界框并对其进行分类。如SECOND [31] 和 PointPillars [14] 中所提出,作者使用了一种基于 Anchor 点的检测Head,其具有针对3D目标检测专门设计的预定义 Anchor 点形状。作者保留了PointPillars中定义的默认检测Head设置。
3.4. DensePillarNet
作者同样对PillarNet-18 [24]模型中的密集 Backbone 网络进行了适配。原始的PillarNet-18使用ResNet-18作为 Backbone 网络,但将Conv2d替换为SpConv。作者采用了类似的方法,保留了密集块和过渡层的布局,同时将图2中的Conv2d替换为SpConv。此外,作者采用步长卷积代替平均池化,正如原始PillarNet所提出的那样。这一设计选择源于实现限制——具体来说,Sparse卷积库(如SpConv)原生不支持池化操作,而将其集成则需要自定义扩展。其他组件,如编码器、 Neck 和检测Head,与原始的PillarNet-18相同。
- 实验
4.1. 选择 Baseline
为了严格评估作者提出的Dense Backbone的即插即用能力和泛化能力,作者将其集成到三个具有代表性且广泛采用的3D目标检测框架中。首先,作者选择PointPillars [14]作为KITTI数据集实验的基础,因其简单性、广泛采用性和强大性能。其次,作者采用CenterPoint [33]作为nuScenes数据集的基础模型。CenterPoint的检测HeadCenterHead已成为基于LiDAR检测 Pipeline 的准标准 [5, 16, 24, 36],这得益于其通用性和优越性能。因此,以CenterPoint作为作者的 Baseline ,使作者能够公平地评估作者的backbone在这项广泛采用的检测方法上的适应性和有效性。最后,作者将Dense Backbone适配到PillarNet [24]中。PillarNet是 Pillar 检测器的强 Baseline ,并且在最近的研究工作中也被用作基准 [16, 20, 36]。
4.2. 数据集
作者在KITTI 3D和nuScenes数据集上评估了DensePointPillars。基于Velodyne 64激光雷达的KITTI 3D目标检测数据集以
的频率采集场景。作者复制了[4, 14, 30]中提出的训练-验证分割方案,使用3712个样本进行训练,3769个样本进行验证。对于测试服务器提交,作者遵循相同的设置,创建一个包含741个样本的小型验证集,并使用剩余数据进行训练。性能通过在40个召回阈值(R40)上的3D平均精度(AP)指标进行衡量,与官方KITTI基准一致。行人(Pedestrian)和骑行者(Cyclist)类别的IoU(IoU)阈值设置为0.5,汽车(Cars)类别的IoU阈值设置为0.7。
在nuScenes评估中,作者使用完整数据集,该数据集包含1000个场景,每个场景时长约20秒,由工作在
的32束激光雷达传感器采集,生成390k个激光雷达扫描数据。遵循mmdetection3d [7]的配置,作者使用28,130个样本进行训练,6019个样本进行验证。作者的评估指标包括跨十个类别的平均精度均值(mAP),距离匹配阈值设置为0.5、1、2、4米。作者还报告nuScenes检测分数(NDS),该分数结合了mAP以及评估平移误差(mATE)、尺度误差(mASE)、朝向误差(mAOE)、速度误差(mAVE)和分类精度(mAAE)等附加指标,为整体检测性能提供综合衡量标准。
4.3. 设置细节
所有模型均使用PyTorch [1] 和mmdetection3d框架 [7] 从头开始训练。对于KITTI数据集,根据[10]中的规范,作者沿
轴设置检测范围为[0, 69.12],沿y轴设置范围为[-39.68, 39.68],沿z轴设置范围为[0, 1]。PointPillars [14] 的 Pillar 大小和每个 Pillar 的最大点数。与原始PointPillars模型不同,该模型为Car和Pedestrian-Cyclist检测分别训练了独立的模型,而mmdetection3d在所有三个类别上训练单个模型。作者在mmdetection3d [7]中采用这种统一模型设置作为 Baseline 。DensePointPillars同样在三个类别上同时训练。因此,作者结果的检测精度可能与原始论文中报告的精度略有差异。
针对nuScenes数据集,为展示作者 Backbone 网络的可即插即用适应性,作者使用Dense Backbone实现了CenterPoint[33]和PillarNet[24]的适配。对于DenseCenterPoint,作者将检测范围设置为水平方向[-51.2, 51.2]和垂直方向[-5, 3],每个柱子最多20个点。检测时,作者采用[33]中指定的CenterHead配置。对于DensePillarNet,与原始设置相同,作者将检测范围设置为水平方向[-54, 54]和垂直方向[-5, 3],柱子大小设置为(0.075, 0.075)。
训练:在KITTI数据集上,作者使用四块Tesla A100 GPU,以批大小为八进行80个epoch的训练。作者采用AdamW [19]优化器,初始学习率为0.001,并使用Cosine Annealing [18]进行调度。在验证阶段,作者将NMS阈值设置为0.01以过滤掉无关的边界框。对于nuScenes数据集,作者使用四块Tesla A100 GPU,以批大小为二进行20个epoch的训练,采用与KITTI相同的优化器和调度设置,但初始学习率为0.0001。所有类别的NMS阈值设置为0.2,与[5, 16, 35]中的设置相同。然而,对于DensePillarNet,作者保持NMS阈值为0.1,并仅使用双翻转集成,如原始论文[24]所述。
- 结果
5.1. KITTI数据集
表1展示了DensePointPillars在KITTI测试集上的结果。与基础模型相比,DensePointPillars在3D和BEV任务上的所有类别检测精度均提高了1-2%。此外,除了有前景的结果外,DensePointPillars相比基础模型计算量减少了33%,参数数量减少了四倍。尽管如此,DensePointPillars相比基础模型具有略微更高的延迟,这可以归因于其通过拼接增加的内存需求,这需要高全局内存带宽来将输入张量复制到新的、连续的输出中。
然而,DensePointPillars 仍然实现了超过
的速度,这比 LiDAR 的
工作速度快两倍以上。
5.2. nuScenes数据集
表2展示了DensePointPillars与基础模型在nuScenes数据集上的类别性能比较。DenseCenterPoint在大多数类别中实现了更优的性能,相较于CenterPoint[33],其mAP提升了2%,NDS略有提高。虽然DensePillarNet未超越基础模型,但其性能在大多数类别中相似,NDS仅下降了1.5%。
表3展示了在nuScenes验证集上关于额外真实正例指标的结果。作者不仅将结果与 Baseline 模型进行比较,还与PillarNest [20]、FastPillars [36]和PillarNext [16]等若干最新顶尖模型进行了比较,这些模型相较于作者的基础模型有所改进。采用密集 Backbone 网络后,作者发现跟踪误差和朝向误差要么相似,要么略有改善,这有助于NDS分数的整体提升。但最重要的是,DensePointPillars所需的计算量远少于最新的顶尖模型,从而实现了更快的速度。结果表明,集成作者的密集 Backbone 网络降低了计算需求,并因此获得了更快的推理速度,使其在边缘设备部署方面具有优势。
- 消融实验
6.1. 轻量级模型
表4详细列出了在KITTI数据集上DensePointPillars和nuScenes数据集上DensePillarNet的各个组件的模型参数和计算需求。当应用于PointPillars时,作者的Dense Backbone参数数量减少了9倍,FLOPs减少了1.5倍,而用于PillarNet时,Dense Backbone参数数量减少了2.5倍,FLOPs减少了2.5倍。在这两种情况下,DensePointPillars的性能与基准模型相当,这表明尽管计算量较少,模型仍能学习到重要特征。这些发现支持作者的假设:对于Sparse、非结构化数据(如激光雷达),优化特征重用的 Backbone 网络比具有有限重用的更大 Backbone 网络更可取。
6.2. 增长率的影响
增长率
控制着信息在网络中的 Stream ,影响模型参数和计算需求。在他们的原始工作中,Huang等人[13]建议采用固定的增长率32。另一方面,Lee等人[15]在将逐层拼接替换为一键式聚合时,提出了分阶段的调整
。如表5所示,使用固定的增长率
会略微降低计算负载,但会导致检测精度略有下降。相比之下,在Dense Blocks中逐步增加
会带来适度的计算增加,同时获得稳定的检测性能提升。鉴于精度提升超过了额外成本,作者在最终设计中采用了变化的
策略。
6.3. 运行时分析
KITTI数据集上,DensePointPillars相较于其基础版本在运行时间上表现出微小的提升,这主要归因于密集特征拼接带来的更高内存使用。然而,该模型在Jetson Orin Nano上实现了9 FPS,表明接近实时性能。在nuScenes数据集上,每个样本的尺寸显著增大且对内存需求更高,DenseCenterPoint相较于基础模型展现出更快的推理速度和更低的内存使用。值得注意的是,虽然DensePointPillars在边缘设备上运行速度为2 FPS,但基础模型因内存溢出而无法执行,这突显了DensePointPillars在内存受限部署场景中的实用性。
- 结论与未来工作
7.1. 结论
本文提出了一种名为Dense Backbone的轻量级 Backbone 网络,该网络通过利用密集连接构建,为3D目标检测中当前流行的基于VGG或ResNet的 Backbone 网络提供了一种替代方案。为缓解密集连接通常伴随的高内存访问成本,作者采用了一种高效的One-Shot聚合策略,从而在不影响运行时效率的前提下实现实际部署。作者的设计重点在于高效的特征重用,通过跨层捕获细粒度和高层信息,作者证明这对于实现鲁棒的3D检测精度至关重要。当应用于多个SOTA模型时,Dense Backbone使这些模型能够在显著减小模型尺寸和计算开销的同时,实现具有竞争力的检测精度。值得注意的是,Dense Backbone是完全即插即用的,无需对现有检测框架中的其他组件进行任何修改。
局限性:尽管特征重用有助于捕获细粒度表示,但一个关键局限性是内存使用增加。作者的实验表明,与层叠拼接相比,单次聚合在减少计算开销方面更为有效,但仍然具有内存密集性。这种更高的内存需求可能在内存限制极为严格的设备上部署时构成挑战,正如Nvidia Jetson Orin Nano的结果所示,这可能会限制其在高度受限环境中的应用。
7.2. 未来工作
尽管DenseBackbone具有多项优势,但其计算成本仍有进一步降低的潜力。未来的研究应探索将DensePointPillars与FastPillars [36]中提出的Neck和/或Encoder的改进相结合,以在不牺牲性能的前提下优化计算效率。另一种方法可以是引入知识蒸馏技术,以在保持轻量级结构的同时进一步提高检测精度。作者相信,DensePointPillars为 Backbone 网络设计引入了新的视角,并可为基于密集层 Backbone 网络的3D目标检测器的发展奠定基础。
参考
[1]. Rethinking Backbone Design for Lightweight 3D Object Detection in LiDAR