点击下方卡片,关注「AI视界引擎」公众号
( 添加时备注:方向+学校/公司+昵称/姓名 )
为服务智能交通系统(ITS)和车联网(V2X)任务,道路感知近年来受到越来越多的关注,因为它能够扩展联网车辆的感知范围并提升交通安全性。然而,面向点云的道路感知三维目标检测尚未得到有效探索。在一定程度上,点云检测器的性能关键在于网络的感受野以及有效利用场景上下文的能力。基于状态空间模型(SSM)的Mamba的近期出现,因其高效的全局感受野,对传统的卷积和Transformer等基础构建模块产生了冲击。
在本工作中,作者将Mamba引入基于 Pillar 的道路点云感知,并提出一个基于跨阶段状态空间组(CSG)的框架,称为PillarMamba。该框架通过跨阶段特征融合增强了网络的表示能力并实现了高效计算。然而,由于扫描方向的限制,状态空间模型面临局部连接中断和历史关系遗忘的问题。
为解决此问题,作者提出了混合状态空间块(HSB)以获取道路点云的局部全局上下文。
具体而言,它通过局部卷积增强邻域连接,并通过残差注意力保留历史记忆。
所yinqing-PillarMamba_2505在流行的道路大规模基准数据集DAIR-V2X-I上优于现有先进方法。
RADSIDe宠物是补充联网车辆环境估计的一个组件,由于其自然视角优势。随着大规模真实世界基准[1], [2]在路边场景的发布,最近最先进性能[3], [4], [5]不断得到刷新。然而,面向路边点云的3D目标检测尚未得到有效探索。路边点云中的3D目标检测在路边感知中起着关键作用,相对于纯视觉感知,它具有精确的距离信息,并帮助系统准确估计周围环境。
由于缺乏有效的探索和针对性的路边点云感知设计,当前的路边感知方法难以满足智能交通系统(ITS)的需求。当前主流的车载方法[6], [7], [8], [9], [10], [11]基于Sparse Backbone 网络,通过依赖车载点云的Sparse性取得了显著进展。由于安装位置的不同,路边传感器的视角与车载传感器存在显著差异,导致其在鸟瞰图(BEV)中的覆盖范围比车载点云更为密集。车载方法仅通过迁移到路边场景无法实现优异性能。
在一定程度上,路边点云检测器的性能关键在于网络的感受野[10], [11], [12]以及有效利用场景上下文的能力。具有大感受野和密集上下文的网络能够从更广阔的区域捕获空间信息,实现多目标间更多信息的共享,并建立远程空间连接。近期,状态空间模型(SSM)[13], [14], [15], [16]被提出用于建模长距离依赖关系和密集特征提取,高效地取得了显著成果。具体而言,通过递归形式的状态空间方程和并行扫描算法,Mamba能够高效地建模长距离依赖关系。上述有前景的特性激励作者探索Mamba在具有密集上下文的路边点云场景中用于高效点云三维目标检测的潜力。因此,作者将Mamba引入基于 Pillar 的路边点云感知。然而,在后续实验中作者发现它仍面临挑战。
一方面,近期的路边点云检测器利用其高分辨率的密集 Backbone 网络来获取丰富的场景上下文,这也带来了高昂的计算负担。尽管Mamba依赖于其线性注意力机制[17][13]来降低计算开销并通过并行操作实现性能加速,但在具有密集上下文的路边点云检测器中,它仍然面临不可接受的高开销。因此,作者提出了跨阶段状态空间组(CsG),通过跨阶段连接和扩展的感受野高效地提取路边点云的全局上下文。具体而言,它通过通道维度降低、通道分割和通道连接来实现计算负担。这不仅实现了计算效率,从而加速推理,还允许不同层通过跨阶段连接相互补充,增强了网络的表示能力。
另一方面,无论是为自然语言处理(NLP)中1D序列设计的标准Mamba [13],还是为计算机视觉(CV)中2D图像序列设计的视觉Mamba [14],都因其以递归方式扫描展平序列而受到限制。作者发现这种递归扫描模式在路边点云中面临两个主要问题:局部连接中断和历史关系遗忘。如图1所示,作者假设一个路边点云场景,其中包含BEV地图中的车辆,橙色、蓝色和白色网格分别表示车辆A、B和空白区域。在这个场景中,车辆A和B在3D空间中相邻。当作者使用视觉Mamba处理当前场景的BEV地图时,它会将地图中的网格展平为4次扫描,称为交叉扫描。
首先,由于Cross-Scan以递归方式处理扁平化的1D序列,可能导致空间上相似的网格在序列中处于非常遥远的距离,从而造成局部连接中断。可以看出,红色框中的橙色和蓝色网格在序列中相距甚远。序列中的长距离会破坏原始3D空间中的邻域连接,限制了网络理解空间的能力。其次,尽管路边点云与车辆侧相比更为密集,但它仍然面临大量空网格的问题。在具有大量空网格的1D序列中,小物体很容易被递归方程的历史无效信息淹没。可以看出,红色框中的橙色和蓝色网格在前后都面临大量空网格。小物体的淹没削弱了网络区分前景和背景的能力。
为应对上述挑战,作者引入混合状态空间块(HsB)以获取路边点云的局部-全局上下文。具体而言,它通过局部卷积增强邻域连接,并通过残差注意力保留历史记忆。
基于上述发现,作者引入PillarMamba来适配Mamba至路边点云,该点云由交叉阶段状态空间组(CSG)和混合状态空间块(HSB)组成。所yinqing-PillarMamba_2505在流行的真实世界大规模路边基准数据集DAIR-V2X-I [1] 上优于现有最优方法。
作者的主要贡献如下:
- 作者研究了状态空间模型在路边场景中的应用。具体而言,通过利用其线性扩展的注意力机制和高效的全局感受野,作者有效地提取了路边点云中物体的空间连接。
- 作者采用跨阶段状态空间组(CSG)在密集环境中进行高效计算。它不仅实现了计算效率,从而加速推理,还通过跨阶段连接允许不同层相互补充,这增强了网络的表达能力。
- 提出了混合状态空间块(HsB)以增强标准状态空间模型的能力,并解决局部连接中断和历史关系遗忘的问题。它增强了网络的时空理解,并在递归状态空间方程中保留了历史记忆。
车载点云三维目标检测。点云目标检测的发展对自动驾驶产生了深远影响。PointRCNN [6] 直接从点云生成高质量的3D候选框,进而进行边界框精调和置信度预测。3DSsD [18] 通过下采样策略和候选点生成网络实现了良好的性能。
基于点的上述方法自然地保留了点云在三维空间中的精确位置关系,从而实现了局部特征聚合。VoxelNet [19] 将点云分割成三维 Voxel ,并通过 Voxel 特征编码层将每个 Voxel 中的点转换为统一的特征表示。SECOND [9] 通过引入Sparse三维卷积提高了效率和性能。PointPillars [20] 学习表示按 Pillar 表示组织的点云,该表示利用密集二维卷积实现高效的单阶段三维目标检测器。近期方法 [10], [11], [21] 基于 Pillar 表示使用Sparse Backbone 网络代替密集网络,以适配车辆侧的Sparse点云。它们通过有效设计扩展了网络的BEV感受野,受益于车辆侧点云场景的不规则性和Sparse性,取得了显著成果。
路边点云三维目标检测。目前自动驾驶中的点云三维目标检测仅限于自车 [22], [23], [24], [25], [26]。作为智能交通系统的一部分,路边点云三维目标检测具有不可忽视的优势。它具有相对较长的感知范围,并将感知范围扩展至自车限制之外,从而提升道路安全。然而,路边点云三维目标检测领域尚待深入探索。近期,为促进路边三维目标检测任务的发展,一些面向路边场景的大规模真实世界数据集已发布 [1], [27], [2]。与车辆侧传感器捕获的点云相比,路边点云在鸟瞰图中的覆盖密度更高,且密集上下文信息更丰富。
状态空间模型。状态空间模型[28],源自经典控制理论,最近被引入深度学习[29], [30],并获得了越来越多的关注。Mamba[13]是一种数据依赖的状态空间模型,具有选择机制,在自然语言处理方面优于Transformer。其计算复杂度与输入序列的长度呈线性关系,并基于有效的硬件设计和并行计算,产生高效的全局感受野。自Mamba提出以来,许多研究工作被提出以利用其能力应用于视觉领域。Vim[31]引入了一种双向状态空间模型方案,该方案在正向和反向方向上处理 Token ,以捕获全局上下文并提高空间理解能力。VMamba[14]提出了一种交叉扫描模块。该模块使用四向选择性扫描方法来整合周围 Token 的信息,并捕获全局上下文。尽管如上所述,Mamba在视觉领域取得了显著进展,但它仍然面临着在路边点云方面的挑战。由于BEV地图中的空间邻域特性以及序列中大量空网格的存在,基于状态空间模型的方法受到局部连接中断和历史关系遗忘的影响。
作者首先简要介绍了基于路边点云的3D目标检测问题的定义。然后,作者详细描述了yinqing-PillarMamba_2505。
A. 问题定义
在本工作中,作者旨在基于给定的场景点云检测三维边界框。作者从路边激光雷达获取点云
,其坐标为
和反射率
,其中
表示点云中的点数。作者希望从点云中检测物体的三维边界框
,其位置为
,尺寸为
,以及偏航角
,其中
表示三维边界框的数量。
B. 整体架构
所提出的PillarMamba由Pillar特征编码器(PFE)[20]、 Backbone 网络和检测Head[32]组成,如图2所示。作者首先基于PFE将路边点云转换为密集的BEV特征图
。作者使用跨阶段状态空间组(CsG)作为密集 Backbone 网络中的基本特征提取器。通过2层HSB层的CsG,作者获得
。然后,将
输入下采样层和2层HSB层的CsG,得到
,该特征用于进一步节省内存。按照上述方法,作者依次获得
和
。然后,作者在通道维度上连接
、
和
,以整合多尺度信息。接下来,将特征输入上采样层,得到
。检测Head首先使用卷积层对柱特征进行编码,然后预测由位置
、尺寸
和偏航角
组成的3D边界框。
C. 柱特征编码器
作者遵循先前的工作[20]对路边点云进行编码。作者通过计算 Pillar 内所有点的平均坐标及其相对于中心点的偏移来扩展新的坐标。原始的4维坐标被扩展为9维坐标,从而生成具有更丰富几何信息的点云。然后,作者将离散点云转换为大小为
的密集BEV特征图,以促进高效2D密集卷积的应用,其中
和
分别表示BEV空间的
方向距离、y方向距离和特征通道维度。
D. 跨阶段状态空间群
尽管Mamba依赖于其线性注意力机制[17], [13]以降低计算开销并通过并行操作实现性能加速,但在密集上下文的路边点云检测器中,它仍然面临不可接受的较高开销。因此,作者提出了跨阶段状态空间组(CSG),该结构通过跨阶段连接和扩展的感受野高效地提取路边点云的全局上下文,如图2所示。输入特征图
的处理方式如下,以节省内存:
和 Split 表示用于通道维度下采样的卷积层,其核大小为1和
沿着特征图的通道维度进行分割。然后作者进行特征提取,并通过连接和卷积恢复特征图。
和 Concat 分别表示用于通道维度上采样且核大小为1的卷积层以及沿通道维度进行特征图拼接的操作。
可以被其他特征提取算子替换。
基于状态空间模型,作者通过所提出的CsG实现了性能与计算负担之间的权衡。
混合状态空间块
高效的全局感受野和密集上下文的有效提取激励作者探索SSM在路边点云场景中的潜力。作者将SSM引入基于 Pillar 的路边点云感知,然而,它仍然面临局部连接中断和历史关系遗忘的问题,这削弱了网络的空间理解能力,并限制了网络在小物体类别中的性能。因此,作者提出了简单但有效的混合状态空间模块(HSB)以获取路边点云的局部全局上下文,如图2所示。特征图首先通过原始的SS2D模块[14],如下所示:
作者采用基于状态空间模型的SS2D模块来获取高效的全局感受野。随后,作者将原始的MLP层替换为局部深度卷积(例如,卷积核大小为3),以执行局部特征增强并保持局部邻域连接,如下所示:
然后作者通过残差注意力保留历史记忆:
Where Attention 表示在 SE 模块 [33] 后基于全局平均池化对特征图的通道维度施加权重的算子。
通过提出的HSB,作者增强了邻域连接并保留了历史记忆。
2维选择性扫描
SS2D模块的核心机制是交叉扫描模块。该模块采用四向选择性扫描方法,整合周围token的信息并捕获全局上下文。每次扫描时,它将BEV地图展平为1D序列,并使用递归状态空间方程来获取长距离依赖关系。一个1D连续输入
通过可学习的隐藏状态
以及参数
、
和
转换为
,具体方式如下:
表1:在DAIR-V2X-I验证数据集上3D目标检测任务中与当前最优方法的比较
为了提高计算效率,上述公式中的连续参数
和
进一步转换为离散参数 [34]。具体而言,假设时间尺度
,离散参数
3
和
可以通过应用零阶保持规则获得:
然后,方程(6)可以用离散参数表示为:
此外,对于长度为
的输入序列,可以使用核为
的全局卷积来计算公式(8)的输出,具体方法如下:
通过引入选择性扫描,该算法进一步扩展,允许模型参数
和
根据输入动态调整,并过滤掉无关信息。
检测Head
在开创性研究中[9], [20],基于 Anchor 点的检测Head被用于在每个输入特征图的每个位置预定义轴对齐的 Anchor 点。相比之下,CenterPoint[32]通过中心点表示每个目标,并预测中心度 Heatmap ,其中在每个中心位置实现边界框的回归。由于其简单性和优越的性能,作者在网络中采用了基于中心的检测Head。
在本节中,介绍了实验设置。随后,给出了PillarMamba与当前最先进方法的比较。最后,将详细展示全面实验以验证所提出模块的有效性。
A. 数据集
DAIR-V2X数据集[1]引入了一个大规模多模态基准。原始数据集包含车辆侧和路边场景的图像和点云。具体来说,DAIR-V2X-I包含约10k张图像和点云,其中50%、20%和30%的样本分别划分为训练集、验证集和测试集。然而,测试集尚未公开发布,因此作者在验证集上评估结果,并遵循KITTI评估指标。
指标。对于DAIR-V2X-I数据集,作者报告了3D边界框的40点平均精度
[37],根据边界框的特征进一步分为三种模式:简单、中等和困难。这包括大小、遮挡和截断,遵循KITTI [22]的指标。
B. 实验设置
作者在PyTorch中实现了作者的网络,并基于AdamW优化器[38]和单周期调度[39]对每个模型进行80个epoch的训练。在训练过程中,作者采用了广泛使用的数据增强策略,包括随机翻转、随机旋转、随机缩放和随机平移。所有训练实验均在2块RTX-4090 GPU上进行,所有推理实验均在1块RTX-4090 GPU上进行,批处理大小为1。对于DAIR-V2X-I数据集,检测范围在水平方向设置为
,在垂直方向设置为
, Pillar 大小在
轴上设置为
。
C. 总体结果
在DAIR-V2X-I验证集上的评估。作者将所提出的PillarMamba与当前最先进的方法在DAIRV2X-I验证集上进行了比较。如表1所示,PillarMamba优于基于 Pillar 特征的最先进方法,展示了其有效性。具体而言,PillarMamba在车辆、行人和骑行者类别中分别以(O.77, 1.70, 1.30)和(0.90, 1.09, 1.79) AP优于PillarNet [10]和PillarNeXt [11]。此外,尽管yinqing-PillarMamba_2505由于 Pillar 表示而丢失了高度信息,但它利用全局感受野使得基于 Pillar 特征的方法优于基于 Voxel 的方法。
可视化结果。作者可视化BEV地图中的一些场景,以定性地分析作者提出的PillarMamba与最先进方法(例如PillarNet和PillarNeXt)之间的比较,如图3所示。点云的颜色分布与
-轴坐标相关,蓝色边界框表示真实情况,红色边界框表示网络的预测。可以看出,在场景A和场景B中,PillarNet和PillarNeXt由于远距离的噪声和Sparse点云而产生错误的预测。然而,作者提出的PillarMamba在这些场景中正确地检测了远距离,并正确地对形状模糊的Sparse点云进行了分类。
D. 消融研究
对所提出的跨阶段状态空间组的分析。在表2中,尽管状态空间模型通过其计算负担随序列长度线性扩展以及硬件加速并行计算实现了高效的特征提取,但在面对密集上下文时仍然不可接受。因此,提出了CSG以实现更高效的计算。可以看出,它不仅实现了计算效率从而加速推理,还通过跨阶段连接使不同层能够相互补充,并增强了网络的表达能力。
对所提出的混合状态空间模块的分析。如表3所示,作者逐步展示了作者提出的组件带来的性能提升。所提出的HSB模块通过局部卷积和残差注意力机制,有效解决了标准Mamba模块中局部连接中断和历史关系遗忘的问题。实验结果表明,HSB能够增强网络的时空理解能力,并在递归状态空间方程中保留历史记忆。
表2:所提出的跨阶段状态空间组的分析。比较的是无 CSG 的 PillarMamba 和有 CSG 的差异。
表3:所提出的混合状态空间模块分析。LC和RA表示局部卷积和残差注意力。Res和Attn表示残差连接和注意力模块。vanilla模型表示具有CSG的vanillass2D模块。
表4:基于 Pillar 特征的方法的延迟比较。Veh、Ped和Cyc分别表示车辆、行人和骑行者在简单模式下的AP。
表示单步长 Backbone 网络。
E. 延迟
作者针对所提出的PillarMamba与基于 Pillar 特征的最先进方法进行了性能和延迟对比实验,如表4所示。从表中可以看出,PillarMamba的性能优于最先进方法,这证明了所提出组件的有效性。在延迟方面,尽管PillarMamba比基于Sparse Backbone 网络的方法稍慢,但它仍然具有竞争力且具有潜力。一方面,在路边场景等边缘场景中,Sparse卷积算子相对于密集卷积算子不易部署和加速。另一方面,与密集方法相比,作者的PillarMamba在性能和延迟方面均取得了优势。
作为智能交通系统(ITS)的重要组成部分,路边点云三维目标检测尚未得到足够的关注和有效的网络架构设计。由于传感器位置的不同,路边点云中的密集上下文激励作者探索状态空间模型在路边场景中的潜力。
此外,作者通过有效的网络结构设计解决了标准Mamba所面临的计算效率低下、局部连接中断和历史关系遗忘等问题。定量和定性结果均表明,作者提出的组件有效解决了上述挑战。作者希望作者的工作能为有效的路边点云检测器提供启示。
点击上方卡片,关注「AI视界引擎」公众号