可插拔 SMS 模块 | 提升两阶段三维目标检测,基于 MVFP 模块精确目标定位 !

ADAS Laboratory

picture.image

点击上方蓝字关注 智驾实验室

picture.image

     加入【  **智驾实验室** 】交流群,获取更多内容和资料

picture.image

picture.image

★ 在自动驾驶中,激光雷达传感器对于获取三维点云至关重要,它提供了可靠的几何信息。然而,传统的预处理采样方法常常忽略语义特征,导致在三维目标检测中细节丢失和地面点干扰。

为此,作者提出了一种使用语义感知多分支采样(SMS)模块和多视图一致性约束的两阶段三维目标检测多分支框架。SMS模块包括随机采样、密度均衡采样(DES)以增强远距离物体,以及地面放弃采样(GAS)以关注非地面点。通过一致性关键点选择(CKPS)模块处理采样的多视图点,以生成高效 Proposal 采样的连贯关键点 Mask 。

第一阶段检测器使用多分支并行学习与多视图一致性损失进行特征聚合,而第二阶段检测器通过多视图融合池化(MVFP)模块融合多视图数据,以精确预测三维物体。

在KITTI 3D目标检测基准数据集上的实验结果表明,作者的方法在各种 Backbone 网络上都取得了出色的检测性能提升,尤其是对于结构简单的低性能 Backbone 网络。

I Introduction

除了随机采样之外,作者提出在数据预处理阶段插入两个额外的语义感知采样分支,以生成具有不同语义强调的多视图点云,包括密度均衡采样(DES)和地面放弃采样(GAS)。DES根据密度特征制定密度采样规则,适当地增加低密度远程区域内检测目标的点数。GAS根据空间点的高度过滤非地面物体点,以关注待检测的关键物体。在进行多分支采样操作后,第一阶段并行检测器从多个视图的每个分支提取特征以分别预测 Proposal 。同时,为了实现更好的多视图特征聚合,作者基于多视图 Proposal 的前景采样提出施加多视图一致性约束。具体来说,针对基于点的多视图 Proposal 的错位、密度和重叠特性,作者设计了一个一致性关键点选择(CKPS)模块,以生成空间对齐且均匀的一致关键点 Mask 。该模块可以帮助前景采样高效地获取与一致前景点相对应的多视图 Proposal 。在第二阶段的融合检测器中,作者引入了多视图融合池化(MVFP)模块,同时融合点、特征和 Proposal ,使得获得的混合特征为最终的3D预测提供了全面的信息。

作者的贡献可以总结为以下四个方面:

(1)作者设计了一个可插入的SMS模块,包括随机采样、DES和GAS三个分支,它可以在不改变 Backbone 结构的情况下应用于各种两阶段3D目标检测器的数据预处理阶段。

(2)根据 Backbone 网络的数据类型,通过基于SMS的数据预处理,原始点云可以转换为具有更丰富语义特征的多视图点或 Voxel ,这可以为后续的目标检测器做好准备。

(3)得益于采样的多视图点的使用,作者在提出的多分支两阶段3D目标检测通用框架上施加多视图一致性约束,该框架采用第一阶段多分支并行训练和第二阶段融合学习,以实现有效的多视图特征聚合。

(4)作者在基准KITTI数据集上评估了所提出的框架,以进行比较性能,实现了最先进的3D目标检测结果。

II Related Works

Sampling Methods for 3D Object Detection

现有的3D目标检测采样方法可以分为两类:基于网格的方法和基于点的方法。在基于网格的采样方法中,原始点云通常通过 Voxel 化采样转换为规则的3D Voxel 。对于获得的3D Voxel ,VoxelNet [4] 和 Second [3] 提出了一个基于 Voxel 特征编码(VFE)和3D稀疏卷积的3D目标检测框架。一系列方法[2, 20, 21]进一步探索了两阶段3D目标检测框架,通过利用 Voxel RoI特征的采样和池化。然而,由于 Voxel 化采样导致的细粒度信息缺失,基于网格的3D目标检测性能提升遇到了瓶颈。在基于点的方法中,原始点通过随机采样转换为固定数量的输入点。当这些点作为输入时,3D目标检测网络采用特征点采样来选择更具代表性的点进行特征学习。为了优化特征点采样,PointNet++ [22] 提出了最远点采样(FPS)方法,该方法根据点的空间距离最远进行选择。PointRCNN [5] 设计了一个特征提取网络,通过使用分层球形 Query 直接基于FPS学习点。Point-GNN [23] 沿着 Voxel 化原则执行关键特征点采样,并通过聚合邻近特征点生成图,旨在从点云中学习更多上下文信息。后续网络引入了基于特征距离的最远点采样(F-FPS)[1] 和语义引导的最远点采样(S-FPS)[7, 24],这些方法在3D目标检测中也能获得满意的结果。然而,这些现有方法主要关注特征点采样,而忽视了随机采样的局限性。

3D目标检测的数据预处理

为了提高3D目标检测的性能,许多研究关注于点云的数据预处理,这通常包括两个步骤:数据增强和数据处理。一系列方法[3, 25, 26]提出了一种基于 GT 值(GT)采样的数据增强方法,并通过证明在GT采样中应考虑类别平衡、非重叠位置、地面对齐和上下文周围等因素。TED [27] 引入了距离感知的数据增强,可以从邻近密集物体创建稀疏训练样本,以增加对远处稀疏物体的几何知识。SE-SSD [10] 设计了一种形状感知的数据增强方法,通过空间划分和点集拼接来增强每个物体的点云。GLENet [28] 设计了一个基于投影范围图像的遮挡驱动的增强方法,用于准确预测不完整实例。在基于网格的数据处理情况下,MVF [17] 引入了动态 Voxel 化方法,以保留点与 Voxel 之间的完整映射。这种方法克服了随机点与 Voxel 脱落导致的细粒度信息丢失。然而,到目前为止,还没有一种优化方法彻底探索基于点和基于网格的数据处理。

Multi-view Semantic Feature Learning

在3D目标检测中,可以利用多视角语义特征来增强对真实场景的表现和理解。为了促进多视角语义特征的学习,有必要识别并学习多视角一致属性。基于投影的多视角方法根据空间一致性,将透视、左视图和右视图重叠到鸟瞰图(BEV)上,实现了多视角语义特征的融合学习。VISTA[29]使用空间注意力在BEV和范围视图之间建立上下文关联,使得两种视图之间的语义特征可以更紧密地融合。在简单的对比框架DepthContrast 中,使用了点对点和 Voxel 对点的采样来生成多视角点云,基于多视角实例的特征一致性进行对比学习。ProposalContrast[31]采用各种数据增强方法获取多视角点云,用于对比多视角 Proposal 一致性。这些方法强调了多视角一致属性的重要性,并对增强语义特征学习做出了重大贡献。此外,Re-VoxelDet[32]通过多分支 Backbone 网络生成多视角 Voxel 特征,以获得更丰富的上下文信息。H3D R-CNN[19]设计了跨视角门控机制的融合模块,以提高第二阶段检测器中跨多个视角的特征聚合。然而,在一致属性方面的多视角一致性约束下,尚无基于多分支两阶段3D目标检测框架。

III The Proposed Approach

第三节 提出的方法部分开始。

The Overall Framework

在点云的3D目标检测中,标准的两阶段框架相比于单阶段框架可以实现更丰富的学习方法和高检测精度。然而,对于常见的两阶段3D检测器中的数据预处理阶段,基于网格和点的采样方法没有考虑点云的语义特征,导致检测目标细节的部分丢失以及大量地面点的一些干扰。为了解决这些问题,作者提出了一个基于SMS和多视图一致性约束的多分支两阶段3D目标检测框架,如图2所示。

picture.image

首先,根据点云的密度和高度等语义特征,作者在数据预处理阶段设计了一个三分支SMS模块(见图1(d))以生成具有更丰富语义特征的多视图表示(分别表示为Pv1、Pv2和Pv3)。同时,为了使后续基于点的多视图 Proposal 的前景采样更高效和有序,作者根据多视图一致属性设计了一个辅助的CKPS模块来生成一致的关键点 Mask 。然后,对于结构参数相同的三分支第一阶段检测器,进行多分支并行学习,从多视图表示中提取特征并预测 Proposal 。在训练损失方面,为了增强多视图特征聚合,作者使用前景采样获取对应于一致前景(CF)点或 Voxel 的多视图 Proposal (即图2中的CF-proposals)来计算多视图一致性损失。最后,第二阶段检测器通过MVFP模块融合第一阶段的多视图点、特征和 Proposal ,生成最终的3D预测。

picture.image

Data Preprocessing Based on SMS Module

在数据预处理阶段的采样步骤中,基于网格的方法使用 Voxel 化来采样点云,导致细粒度信息的缺失,而基于点的采样方法通常采用随机采样来减少点的数量,这会导致一些检测目标点的丢失。当检测目标距离较远且点数较少时,这种缺陷将使得识别变得更加困难。同时,上述两种预处理采样保留的大量地面点也对三维目标检测造成了严重干扰。为了解决这些问题,如图1(d)所示,作者提出了一个三支路SMS模块用于数据预处理,它通过引入具有不同语义强调的采样数据来弥补单支路随机采样的缺陷。该模块的每个支路在采样过程中都有其特定用途。第一支路进行随机采样生成随机点云(),第二支路利用DES生成密度平衡的点云()以增强远距离物体,第三支路使用GAS获取非地面点云()以聚焦检测目标。

密度均衡采样。 LiDAR传感器以车辆为中心在360度范围内扫描交通场景。它们收集激光反射点以生成点云,这些点云具有从中心向外围逐渐密度减小的圆形扩展特征。当不考虑Z轴时,点云的检测范围通常为车辆前方的矩形区域,满足和。因此,作者根据点云的密度特征将检测场景划分为多个半圆形环区域。如图3所示,点的平面距离表示为,其中d_far=y_l<x_ld\_{far}=y\_{l}<x\_{l}。半圆形环的宽度由d_td\_{t}表示,划分的半圆形环区域定义为\mathcal{r}=\{r\_{1},\cdots,r\_{j}$$\left\lfloor></x\_{l}。半圆形环的宽度由d_td\_{t}表示,划分的半圆形环区域定义为$\mathcal{r}={r_{1},\cdots,r_{j}$$\left\lfloor>

picture.image

其中,第个半圆形环区域中的点数由表示。

根据每个区域的点密度,作者定义了三个DES阈值:低密度、中等密度和高密度,并如下定义:

(注:公式部分未翻译,保持原始输出。)

其中 、 和 是采样比例,满足 。 和 分别表示对半圆形环域内点的上采样和下采样。特别是,在低密度的远程区域,这些点被上采样以使采样点的高度满足z焦点阈值 ,从而使远处的物体得到强调。

地面放弃采样。 在激光雷达传感器相邻区域,点云拥有大量的密集地面点,其数量可以达到总点数的一半左右。这些地面点消耗了大量的计算资源,对3D框回归造成了严重干扰。为此,作者使用平面网格方法来划分点云空间,并根据空间点的高度过滤出非地面点,如图4所示。这里,需要先移除Z轴方向上超出检测范围 的点。矩形网格的范围满足 和 ,其中 是X轴网格大小, 是Y轴网格大小。然后,X轴网格数 和Y轴网格数 的计算公式为:

picture.image

划分的矩形网格是 . 作者定义第 个矩形网格内的点为 ,然后通过GAS获得点 的规则可以表示为:

其中 是第 个网格中的点高度, 是同一网格中的最低点高度。 是高度差阈值。

综上所述,通过SMS模块,作者可以获得具有不同语义强调的多视角点云。接下来,作者需要根据检测网络的后续数据类型将它们转换为不同的多视角表示。对于基于点的检测网络,多视角表示为 (Pv1, Pv2, Pv3) = ,而对于基于网格的检测网络,转换的多视角表示为 (Pv1, Pv2, Pv3) = \left(\mathbb{V}(\mathcal{P}_{RAD})\right.,\mathbb{V}\left(\mathcal{P}_{DES} \right),\mathbb{V}\left(\mathcal{P}_{GAS}\right)\right),其中 代表5oxel 化。

picture.image

CKPS Module

为了增强多视角特征聚合,有必要识别CF-proposals以建立多视角一致性约束。由于基于点的多视角 Proposal 存在错位、密集和重叠的问题,这些 Proposal 的直接前景采样总是引入许多冗余计算,并削弱多视角一致性约束的效果。为了解决这个问题,作者设计了一个辅助的CKPS模块,该模块使用 Voxel 下采样[23]处理多视角点云,生成空间对齐且均匀一致的关键点 Mask 。由于在 Voxel 下采样过程中, Voxel 与点之间缺乏精确的一对一对应关系,因此需要额外的筛选步骤来获得一致的关键点。CKPS模块的示意图如图5所示。

picture.image

最初,多视角点云以相同的 Voxel 大小进行 Voxel 化,并根据每个视图中的 Voxel 位置构建 Voxel 哈希表,将空 Voxel 位置标记为0,非空 Voxel 位置标记为1。通过交叠这些 Voxel 哈希表,作者可以识别出那些值仍为1的 Voxel ,并将它们定义为共享多视角 Voxel (如图5中的红色立方体所示),其中 是这些 Voxel 的数量。接下来,根据空间位置,从第个视图的点云 筛选 内部点 (如图5中的蓝色点所示)的规则可以表示为:

\mathcal{P}_{i}^{(v_{k})}=\left[p_{ij}\right],s.t.\left{\begin{array}{l} sx^{(v_{k})}\leq x_{ij}\leq lx^{(v_{k})}\ sy^{(v_{k})}\leq y_{ij}\leq ly^{(v_{k})}\ sz^{(v_{k})}\leq z_{ij}\leq lz^{(v_{k})}\end{array}\right.,i\in\left{1,2,3 \right},\right. \tag{5}

[公式部分未翻译]

其中 是单个视图的固定点数, 是 的共同边界值。这些边界值是通过从 Voxel 大小和位置外推得到的。然后,作者比较每个共享多视图 Voxel 的内部点 在视图之间的坐标和反射率。具体来说,第 个视图的 内部点是 ,而第一个视图的 内部点是 ,其中 和 是不同视图中 内部点的坐标和反射率。作者通过比较 和 制定获取一致关键点 的规则,如下所示:

\left{\begin{array}{l}\left|x_{im}-x_{1j}\right|<\tau_{v}\ \left|y_{im}-y_{1j}\right|<\tau_{v}\ \left|z_{im}-z_{1j}\right|<\tau_{v}\ \left|r_{im}-r_{1j}\right|<\tau_{v}\end{array}\right.,i\in\left{2,3\right}\right. \tag{6}

其中 是数值比较的最小阈值。如图5所示,在每个 内部的红点都是满足上述比较条件的可能一致点。第一组一致点被定义为一致性关键点,这在图5的红圈中标记出来。最后,作者使用一致性关键点的索引值 作为基于点的多视角 Proposal 前景采样的一致性关键点 Mask 。总之,CKPS模块选择的一致性关键点在空间上是对齐的、均匀的、数量少且高质量的,这可以有效提高后续基于点的多视角一致性损失的计算效率和约束能力。

Multi-view Learning Strategy

针对由SMS模块生成的具有不同语义强调的多视角点云,本文设计了第一阶段并行训练和第二阶段融合学习的策略。主要方法可以概括为以下三个方面。

多视角前景采样。 在使用多视角一致性损失之前,前景采样旨在过滤掉第一阶段检测器中的CF-proposals。在基于网格的网络中,第一阶段检测器生成的多视角proposal为 ,其中 是当前空间中BEV网格的数量。由于基于网格的多视角proposal在BEV上空间对齐,通过前景采样获得的CF-proposals 可以表达为以下形式:

其中 表示对应于GT中前景BEV网格的过滤proposal的过程。

在基于点的网络中,多视角proposal为 。由于对CKPS模块的分析和设计,作者通过以下公式实现前景采样以获得CF-proposals :

其中 是基于CKPS模块的一致关键点 Mask 的proposal采样, 是筛选对应于GT中前景点的proposal的操作。

多视角一致性损失。 SE-SSD [10] 同时使用教师网络的软目标和GT的硬目标共同监督学生网络。预训练的教师网络的CF-proposals,其熵高于GT,通过与学生网络的CF-proposals比较一致性,提供更强的约束条件。类似地,本文以第一视角中的CF-proposals 作为软目标,与其他视角中的CF-proposals 进行一致性比较。作者将前景点或BEV网格的数量定义为 ,边界框的多视角一致性损失 可以表述为:[此处应继续接论文中的公式,但未提供后续内容]

在上述的公式中, 是分类的边界框一致性损失,其定义为:

其中 和 分别是对应视图中CF-proposals的边界框。 表示 的Smooth-L1损失。接着,作者定义了分类分数的多视图一致性损失 为:

其中 和 分别是对应视图中CF-proposals的经过sigmoid激活的分类分数。 表示 的Focal Loss。在上述的多视图一致性损失中,作者比较多视图CF-proposals以最小化它们在分类分数和边界框上的差异。为了减轻多视图一致性损失与视图数量 的线性变化,作者根据反比原则制定多视图一致性权重 。最后,整体多视图一致性损失 定义为:

MVFP模块。 在现有的两阶段3D目标检测网络 [5, 12] 中,第二阶段检测器通常在proposal上执行非最大值抑制(NMS)采样以获得少量高质量的proposal。随后,根据特定的IoU规则,对获得的proposal进行重新采样以生成RoIs。此外,通过RoI池化操作,将RoIs内的关键点和其特征聚合成池化特征。对于多视图的融合,作者设计MVFP模块以实现上述操作,如图6所示。作者定义 为与多视图点 对应的特征,由第一阶段检测器生成的proposal为 。然后,由MVFP模块生成的融合池化特征 可以通过以下公式表达:[此处应该有后续的公式,但文本中未提供]。

picture.image

其中 是对 Proposal 的非极大值抑制(NMS)采样, 是数据拼接操作,而 是在感兴趣区域(RoIs)中提取池化特征。MVFP模块可以有效整合来自多个视图的各种特征,以便进行后续的精细化预测。

Loss Function

在考虑到多视角一致性权重 的基础上,作者为第一阶段并行检测器的检测损失采用了多视角权重 。总体损失函数定义如下:

其中 和 分别是第一阶段检测器的分类损失、边界框损失和方向损失; 和 是上述损失的权重系数。 是第一阶段检测器的多视角一致性损失; 是第二阶段检测器的综合损失。 和 的权重系数设置为1。

IV Experimental Results and Analysis

作者基于SMS和多视图一致性约束的多分支两阶段3D目标检测框架在KITTI数据集上进行评估。首先,在第四节(A)中提供了本文使用的实现细节,例如硬件配置和训练超参数。然后,在第四节(B)中,将所提出的方法与先进的3D目标检测方法进行了比较。最后,在第四节(C)中执行了广泛的消融研究,以分析设计模块的有效性。

Implementation Details

在基于PointRCNN和PV-RCNN训练配置的基础上,所提出的方法需要添加SMS模块的相关参数以及多视图一致性损失。作者训练的硬件配置如下:一个Intel i7-12700KF CPU和一个NVIDIA GeForce RTX 3090 GPU。

在KITTI数据集的3D目标检测中,作者设置固定的采样点数为16384,远点距离阈值设为40。检测范围的边界值和。对于SMS模块的DES,将点云空间划分为几个半圆形环区域,宽度为。DES根据点密度调整不同半圆形环区域内的点百分比。低、中、高密度阈值设置为(),采样比设置为和。在低密度远程区域中,上采样的z焦点阈值。在SMS模块中,GAS采用平面网格化方法将点云空间划分为矩形网格,X轴大小为,Y轴大小为。对于GAS,当每个矩形网格中的点与最低点的高度差超过阈值时,作者移除部分点。

在基于点的网络中,作者的CKPS模块设置数值比较的最小阈值为0.001,用于生成一致的关键点 Mask 。在第一阶段检测器中,作者对多视图 Proposal 进行前景采样,并将多视图一致性损失引入到总体损失函数中,其中多视图的数量为3。第一阶段损失权重系数在PointRCNN中设置为(1, 1, 0),在PV-RCNN中设置为(1, 2, 0.2)。### 实验结果

作者将KITTI的训练样本分为两个部分:训练集包含3712个样本,验证集包含3769个样本。基于SMS和多视图一致性约束的作者的多分支两阶段3D目标检测框架在测试集上进行评估,测试集包含7518个样本。主要的评估指标是40个召回位置的Average Precision(AP),对于行人、骑车者和汽车,3D IoU阈值分别为0.5和0.7。

如表1所示,作者在测试集上报告了汽车和骑车者的3D结果。与最先进的方法相比,作者的SMS-PVRCNN在中等水平汽车和所有水平骑车者上取得了最佳的3D APs。当主干网络为PointRCNN时,中等和困难 Level 汽车的3D APs分别提高了3.07%和3.47%。同时,所有 Level 的骑车者的3D APs提高了(0.96%,3.16%,2.09%)。另一方面,以PV-RCNN作为主干网络,作者的方法能将所有 Level 汽车和骑车者的3D APs分别提升(0.6%,0.29%,0.3%)和(2.98%,2.41%,2.02%)。这表明了作者的方法在汽车和骑车者类别上的出色检测性能。

picture.image

表2展示了测试集上行人3D的结果。可以看出,作者的方法在所有水平行人上取得了最佳的3D APs。更具体地说,与PointRCNN网络的 Baseline 相比,SMS-PointRCNN将行人的3D APs提高了(2.32%,1.81%,1.4%)。根据PV-RCNN网络的局部性能评估,作者的SMS-PVRCNN将行人的3D APs提高了(0.71%,1.22%,1.33%)。这些结果表明,作者的方法能够增强对小尺寸行人的检测性能。

picture.image

表3展示了作者在验证集上对汽车的3D结果,其中作者的SMS-PVRCNN在所有水平汽车上获得了最高的3D APs值。与PointRCNN相比,SMS-PointRCNN将汽车的3D mAP提高了2.99%。同时,SMS-PVRCNN也将相应 Baseline 的汽车3D mAP提高了0.28%。这些结果也证明了作者方法的有效性。

picture.image

根据表1和表2中的3D结果,SMS-PointRCNN在中等难度 Level 的汽车、行人和骑车者上,将 Baseline (PointRCNN)的3D AP提高了(3.07%, 1.81%, 3.47%)。相比之下,SMS-PVRCNN在同一项目上将 Baseline (PV-RCNN)的3D AP提高了(0.29%, 1.22%, 2.41%)。这些结果表明,作者的方法在 Baseline 能力较弱的网络上实现了更大的性能提升。

Ablation Study

在本工作中,进行了广泛的消融研究,以验证基于SMS和多视图一致性约束的多分支两阶段3D目标检测框架的有效性。主要评估指标是3D平均精度(3D mAP)。

V-B1 Experimental Analysis for SMS-PointRCNN

多分支两阶段框架的不同模块。 在数据预处理中,所提出的三分支SMS模块生成了具有更丰富语义特征的多视角点云。Pv1是随机抽样分支的输出,而Pv2和Pv3分别由作者基于DES和GAS的语义感知抽样分支产生。在CKPS模块生成的统一关键点 Mask 的辅助下,第一阶段检测器计算多视角一致性损失 ,以建立跨多个视角的一致性约束。第二阶段检测器通过MVFP模块实现多视角特征融合学习。在CKPS+和MVFP模块的基础上,作者研究了不同多视角点云组合的检测性能,如表4所示,其中第一行表示 Baseline 性能。当作者使用所有上述视角时,行人和汽车的3D mAP值最高。然后,作者使用所有多视角点云来研究CKPS+和MVFP模块对检测性能的影响。在表5中,采用CKPS+和MVFP模块,行人和汽车的3D mAP可以分别提高3.03%和0.97%。

picture.image

SMS模块的不同参数 。在SMS模块中,主要有两个基于DES和GAS的语义感知抽样分支。DES分支有一个半圆形环区域宽度 和一个z聚焦阈值 。同时,GAS分支有一个Y轴网格大小 和一个高度差阈值 。作者为这些参数分配不同的值,以探索更合理的参数配置。首先,作者设置 和 (KITTI预设的Z轴检测范围),并验证GAS的两个参数。这些结果如表6所示,从表中可以看出,当 和 时,行人和汽车的3D mAP达到最高值。之后,将以上两个参数设置为最佳值,继续验证DES中的另外两个参数,如表7所示。发现当 和 时,行人和汽车的3D mAP值略有增加。

picture.image

picture.image

V-B2 Experimental Analysis for SMS-PVRCNN

SMS-PVRCNN使用PVRCNN Backbone 网络在验证集上进行实验,并验证了关键参数和模块的有效性。由于基于网格的多视图 Proposal 在BEV上是空间对齐的,第一阶段检测器无需借助CKPS模块即可直接计算CF Proposal 的多视图一致性损失 。特别是,后续实验的训练过程是在15%的训练集(约550帧)上进行的。如表8所示,当作者使用与SMS-PointRCNN相同的最佳设置时,行人和汽车的3D mAP达到最高。这些结果证明,基于SMS和多视图一致性约束的多分支两阶段3D目标检测框架在两个不同的 Backbone 网络上展现出相似的有效性。

picture.image

V-B3 Subjective Analysis and Visualization of SMS module

为了进一步理解作者SMS模块的有效性,作者进行了统计分析与视觉检查。DES将区域划分为半圆形的1-8区域(见图7(a)),并根据点密度调整不同区域内的点百分比。如图7(b)所示,DES减少了近处区域1-3的密集点百分比,同时增加了远处区域4-8的稀疏点百分比。经过DES处理前后点云的部分放大图分别显示在图7(c)和图7(d)中,其中图7(d)中变化的采样点由红色点或矩形标记。此外,作者通过比较使用或不使用地面点时点云的视觉表达,来检查GAS的影响。图7(e)表示包含地面点的点云场景,而图7(f)显示了没有地面点的同一场景。视觉图形的结果表明,作者的GAS可以有效移除大量地面点。

picture.image

如图7(a)所示,作者将半圆形环区域13定义为高密度()区域,而半圆形环区域48表示为低密度()区域。至于这两个区域内的点数,作者记录了经过不同采样操作后50帧点云的平均变化,如表9所示。在每个区域内,记录的变化包括无采样、随机采样、DES和GAS(即S0,S1,S2,S3)的结果。在这两个区域中,SiS0的前景点数比定义为R_1(HDSi)R1(LDS_i)\mathcal{S}*{0},\mathcal{S}*{1},\mathcal{S}*{2},\mathcal{S}*{3})的结果。在这两个区域中,\mathcal{S}*{i}到\mathcal{S}*{0}的前景点数比定义为R\_{1}^{(\mathcal{HDS}*{i})}和R*{1}^{(\mathcal{LDS}\_{i})},它们的计算公式为:

picture.image

其中 和 分别是 和 在 中的前景点数量。 和 是在 中的相同项目。接下来,作者将 的前景点数与所有点的比值定义为 和 。这些数值比可以通过以下公式获得:

其中 和 分别是 在两个区域中的所有点的数量。

通过分析表9,作者可以看到和在两个区域中都丢失了一些前景点。然而,增加了前景点的数量,表明GAS可以避免丢失前景点。与随机采样相比,DES在中提高了前景点的百分比,以增强远距离物体,比提高了11.8%。此外,比高出14.6%,比高出11.4%。上述改进证明了GAS在关注前景物体方面的重要性。所有这些结果都提供了对作者SMS模块有效性的洞察。

V-B4 Visual Comparisons of Detection Results

在图8中,作者对KITTI测试集上的方法及其相应的主干网络进行了检测结果的可视化比较。在所有上述比较中,可以观察到,与相应的主干网络相比,作者的方法在汽车和行人类别上的误报结果较少。值得注意的是,图8(a)和图8(b)中的可视化结果比较显示,作者的SMS-PointRCNN在远距离汽车和小型行人上的检测结果比PointRCNN更准确。上述结果表明,作者的方法可以为各种主干网络实现更高的检测准确度。### 局限性和未来工作的讨论

picture.image

所提出的框架使用多分支结构来实现3D目标检测。在多分支同时推理的情况下,由于共享网络参数,模型大小保持不变。然而,这种方法使得计算成本增加三倍,导致推理速度变慢。具体来说,PointRCNN主干网络的推理速度为6 FPS,而作者的SMS-PointRCNN的推理速度为2 FPS。因此,在未来的工作中,作者将研究如何更有效地利用多视角点云以实现准确且迅速的推理。根据作者目前的调查,知识蒸馏是解决这一问题的潜在研究方向之一。

V Conclusion

本文提出了一种基于可插拔的SMS模块和多视图一致性约束的两阶段三维目标检测多分支框架。基于SMS的数据预处理通过将原始点云转换为具有不同语义强调的多视图点或 Voxel ,提高了点云的表达能力。

第一阶段检测器的多个分支采用并行训练方法,以充分提取多视图表示中的独特语义特征。同时,多视图一致性约束可以增强跨多个视图的特征聚合。

第二阶段检测器通过MVFP模块获得多视图融合池化特征,并实现更准确的三维目标检测。实验结果表明,在KITTI数据集上,针对各种两阶段骨架网络,作者的方法在性能上有显著提升。更重要的是,当使用如PointRCNN这类较弱的检测骨架时,所提出的方法有显著的增强效果。

参考

[1].Boosting 3D Object Detection with Semantic-Aware Multi-Branch Framework.


扫描下方二维码,添加 AI驾驶员

获取更多的 大模型 多模态 等信息

picture.image

picture.image

0
0
0
0
评论
未登录
暂无评论