激光雷达基于的运动目标分割(MOS)旨在利用之前扫描的运动信息在当前扫描的点云中定位并分割运动目标。
尽管之前的MOS方法取得了令人鼓舞的结果,但诸如时间信息和空间信息耦合较弱等几个关键问题仍需进一步研究。在本文中,作者提出了一种新颖的激光雷达基于的三维运动目标分割方法,名为MambaMOS,该方法具有运动感知的状态空间模型。
首先,作者开发了一个新颖的嵌入模块,时间线索引导嵌入(TCBE),以增强点云中时间和空间信息的耦合,并减轻忽视时间线索的问题。
其次,作者引入了运动感知状态空间模型(MSSM),使模型能够理解不同时间步中同一目标的时序相关性。具体来说,MSSM通过两个不同的时间建模和关联步骤强调不同时间步中同一目标的运动状态。
作者利用改进的状态空间模型来表示这些运动差异,显著地建模运动状态。
最后,在SemanticKITTI-MOS和KITTI-Road基准上的大量实验表明,所提出的MambaMOS达到了最先进的表现。
这项工作的源代码将在https://github.com/Terminal-K/MambaMOS。
1 INTRODUCTION
基于激光雷达的移动对象分割(MOS)任务对于准确描绘当前激光雷达扫描中的移动实体(如汽车或行人)至关重要,它是自动驾驶系统感知功能的基础组件[5, 46]。MOS在两个方面做出贡献。
首先,它通过提供准确的3D动态语义场景理解来确保自动驾驶系统的稳定运行[8, 39];其次,它有助于消除在同时定位与地图构建过程中由于对象移动引起的“幽灵效应”,从而产生一个干净的静态地图[7, 24]。
Chen等人[5]提出了一种基于学习的MOS方法,该方法将点云投影到平面表示上,并利用这些表示的序列来融入时间信息进行MOS。类似的范式如实现了低延迟,但由于投影引入了几何损失,因此在准确性和泛化方面还有改进的空间。非投影方法[29, 41]直接在3D空间中执行特征提取,并取得了精确的分割结果和优秀的泛化能力。
然而,这些方法无法充分耦合多扫描点云的时间-空间特征,并受到“时间与空间信息弱耦合”问题的影响。具体来说,由于移动对象随时间变化的空间位置,聚合点云中会形成尾迹伪影。
如果没有融入时间戳信息来区分聚合点云中的每个扫描,这些伪影可能会与外观相似的大对象(例如,移动的汽车和停放的卡车)混淆。时间戳信息的演变反映了对象的运动,移动对象也可以通过其时间戳信息的演变来识别。
基于上述观察,我们假设对象的时态信息是决定其运动的主导信息,加强对象时态和空间信息的耦合将有助于移动对象的分割。然而,上述方法[29, 41]直接将每个点的时间戳信息与空间占据信息连接起来,形成一个包含时态-空间特征的4D点云,并使用卷积神经网络(CNN)来学习这些时态-空间特征,如图1(a)所示。尽管它们有效,但忽略了时间戳信息的主导作用以及时态和空间信息之间更深层次的耦合,这阻碍了它们在分割性能上的进一步改进。
在这项工作中,我们重新思考了有效编码浅层时态和空间特征以及促进深层时态和空间特征之间充分交互的问题。对于简单地将时间戳信息与空间信息连接起来无法突出时间信息重要性的情况,我们提出了一种有效的嵌入方法,名为时间线索引导嵌入(TCBE),它通过注意力机制强调时间信息的表达力,并通过将时间信息作为一个独立于空间信息的通道来增强时态和空间信息之间的相互耦合。
尽管与先前的嵌入方法相比,TCBE可以在一定程度上增强时态和空间信息之间的耦合,但它只能应用于浅层,无法进一步深化时态和空间信息之间的耦合。最近,[23]的工作引入了一种基于投影的方法,并首次将变压器[40]的自注意力机制核心纳入MOS,实现了优于同类方法的更好性能。然而,研究[10, 15]表明,变压器模型在处理大输入序列时具有二次计算复杂度,这为实现训练成本和准确性之间的平衡带来了挑战。
幸运的是,Mamba[15]引入的状态空间模型(SSM)提供了一个有前途的解决方案,使我们有机会在保持线性时间复杂度的情况下,实现与变压器[40]相当的长距离上下文建模能力。受这一进展的启发,我们继续开发了运动感知空间状态模型(MSSM)。
在我们设计的MSSM中,我们将聚合点云特征解耦为多个单扫描特征,并分别学习单扫描特征表达的外观特征和聚合特征表达的动特征。然后,通过在这两个特征之间使用叉积注意力,我们实现了从单扫描特征到多扫描特征的时态信息补充,从而实现了时态和空间信息的深层耦合,并借助SSM实现了线性复杂度。
通过大量实验,作者证明了TCBE和MSSM的结合可以有效实现时间和空间信息的强烈耦合,并在SemanticKITTI-MOS(Shi et al., 2017; Chen et al., 2018)和KITTI-Road(Mamba, 2017)基准上达到了最先进的表现。作者的贡献总结如下:
- 作者重新思考了之前方法中存在的时空信息耦合较弱的问题,并提出了一种新颖的基于激光雷达的运动目标分割框架,即MambaMOS。据作者所知,这项工作是首次在MOS中利用SSM,为未来在MOS领域中扩展SSM指明了方向。
- 引入了一种有效的时间线索引导嵌入方法(TCBE),在一定程度上增强了时间和空间信息的耦合能力,提高了运动目标特征的表达力。
- 提出了一种基于SSM的新型时空信息耦合模块(MSSM),它实现了时序和空间特征的深层耦合,并通过单次扫描和多次扫描特征的互补性增强了运动目标的感知。
- Related Work
现有MOS方法可以分为两类:基于投影的方法(Chen等,2018;Chen等,2018;Wang等,2018;Wang等,2018)和非基于投影的方法(Wang等,2018;Wang等,2018;Wang等,2018;Wang等,2018)。基于投影的方法涉及将三维点云投影到紧凑的二维平面上作为模型输入,而非基于投影的方法则直接在三维点云空间内进行处理。
Projection-based methods
基于投影的MOS方法可以分为范围视图(RV)方法(Chen等人,2018;Wang等人,2018;Wang等人,2018;Wang等人,2018)和鸟瞰视图(BEV)方法(Wang等人,2018;Wang等人,2018)。在3D激光雷达数据中的目标检测和分割领域已有大量工作使用了RV图像(Chen等人,2018;Wang等人,2018;Wang等人,2018),这些方法通过球形投影(Wang等人,2018)使用原始的单扫描点云获取2D RV图像作为模型输入。在运动感知任务中,感知运动所需的时间信息通常由当前扫描和过去几扫描的RV图像的残差处理获得的残差图像提供(Chen等人,2018;Wang等人,2018;Wang等人,2018;Wang等人,2018)。Chen等人(Chen et al., 2018)直接将RV图像和相应的多扫描残差图像拼接作为输入,而Sun等人(Sun et al., 2018)提出了一种双分支模型结构,使用两个编码器分别从RV图像和多扫描残差图像中提取特征。与(Sun et al., 2018)不同,Kim等人(Kim et al., 2018)在其模型中使用了一个分支,通过附加的语义标签将可移动目标分解为运动目标和静止目标,这增强了模型理解动态场景的能力。程等人(Cheng et al., 2018)更关注运动特征的特征提取,这与作者的观点和谐一致,并通过附加的语义标签取得了领先性能。
与上述基于RV的方法不同,BEV方法从俯视角度呈现点云特征,这保持了点云中目标尺度的一致性,使理解和处理特征更容易(Wang等人,2018)。Mohapatra等人(Mohapatra et al., 2018)首次提出了BEV中的移动目标分割,其运行速度更快,但准确性低于基于RV的方法。周等人(Zhou et al., 2018)使用极坐标将点云转换为鸟瞰视图(BEV)表示。他们利用双分支CNN从多个BEV扫描中提取外观和运动特征,从而提高了准确性和效率。尽管上述基于投影的方法效率很高,但在将最终结果返回到3D点云空间的过程中,存在几何信息的丢失,这限制了这些方法的性能。
图1. 其他非投影方法(子图(a))与作者的方法(子图(b))的简要比较。以前的方法对时间信息和空间占用信息同等对待,没有深入整合它们。相比之下,作者的方法通过作者设计的TCBE更多地强调了每个点的时间信息的重要性,并通过MSSM实现了时间和空间信息的更深层次的耦合,这更符合运动识别的基本原则。
Non-projection-based methods
非基于投影的方法,直接在3D空间中对点云进行操作,绕过了基于投影方法中固有的几何信息损失。因此,这些方法理论上具有实现更优分割性能的优势。4DMOS(Song等人,2017年)将多次扫描的点云 Voxel 化叠加表示输入到稀疏4D CNN中,并通过二进制贝叶斯滤波器作为额外的后处理融合了移动目标多个不同扫描的预测结果,这提高了判断当前扫描中移动目标的置信度,并取得了出色的分割结果。同样,InsMOS(Song等人,2017年)也是基于4D点云作为输入,但它们通过融合包含不同分辨率目标实例信息的BEV表示来辅助分割移动目标。Li等人(Li et al., 2019)提出了一种双分支模型,该模型集成了3D点云和2D图像,并采用Transformer(Vaswani et al., 2017)来融合多尺度点云和图像特征,旨在增强时间和空间特征的耦合。Li等人(Li et al., 2019)使用柱状坐标对聚合点云输入进行 Voxel 化,并使用CNN获取移动目标分割结果,进一步在LiDAR基于定位的任务中应用MOS,以提高其在动态场景中的鲁棒性。MapMOS(Wang et al., 2019)改进了选择固定过去扫描会导致一些由于遮挡而未被感知的移动目标的问题。因此,提出了一种基于由过去扫描构建的局部地图的移动目标感知策略,并在SemanticKITTI-MOS基准的验证集上实现了最先进的表现。除了上述基于学习的方法外,还有许多非学习方法,包括地图清理方法和基于地图的方法。地图清理方法通过目标的几何信息离线移除移动目标。另一方面,基于地图的方法需要预先构建的地图,以移除在映射过程中移动的目标为。
总的来说,现有的MOS方法尚未彻底探索时间和空间特征之间的耦合,这限制了它们对运动状态的理解。相比之下,作者的方法在嵌入阶段实现了时间和空间特征的浅层耦合,并在模型的每个阶段实现了深层耦合。这种深层耦合在时间和空间线索之间建立了稳健的相关性,增强了模型对运动场景的理解。重要的是,作者的方法在没有任何后处理模块的情况下,在MOS任务上实现了最先进的表现。
- Method
方法部分描述了作者在研究中采用的方法和技术。作者概述了人工智能模型的框架以及用于手头任务的特定算法。该部分还讨论了用于训练和评估的数据集,以及为适应作者的目的对现有方法所做的任何修改。
Preliminaries
状态空间模型。 SSM(Li等人,2019年)是一种序列模型,它可以将一维输入序列映射到输出序列。这个过程由一系列连续的隐藏状态表示,状态大小为。通常,连续时间系统的SSM可以由以下线性常微分方程(ODE)表示,如方程(1)所示,
其中参数,和建立了状态和输出变量之间的相关性。
离散化。 将原始SSM方程转换为离散形式以适应任务中的离散数据是至关重要的。离散化的SSM可以写成方程(2)的形式,
离散化参数,可以通过零阶保持(ZOH)规则与时间尺度参数如方程(3)所示进行描述,
选择性扫描机制。 Mamba(Mamba,2017年)提出了一种选择性扫描机制,该机制通过输入序列的参数化投影有效地调整参数,使SSM能够选择性地过滤输入序列特征。这推进了SSM在时变领域的研究。
MambaMOS原则。 为了解决现有MOS方法中时间信息和空间信息耦合不足的问题,作者尝试将Mamba从自然语言处理(NLP)领域适应到MOS任务。一个有趣的发现出现了:MOS任务本质上涉及从无序集中选择移动的子集,类似于NLP中的选择性复制机制(Bach等人,2017年;Mamba,2017年)。利用这一洞见,作者基于选择性复制机制引入了MambaMOS。这种增强使Mamba能够有效地处理MOS任务,同时使模型能够自适应地选择移动目标,降低操作成本。
MambaMOS
总体架构概述。 所提出的MambaMOS采用了如图2所示的U-Net(Mamba,2017)风格的总体架构。首先,经过序列化处理后,输入的4D点云集合将被转换成一个有序序列。
与此同时,它们通过精心设计的TCBE(第3.3节)进行编码。接下来,点云被送入编码器-解码器结构中,以建模深层特征。这包括具有五阶段块深度的编码器,以及具有四阶段块深度的解码器。需要注意的是,除了第一阶段外,所有阶段的编码器中都使用了点云池化策略。通过池化层的点云的尺度变化因子为2。此外,在块开始处,采用了高效的位置编码块,以捕获特征的局部注意力,这一想法遵循大多数点变换工作(Li et al.,2019;Li et al.,2019;Li et al.,2019)。
经过层归一化处理后的点云特征将通过MSSM(第3.4节),这是整个块的核心洞察,其中将增强目标的运动特征。块的最终输出是层归一化和多层感知器。在作者的每个块中广泛应用残差连接,以避免梯度消失(Mamba,2017)。最后,可以通过线性层获得每个点的logits。并且将点反序列化以提取分割结果。
输入表示。 在当前时间(),给定一个激光雷达扫描,包含个点,这些点由齐次坐标表示。目标是使用连续点云集合中的当前扫描及其过去次扫描中的移动点进行分割。为了将次扫描的点云数据聚合到一个包含时间-空间信息的4D点云输入中,并消除自身运动,作者需要将过去的次扫描转换到当前扫描的视角,并分别将齐次坐标转换为笛卡尔坐标。给定从扫描到当前扫描的位姿转换矩阵,从时间的点云到当前点云的视角转换可以表示为方程(4)。
因此,4D点云集合,包含个点,可以表示为方程(5)。为了在4D点云中区分每个扫描,作者添加了每个扫描对应的时间步作为点的附加维度,并获得时空点表示。
序列化。 作为MambaMOS核心的SSM通常接受一系列数据,如自然语言。因此,需要通过序列化从无序的4D点云集中获得序列。序列化可以理解为一个投影函数,它将无序集转换为序列。因此,序列化和反序列化的过程可以描述为方程6,其中是逆投影函数。序列化点云的一种方法是按每个点的坐标排序[27]。然而,这种序列化方法不能充分保留目标的局部空间关系,可能导致在最终序列中空间上接近的点云相隔甚远。
空间填充曲线是一种数学曲线,能够将维空间中的数据投影到一维连续空间:,这已在最近的3D场景理解工作中得到应用[42, 43]。受到它们的启发,作者的序列化过程利用了z序曲线[33]和希尔伯特曲线[17],它们有效地保持了原始3D点云中的邻域关系。
Time Clue Bootstrapping Embedding
先前的方法(Zhu等人,2017;Wang等人,2018;Wang等人,2019)并未有效强调每个点的时间信息的主导地位。这从他们对来自激光雷达的空间占用信息和来自扫描聚合过程的相应时间戳信息的平等处理中可以看出。然而,对于属于不同模态的时间和空间信息的直接叠加,并没有充分利用一种模态对另一种模态的监督作用。因此,作者提出了时间线索引导嵌入(TCBE)。它基于时间演变驱动物体运动的原理,强调时间信息胜过空间信息,从而增强时间和空间信息的耦合。
TCBE的结构如图2右下角所示。具体来说,TCBE使用1D卷积在有序点云序列中嵌入每个点的空间和时间信息,以获得嵌入维度中的相应空间特征和时间特征,两者都具有局部特性。首先,通过将时间特征与空间特征相加,获得初始耦合的时间空间特征,这作为先前嵌入方法的另一种实现。然后,为了强调时间信息相对于空间信息的主导地位,通过不改变其通道的1D卷积获得反映局部时间演变趋势的,并与逐元素相乘。最后,将时间引导的空间特征添加到初始耦合的时间空间特征中,得到增强的时间空间耦合信息。在经过1D卷积、批量归一化和激活函数处理后,作为TCBE的输出。
Motion-aware State Space Model
尽管在NLP中的选择性复制任务(Bang et al., 2018; Wang et al., 2018)与前面提到的MOS任务在形式上有某些相似性,但直接应用Mamba(Wang et al., 2018)不能有效地利用时间特征。这归因于原始的Mamba(Wang et al., 2018)是为具有某种因果关系的二维自然语言设计的。然而,序列化的多扫描点云序列不能反映强烈的因果关系。因此,作者提出MSSM来弥补Mamba(Wang et al., 2018)在MOS上的不足。
MSSM的主要设计思想是通过单扫描特征与多扫描特征之间的交叉乘积注意力来增强原始Mamba对移动目标时间特征的感知。如图2左上所示,它主要由线性层、激活函数和具有选择性扫描机制的自适应状态机(SSM)组成。令输入具有批大小、序列长度和通道数的点云特征表示为,该特征将通过三个分支。作者从Mamba(Wang et al., 2018)的主分支导出作者的MambaMOS的上部和中部分支。上部分支用于提取单扫描点云中每个目标的表观特征。而中部分支更多地关注4D点云中移动目标的时间特征。由于MOS任务只关注移动目标,作者希望MSSM对道路或树干等不动的目标分配较低的注意力。因此,需要一个特征加权过程。受到门控注意力单元(Kumar et al., 2018)的启发,作者在MSSM的底部分支采用了一个简单的门控机制为每个隐藏状态中的特征分配权重,从而确定特征是否被表达。
具体来说,为了获得此时具有的单扫描特征,上部分支首先执行反转聚合(RA),它将的每个扫描分离并经过0填充到后作为单独的批处理进行连接。然后通过1D卷积和单扫描聚合的过程获得单扫描的表观特征。这个过程可以写为:
中部分支使用1D卷积获得多个扫描中移动目标的时序和表观特征。此过程的输出表示为。随后,通过交叉乘积注意力与上部分支的输出融合,得到。融合过程可以描述如下:
在后续设计中,作者遵循原始Mamba的思想,即块的最终输出是通过主分支的结果与经过线性投影的门控分支结果的逐元素乘积得到的。这个过程描述如下:
Loss Function
在执行损失计算之前,作者首先将获得的序列分割结果反序列化,以对应初始的无序点云集,如方程6所示。之后,遵循大多数3D分割方法,作者采用交叉熵损失()和Lovasz-Softmax损失(Louis等人,2017)()的组合作为联合损失 用于监督训练。
- Experiment
- 实验部分的开头。
Experiment Setups
作者在SemanticKITTI-MOS数据集(Bang等人,2018;Wang等人,2018)上对提出的MambaMOS进行了多种实验验证。序列0007和0910用作训练集,序列08用作验证集,序列1121用作测试集,遵循之前MOS方法(Wang等人,2018;Wang等人,2018;Wang等人,2019)的同样划分方式。KITTI-road数据集(Wang等人,2018)也用于与其他MOS方法的比较实验,并保持与(Wang等人,2018)相同的划分方法。整个训练在四个NVIDIA RTX A6000 GPU上进行,GPU内存为48G,训练50个周期,批处理大小为4。使用带有0.005权重衰减的AdamW(Kingma和Ba,2015)作为优化器,学习率设置为0.00032。将0.09的网格大小应用于 Voxel 化输入聚合点云,并使用的扫描作为输入,与(Chen等人,2017;Chen等人,2018;Wang等人,2019)相同。此外,在训练期间应用了常见的点云数据增强方法,如随机旋转和随机翻转,以增强MambaMOS的泛化能力。所有消融实验均在八个NVIDIA GeForce RTX 3090 GPU上进行,使用四个扫描输入(),批处理大小为8,并使用自动混合精度完成。作者为消融实验报告 Voxel 化移动目标的IoU。此外,类似于(Chen等人,2017;Chen等人,2018;Wang等人,2019),作者还为训练使用了额外的语义标签。在验证和测试阶段,采用交并比(IoU)(He等人,2016)作为评估性能的指标。遵循之前的方法(Wang等人,2019;Wang等人,2019;Wang等人,2019),所有实验提供移动目标的IoU作为IoU作为主要评估指标,可以用公式10与真正例(TP)、假正例(FP)和假负例(FN)描述:
Moving Object Segmentation Performance
作者从定量和定性两个角度分析了与其他最先进(SoTA)方法的比较。
定量分析。 表1展示了MambaMOS与MOS基准(Chen等人,2017;Chen等人,2018)中最先进方法的定量比较结果。每种方法报告的结果都是它们各自论文中最好的结果。由于一些方法(Chen等人,2017;Wang等人,2019;Wang等人,2019)在其比较中使用了KITTI-Road数据集(Chen等人,2017)作为额外的训练数据,作者遵循公平比较的原则,使用一致的训练数据,在表格中用符号将其与原始比较区分开来。
在不使用额外训练数据的情况下,MambaMOS在基准测试上几乎超过了所有方法。具体来说,在验证集和隐藏测试集上,MambaMOS分别超越了将点云和图像作为输入的两流MOS(Wang等人,2019)4.4%和2.6%。作者将这一显著改进主要归因于非投影方法中的几何损失。在与非投影方法的比较中,MambaMOS在验证集上比包含地面优化作为额外预处理的LiDAR-IMU-GNSS(Wang等人,2019)表现更好,高出3.3%,并在测试集上领先0.7%,这归功于MambaMOS中时间与空间信息更强的耦合。尽管MambaMOS使用固定数量的扫描作为输入,它仍然在隐藏测试集上超过了使用局部地图的MapMOS(Wang等人,2019),优势显著,高达9.6%。在融入额外训练数据后,MambaMOS在相同的训练设置下仍然优于条件相当的其他方法。MambaMOS在验证集和隐藏测试集上分别超越了最先进的MF-MOS(Chen等人,2017)3.4%,以及利用额外实例边界框来确定移动实例的InsMOS(Wang等人,2019)3.9%和4.5%。
为了进一步分析作者的方法带来的优势,作者对现有方法在不同距离上的分割性能进行了详细比较,比较是基于SemanticKITTI-MOS验证集进行的,结果如表2所示。表2中的指标要么在其各自的论文中报告,要么使用其公开可用的权重确定。其他方法,如RVMOS(Wang等人,2019年)、Two-streamMOS(Wang等人,2019年)和LiDAR-IMU-GNSS(Wang等人,2019年)的权重要么未公开,要么在论文中未报告,因此没有包括在比较中。
众所周知,随着物体距离激光雷达的增加,点云分布变得更加稀疏。如表2所示,大多数MOS方法在近距离处取得了令人满意的分割结果。然而,当距离达到20米和50米的范围时,它们的分割性能急剧下降。此外,超过50米的距离,一些基于投影的方法,如LMNet(Chen等人,2017年)、MotionSeg3D(Wang等人,2019年)和MotionBEV(Wang等人,2019年)无法区分物体的运动属性。尽管专注于运动特征的MF-MOS(Chen等人,2017年)在分割远距离移动物体方面超过了非基于投影的方法,如4DMOS(Wang等人,2019年)和InsMOS(Wang等人,2019年),但由于投影过程中造成的几何损失,它仍然在识别远距离物体的运动属性方面受限,这阻止了物体的空间信息与时间信息的强烈耦合。另一方面,MambaMOS即使在点云极其稀疏的情况下也能精确分割移动物体。这间接支持了作者工作中的观点:当目标的空间特征不明显时,加强时间信息可以有效提高MOS性能。
正确确定物体的运动属性,导致大量假阴性结果。这可以归因于它们仅依赖于空间和时序信息之间的弱耦合来进行运动估计。慢速移动的物体或远距离移动的物体在空间信息方面并不表现出明显的特征,因此那些不加强时序信息的方法(Kumar等人,2017年;Wang等人,2018年;Wang等人,2019年)在估计上表现不佳。然而,MambaMOS通过结合强烈的时序信息耦合有效地解决了这个问题。此外,为了减少假阳性预测,作者还按照(Kumar等人,2017年;Wang等人,2018年;Wang等人,2019年)的方法,将静止的车辆也作为可移动类别进行训练,这进一步增强了模型对运动场景的理解。
Ablation Study
由于SSM接收顺序特征,不同的空间序列组合将对整体性能产生影响。作者探索了具有良好空间局部性特性的-曲线(Song等人,2018)和希尔伯特曲线(Hilber等人,2018)的序列组合对MOS性能的影响。由于空间填充曲线是基于、和的顺序遍历空间点,优先考虑与优先考虑会产生不同的序列化结果。作者用表示这个变体。如表6所示,更丰富的序列化方法在验证集上取得了更好的性能。这是因为多种序列化方法捕捉到序列的不同上下文关系,在减少过拟合的同时增强模型对动态目标的理解。
表4展示了作者研究中的两种方法,以增强时空调度信息的耦合。作者进行了消融实验,以证明所提出的模块可以增强模型对运动目标的感知。当不使用MSSM时,作者用原始的Mamba块(Tegh等人,2018)替换它,并且在未应用TCBE时,作者采用简单的3D卷积进行信息嵌入。
从实验结果可以看出,与 Baseline 相比,仅应用MSSM或TCBE时,性能分别提高了1.86%和1.41%。这表明MSSM和TCBE都能增强时序和空间特征的耦合,并提高模型对运动特征的理解。然而,仅应用MSSM时,与TCBE相比,性能提高了0.45%。这是因为MSSM基于单扫描特征与多扫描特征之间的交互,更关注深层时空信息的耦合,并能更全面地学习目标的运动属性。最后,在MSSM的基础上加入TCBE,进一步增强了嵌入阶段对时序信息的重视,这与运动识别的基本逻辑相符合,并取得了最优性能,比 Baseline 提高了2.25%。
Generalization Performance Analysis
由于SemanticKITTI数据集(Birani等人,2017年)的大部分是在居民区收集的,为了测试MambaMOS更广泛的环境适应能力,作者在KITTI-Road数据集(Song等人,2018年)上对其进行了微调,以评估其对新环境的泛化能力。作者采用了与MF-MOS(Kumar等人,2017年)、InsMOS(Wang等人,2019年)和MotionSeg3D(Wang等人,2019年)相同的数据分割策略,并与那些使用固定扫描作为输入并公开提供权重的方法进行了比较。表5中所示的所有方法的原始权重都是开源的,并且只在SemanticKITTI-MOS(Birani等人,2017年;Wang等人,2019年)数据集上进行训练。然后,它们在KITTI-Road训练集(Song等人,2018年)上微调了10个周期,以获得最终结果。结果表明,即使数据量很小,微调也极少,MambaMOS仍然比以前的方法取得了更好的结果,这证明了其在新环境适应方面出色的泛化能力。
表4. 在SemanticKITTI-MOS验证集上对MambaMOS中每个模块的消融研究。
表2. 在SemanticKITTI-MOS验证集上对不同距离点的MOS性能。R表示召回率,P表示精确度。
表3. 在SemanticKITTI-MOS验证集上关于序列组合的消融研究。
- Conclusion
本文介绍了MambaMOS这一新颖的移动目标分割框架,旨在解决现有方法中时空耦合性弱的问题。具体来说,作者引入了时间线索引导的嵌入(Time Clue Bootstrapping Embedding),以实现目标时空信息的浅层耦合。此外,作者强调了时间信息作为识别运动属性的主要线索的重要性,从而提高了模型对运动特征的敏感性。为了实现更深入的时空耦合,作者提出了运动感知状态空间模型(Motion-aware State Space Model),它促进了单次扫描和多扫描特征之间的交互。利用SSM的线性复杂度和强大的上下文建模能力,MSSM实现了特征的强时空耦合。广泛的实验验证了作者的方法的有效性,在SemanticKITTI-MOS和KITTI-Road数据集上均展示了最先进的性能。此外,本文标志着SSM首次应用于MOS任务,并在3D视觉中的点云分割与自然语言任务之间建立了重要的联系,为未来的研究方向提供了宝贵的见解。
表5. 在KITTI-Road数据集上与最先进方法进行微调性能比较。
图3. 在SemanticKITTI验证集上,MambaMOS与MF-MOS(Chen等人,2018),InsMOS(Wang等人,2019)和4DMOS(Zhu等人,2019)的可视化比较结果。作者将它们各自对当前扫描和过去七次扫描的预测叠加在一起,以直观地展示MOS的结果。
参考
[1].MambaMOS: LiDAR-based 3D Moving Object Segmentation with Motion-aware State Space Model.