点击下方卡片,关注「AI视界引擎」公众号
( 添加时备注:方向+学校/公司+昵称/姓名 )
近年来,基于距离图的激光雷达点云超分辨率技术作为生成更高分辨率点云数据的低成本方法,吸引了广泛关注。然而,由于激光雷达点云的Sparse性和不规则结构,点云超分辨率问题仍然是一个具有挑战性的课题,特别是在新视角下的点云上采样方面。
在本文中,作者提出了SRMamba,一种用于Sparse场景下激光雷达点云超分辨率的新型方法,旨在解决从新视角恢复点云三维空间结构的关键挑战。
具体而言,作者实现了基于Hough投票和空洞补偿策略的投影技术,以消除距离图像中的水平线性空洞。为了改进长距离依赖关系的建立,并专注于垂直三维空间中的潜在几何特征,作者采用视觉状态空间模型和多方向扫描机制,以减轻距离图像导致的三维空间结构信息损失。
此外,非对称U-Net网络能够适应具有不同光束计数的激光雷达输入特性,实现对多光束点云的超分辨率重建。
作者在多个具有挑战性的公开激光雷达数据集(SemanticKITTI和nuScenes)上进行了系列实验,SRMamba在定性和定量评估方面均展现出显著优于其他算法的性能。
- 引言
激光雷达在环境感知系统中发挥着不可或缺的作用,通过精确捕捉三维场景的空间结构[1],为自动驾驶[2,3]、机器人导航和场景重建与定位提供可靠的3D环境信息支持[4-6]。由于低分辨率点云的密度不足,几何结构信息存在显著缺失和退化,难以充分表征目标目标的细节和复杂的拓扑关系,无法满足高精度应用场景的需求。然而,高分辨率激光雷达点云采集设备对硬件要求极高,高昂的成本限制了其大规模应用和普及。
为应对这一挑战,随着深度学习技术的快速发展,许多研究探索了其在点云上采样中的应用[7, 8],旨在提高点云数据的分辨率和精细度,并以较低成本缩小性能差距,如图1所示。大量研究引入神经网络学习三维点云的潜在空间特征,深入分析激光雷达数据的物理分布特性和几何结构[8-12]。然而,这需要密集的计算资源,尤其不适用于超分辨率任务。另一种有效的解决方案是通过几何投影将三维空间超分辨率问题转化为二维图像超分辨率问题[13-15]。具体而言,利用距离视图的物理感知特性和神经网络的带数据驱动优势的深度结合,减少了资源消耗,而注意力机制在捕获二维图像超分辨率领域的细节方面表现出色[16-18]。然而,二维特征和三维特征存在根本差异。投影过程中的截断误差导致三维拓扑结构信息不可逆地丢失,使得该区域的结构恢复变得具有挑战性,并在重建过程中保留了距离图像中的水平线性孔洞,如图2(左)所示。同时,注意力机制无法建模有限窗口之外的信息,难以进行长程上下文特征学习[19]。因此,模型过度关注投影视角的结构恢复,难以在新视角下捕获空间结构相关性,导致点云中存在显著的坐标偏移和噪声伪影,如图2(右)所示。
近期,视觉状态空间模型(VssM)[20]作为一种高效的计算模块,在多个视觉任务中展现出优异的性能,并在某些场景下超越Transformer,成为视觉领域的前沿技术之一[21-23]。其优势包括能够以低计算复杂度高效建模长距离依赖关系,并具有更好的推理效率。另一方面,由于图像块可以自然地转换为序列形式,VSsM在视觉任务中展现出广阔的应用前景。
本文针对基于视距方法[13]的局限性以及VMamba[20]的优势,提出了新的Sparse点云超分辨率网络架构。为减少孔洞像素导致的结构损失,作者采用Hough投票和孔洞补偿机制填充空白。同时,通过编码解码和 Shortcut 实现多尺度特征融合(MSFF),处理Sparse且尺度不一致的点云输入。基于创新的RV-vsSM混合架构,SRMamba捕获视距图像中的局部细粒度特征和长距离依赖关系,并将Transformer的二次时间复杂度替换为线性时间复杂度。此外,SRMamba能够从低分辨率点云恢复更高分辨率的3D点云空间几何结构,保持空间一致性,显著提升点云细节性能,特别是在新视点几何结构的重建中,表现出更高的细粒度。总体而言,作者的贡献如下:
提出一种基于VSsM的点云超分辨率网络架构,集成多尺度特征融合机制,有效提升模型感知Sparse输入空间结构的能力,能够生成具有完整结构和丰富细节的高保真高分辨率点云场景。
引入了霍夫投票机制和孔洞补偿机制,以提高模型对孔洞像素区域的鲁棒性,并减少位置漂移和噪声干扰。
在多个具有挑战性的数据集上表现出色,与现有方法相比具有高学术和应用价值。
- 相关工作
2.1 基于三维空间的点云超分辨率
早期的点云上采样方法主要依赖于点云的局部几何特征(例如法线、密度和曲率)进行上采样,这些特征高度依赖于几何先验知识[24-26]。然而,在复杂的3D场景中,几何结构的非规则性和Sparse性使得这些方法难以有效应用,尤其是在LIDAR远距离检测场景中。点云密度随距离的增加而降低。同时,边缘区域的几何先验知识估计误差引入了不准确性。这些因素的综合作用显著降低了点云重建的精度和鲁棒性。
随着深度学习的发展,研究行人开始利用神经网络学习点云的底层空间特征,逐渐摆脱半数据驱动策略。PU-Net学习点的多级特征,并隐式扩展点集并将其重建为密集上采样结果[9]。Kohei等人将点云 Voxel 化,并引入Sparse卷积来预测高分辨率 Voxel 占用情况[27]。Zhang等人采用空间细化模块来预测生成粗密点云与真实点云之间的偏移量[28]。PUGL-Net生成粗密点云,并进一步通过聚类细节表示进行增强[29]。边缘感知密集卷积(EADC)用于重建细粒度激光雷达扫描,将上采样任务解耦为生成和优化两个子阶段以拟合物体表面[30]。尽管点云处理已取得积极进展,但点云固有的Sparse无序结构,加上点之间缺乏显式的结构关联,导致邻域构建复杂。这种复杂性进而导致高计算开销和特征建模困难,形成了该领域内的核心挑战。
2.2. 基于范围图像的点云超分辨率
与基于先验几何知识和三维空间特征建模的方法不同,基于距离视图的点云超分辨率技术通过将成熟的二维视觉框架与三维空间语义深度集成,实现了计算效率与重建精度的联合优化[31]。图像超分辨率的主要目标是从低分辨率(LR)输入中恢复高频细节,生成更清晰的表示,从而提升下游视觉任务的性能。这些方法通常利用卷积神经网络(CNN)来增强细节保真度,并在重建过程中保持结构一致性[32, 33]。
凭借其紧凑性和与LIDAR扫描模式的高兼容性,距离图像被广泛用作点云超分辨率的中介表示[34]。这些方法首先将点云投影到图像上,在图像域中完成超分辨率处理,然后反投影回三维空间[35]。You等人基于六个邻近点的像素值进行线性插值[36]。Tan等人使用深度卷积神经网络在图像空间中提高分辨率[13]。Chen等人[37]和TULIP[38]通过注意力机制对图像进行超分辨率处理。RangeLDM在距离图像的基础上引入了扩散建模机制[1]。尽管这些方法在投影视图上表现出优异的性能指标,但在扩展到全局视图时,其应用显示出局限性。首先,无法有效识别空洞像素导致对鲁棒特征表示的污染。这个问题在Sparse区域和物体边界处尤为明显。其次,距离图像作为三维空间的二维投影,导致过度强调局部图像细节而忽略点云固有的三维空间结构。因此,尝试从新视角生成点云时会引入伪点和累积坐标偏移。这种扭曲,包括各向异性拉伸,在长距离Sparse区域尤为突出。
本文重点研究生成大型场景的全局高保真高分辨率激光雷达点云。考虑到计算机视觉任务与序列建模之间的频繁交互,VSSM正迅速应用于图像领域[39,40]。值得注意的是,VSSM在保持序列建模能力的同时,具有更高的计算效率和更大的感知范围。与先前工作不同,作者关注序列全局依赖关系,更侧重于生成全局高保真点云,而非区域上采样。
- 方法论
作者提出了一种新的LiDAR点云超分辨率算法SRMamba,通过解决新视域区域中的噪声和结构失真来改进基于距离视图的点云超分辨率算法。该算法通过Hough投票和空洞补偿机制获取高质量的距离图像,并利用各向异性卷积将图像压缩到紧凑的低维特征势空间。采用多尺度特征融合来连接High-Level特征和Low-Level特征,以补偿High-Level语义信息的丢失。在训练过程中,引入双向扫描机制来建立长距离依赖关系,以获得具有清晰全局结构的超分辨率3D点云。图3展示了整体流程框架。
3.1. 状态空间模型
状态空间模型(SSMs)是一种用于建模时间序列数据的数学框架[41]。其核心思想是利用一个隐藏状态向量来描述系统的动态演化,将输入信号
映射到输出
。具体而言,一个连续时间状态空间模型可以表示为一个线性常微分方程,如下式所示:
参数由
给出,适用于状态维度为
的系统,并包含一个 Shortcut 项
。为了无缝集成到神经网络中,引入时间尺度参数
,使用零阶保持器(ZOH)[42] 对连续结构进行离散化:
其中
,
,且
,
3.2. 模型概述
3.2.1. 问题定义
给定由激光雷达传感器获取的Sparse点云
,其中每个点
表示一个三维空间坐标,所提出的 SRMamba 框架的目标是重建高质量的密集点云
。该过程可以正式定义为:
θ
其中
表示网络结构,
表示网络架构的可学习参数,scales 表示用于控制输出点云分辨率的上采样因子。在本文中,作者将其设置为 4。
3.2.2. 范围视图
距离图像是LiDAR点云数据的结构化表示,其行维度对应LiDAR传感器的激光束数量,列维度反映点云在水平视场角(FoV)内的分布[43]。然而,原始投影方法采用截断方式,点云呈现局部聚集、水平线性空洞存在以及三维拓扑关系断裂等问题。为减少投影误差并优化图像质量,作者采用球形投影方法将点云转换为距离图像,并应用霍夫投票算法获取点云在二维图像上的坐标偏移量,从而降低因数据截断导致的投影失真和几何误差。具体而言,对于每个点
,其球坐标通过以下公式计算:
其中
和
分别表示每个激光束的垂直和水平校正距离。它们是长度为
的一维数组,其中
是激光束的数量。投影的二维图像坐标为
,其中
通过 argmin 操作计算得到,该操作找到列表中对应最小误差的索引
。为防止过度校正,作者引入
作为对最大检测范围的约束。
表示距离图像的像素宽度。
尽管公式6在一定程度上修正了水平线性空洞,但由于输入点云的Sparse性,在范围图像中仍然存在离散的空洞区域,这导致了相邻区域之间的连接断裂。为了解决这个问题,作者提出了“空洞补偿”技术,该技术通过将图像特征扩散到空洞像素,旨在用真实特征填充空白区域。具体而言,作者在针对霍夫投票优化的密集图像上,以空洞像素为中心创建一个视觉窗口,并使用线性平均池化填充空洞:
ν
ν
ν
ν
此处,
表示以
为中心的邻近像素集合,
是分配给邻近像素
的权重,
表示邻近区域中
处的像素值。
3.2.3. Patch 嵌入
与标准RGB图像的密集三通道像素表示[44]不同,距离图像存在显著的表达差异,这些差异源于激光束束和视场角(FoV)的物理采集特性。为全面记录点云数据,采用更多激光束要求更高的垂直图像分辨率,而容纳更宽的横向FoV则需提升横向图像分辨率。针对距离图像特有的各向异性维度分布(例如
、
等)和垂直特征Sparse问题,采用基于各向异性卷积核(ACK)的特征编码架构将图像映射到低维密集势空间。具体而言,给定输入图像
,其中
表示通道数,
和
分别代表图像的高度和宽度,作者将图像
分割为
个大小为
的块。这些块随后被映射到潜在表示
:
3.2.4. 编码器-解码器
SRMamba采用非对称U-Net网络结构,该结构是图像处理领域中具有深远影响的一种经典架构[45, 46],如图4所示。SRMamba通过二维多方向扫描机制提出了SS2D模块,如图5所示,促进了远距离Sparse点之间的特征交互,实现了全局信息的有效交互与融合。SS2D沿四个不同路径展开输入图像为序列,并行处理每个序列,最终融合生成特征图。同时,由于范围图像作为典型全景数据,在水平方向上包含丰富的水平广角语义信息,该策略将重点转移到图像的垂直维度上。
作者采用一个由多个卷积模块组成的二维 Backbone 网络,以高效提取多级图像特征。在每个阶段,作者将模块与多个堆叠的VSS模块关联,并逐步应用卷积来压缩空间尺度,逐层丰富特征表示。VSS模块以二维特征图作为输入,并将结果馈送到核心SS2D模块以执行二维多方向扫描,从而进行高效的全局状态更新。随后,作者使用一个线性层将扫描到的特征映射回原始特征维度,并通过残差连接[47]将它们添加到输入特征中。之后,输出特征再次通过层进行归一化,并通过一个由深度卷积(DWConv)和激活函数(SiLU)组成的 FFN (FFN)进行处理,最后与第二个残差连接叠加,形成模块化输出:
在解码阶段,模型采用多阶段渐进式上采样策略逐步恢复深层特征的分辨率,并通过 Shortcut 将其与浅层特征对齐融合,然后将它们输入到VSS模块中以弥补因分辨率降低而丢失的细节。接着,作者使用PixelShuffle模块进行上采样,该操作将通道维度的元素重新排列到空间维度,从而通过应用指定的上采样因子
有效提高图像分辨率。特别地,给定一个输入特征图
,PixelShuffle将其转换为
,从而在不依赖插值的情况下实现高效上采样:
最后,使用
卷积将特征图通道数压缩为 1,输出一个单通道深度图,其维度为
。
- 实验
4.1. 数据集
为验证所提模型的性能,作者在两个具有挑战性的公开数据集上进行了实验:KITTI-360 [48] 和 nuScenes [49]。KITTI-360 数据集使用 Velodyne HDL-64E 激光雷达收集各种场景(如城市、村庄和高速公路)中静态和动态物体的三维结构数据 [48]。作者从该数据集中选取 20,000 次扫描作为训练集,2,500 次扫描作为验证集。另一方面,nuScenes 数据集使用 Velodyne HDL-32E 激光雷达获取涵盖数十万次雷达扫描的 1,000 次驾驶场景 [49]。作者从该数据集中选取 28,130 次扫描作为训练集,6,008 次扫描作为验证集。并且这两个数据集均进行了 4 倍下采样,以模拟Sparse点云输入。
4.2. 评估指标
作者构建了一个多维评估系统,该系统系统性地设计指标并引入创新的分析维度,以全面展示所提出方法的优势。
切比雪夫距离(CD)[50] 通过计算真实点云与生成点云之间最近邻平方距离的平均值,从覆盖率和完整性两个维度评估点云质量:
IoU(IoU)[51] 通过 Voxel 化点云来计算点云的几何相似性。作者使用
的 Voxel 尺寸对点云进行 Voxel 化。
表示在三维空间中生成的点云与真实点云之间的重叠区域,而
表示点云所覆盖的总体积:
平均绝对误差(MAE)[38]。在本文中,作者基于距离视图的超分辨率生成点云,距离图像的质量也决定了点云的质量,并评估生成的超分辨率距离图像与真实点云距离图像之间的相似性:
4.3. 实验细节
KITTI-360 [48] 和 nuScenes [49] 的范围图像尺寸分别为
和
。为进行优化,作者使用 AdamW [52] 作为默认优化器,初始学习率为 0.005。所有模型均在两个数据集上使用
NVIDIA V100 16G GPU 进行了 600 个瞬时会话的训练,每个 GPU 的批次大小分别为 4 和 8。
4.4. 对比实验
4.4.1. 定性评估
图6展示了SRMamba的质量以及该模型的竞争力。作者观察到Cas-ViT [53]、Swin-IR [54]和TULIP [38]在点云中心场景中存在视图盲点,引入了大量噪声;在Sparse区域,恢复效果较差,重建的结构表现出不规则性和较大的线条波动;而在复杂区域,几何结构发生了显著扭曲。相比之下,SRMamba的结果与真实世界相似。点云分布均匀,整体结构一致,且没有广泛的点云漂移或混淆。
图7进一步展示了复杂场景中重建细节的性能,重点关注恢复车辆结构的能力。图7(a)展示了多辆车的侧面重建结果,Cas-ViT [53]、Swin-IR [54]和TULIP [38]表现出明显的结构杂乱和噪声。SRMamba是唯一在遮挡区域具有清晰结构和无明显噪声的方法。在正面场景中,所有方法都能够重建车辆轮廓,但Cas-ViT [53]和Swin-IR [54]方法无法恢复车顶结构,TULIP [38]未能匹配LiDAR地面特征线,如图7(b)所示。在长距离和高Sparse输入点云条件下,Cas-ViT [53]、Swin-IR [54]和TULIP [38]的重建结果主要集中于卡车两侧的密集区域,忽略了顶部的Sparse结构,整体轮廓不完整。相比之下,SRMamba能够准确恢复卡车的整体形状,重建结果更接近真实场景,如图7(c)所示。
由于8行点云的极端Sparse性以及结构信息的严重缺乏,将其上采样至32行是一项极具挑战性的任务。图8表明,在Sparse条件下,Cas-ViT [53]、Swin-IR [54]和TULIP [38]在恢复场景中墙壁和建筑边缘等区域的细节方面存在明显不足,问题包括边界模糊和结构坍塌。相比之下,SRMamba具有清晰的整体结构,并重建了连续的墙壁轮廓和相对完整的边缘结构。
基于范围视图的方法丢失了三维几何结构,导致模型过度关注区域二维图像特征,而忽略了点云在空间维度中的几何表示。这导致投影视图中的场景具有清晰的几何结构,如图9(a)所示,但在新视图中,点云表现出明显的离散性和断裂结构,如图9(c)所示。同时,点云场景的生成与输入范围视图1致,存在水平空洞区域。相比之下,作者提出的SRMamba方法通过双向扫描机制优化几何图像空洞并学习长距离依赖,关注点云场景的整体结构,并在多个视图中保持清晰的几何轮廓和空间一致性,如图9(b,d)所示。
4.4.2. 定量评估
Sparse点云的上采样是一项极具挑战性的任务。随着点云的Sparse度增加,上采样变得更加困难,再加上点云的密度随距离的增加而逐渐降低,这进一步加剧了重建难度。为了实现更精细的评价,作者比较分析了不同距离区间内的定量指标。如图10(a,b)所示,SRMamba在所有距离上均表现出优越性能,尤其是在40-50米的范围内,仍然保持了较高的精度。在nuScenes [49]数据集上,点云之间的距离误差显著高于KITTI-360 [48]数据集,这进一步凸显了Sparse场景中上采样的难度,如图10(c,d)所示。尽管如此,yinqing-SRMamba_2505在这样的复杂场景中仍然取得了更好的性能。
4.5. 消融研究
4.5.1. 范围图像
基于视差法的点云超分辨率重建中,距离图像的质量至关重要。由于距离图像在反向投影到三维空间后,微小的差异会被显著放大,直接影响到重建点云的几何精度和整体结构连贯性。
传统距离视图方法输出中存在大面积的空洞区域,这一特性对后续处理构成了根本性限制,使得图像超分辨率技术失效,如图11所示。霍夫投票有助于减少由空洞像素引起的结构断裂,并保持场景的连贯性。为进一步提升距离视图的质量,引入了空洞补偿机制,如图12所示。
语义信息更平滑。
4.5.2. 网络深度
为验证网络深度对SRMamba性能的影响,作者设计了一系列针对不同深度配置的消融实验。表4展示了SRMamba在不同模型深度下的定量评估结果,进一步验证了所提出的多层特征提取方法的有效性。
4.6. 失败案例
尽管SRMamba在nuScenes [49]数据集上的定性和定量评估结果显著优于其他方法,但在Sparse场景下对点云的上采样仍然面临严峻挑战,这个问题同样存在于高密度的KITTI-360 [48]数据集。如图13所示,在Sparse边缘区域,yinqing-SRMamba_2505仍然存在一些上采样误差。随着点云密度的降低,空间结构的不确定性增加,导致重建点云与真实点云之间的偏差进一步扩大。
- 结论
本文提出了一种名为SRMamba的新型方法,用于大规模低分辨率激光雷达点云超分辨率。其目标是以较低的计算成本重建逼真的三维场景。与依赖注意力机制进行特征提取的传统方法不同,SRMamba采用基于序列建模的双向扫描策略,有效捕捉长距离依赖关系。该方法在非投影视图中提升了重建质量,同时保持了线性时间复杂度。在KITTI和nuScenes数据集上的实验表明,该方法在重建精度和全局建模能力方面均表现出色。
未来的工作将探索在极端Sparse和具有挑战性的环境中进行点云超分辨率,例如雨、雾和雪。目标是解决环境干扰问题,并通过提高在复杂现实场景中的泛化能力来增强模型的鲁棒性。
点击上方卡片,关注「AI视界引擎」公众号