点击下方卡片,关注「AI视界引擎」公众号
( 添加时备注:方向+学校/公司+昵称/姓名 )
Image
作者提出 2Dto3D-SR,一个用于实时单视角 3D 超分辨率的通用框架,该框架无需高分辨率 RGB 引导。08224将单视角的 3D 数据编码为结构化的 2D 表示,从而可直接应用现有的 2D 图像超分辨率架构。
作者采用投影归一化坐标编码(Projected Normalized Coordinate Code, PNCC)将可见表面的 3D 几何信息表示为规则图像,从而规避了基于 3D 点云或 RGB 引导方法的复杂性。该设计支持轻量级且快速的模型,适用于多种部署环境。
作者对 2Dto3D-SR 进行了两种实现:一种采用 Swin Transformer 以实现高精度,另一种采用 Vision Mamba 以实现高效率。
实验表明,Swin Transformer 模型在标准基准上达到了最先进的精度,而 Vision Mamba 模型在实时速度下仍能取得具有竞争力的性能。
这表明作者的几何引导流水线在实际场景中是一种出人意料地简单、可行且实用的解决方案,尤其适用于无法获取高分辨率 RGB 数据的场景。
1 引言
单视角 3D 超分辨率(Single-view 3D Super-Resolution, SR)旨在从单个视角的低分辨率观测(如深度图或点云(可见表面))中重建出高分辨率几何结构。该任务在机器人技术和 AR/VR 应用中至关重要。现有方法主要分为两类:点云上采样方法(适用于任意类型的点云),如 PU-Net [1],以及深度超分辨率(Depth Super-Resolution, DSR)技术,如 DJF [2]。前者直接作用于 3D 数据,但通常需要复杂的处理流程或迭代优化,限制了其在实时场景中的应用。后者计算开销较低,但通常依赖高分辨率(HR)RGB 图像来补充缺失的几何上下文信息,从而引入了额外的输入依赖和计算负担。
Image
为克服这些挑战,作者提出了 2Dto3D-SR,一个通用框架,将单视图3D 超分辨率(3D SR)重构为以 2D 图像为导向的问题。通过将 3D 几何信息编码为结构化的 2D 表示,作者可以充分利用 2D 图像超分辨率(ISR)架构所取得的广泛进展和高效率。在本工作中,作者采用投影归一化坐标编码(Projected Normalized Coordinate Code, PNCC)[3] 作为几何表示,验证了该框架的潜力。该方法无需高分辨率(HR)RGB 图像作为引导,同时避免了昂贵的 3D 操作。作者的主要贡献包括:(1) 提出了一种基于 2D SR 模型的无引导单视图3D SR 框架;(2) 验证了 PNCC 作为该任务中有效 2D 表示的可行性;(3) 提出了两种基于 Swin Transformer 和 Vision Mamba 的高效实现,即使在没有 HR RGB 输入的情况下,也能在标准 DSR 基准上实现最先进的精度和实时性能。
2 相关工作
3D到2D表示。尽管传统的3D数据2D表示方法(如深度图或UV图)较为简单,但通常会丢失几何上下文信息。一种更结构化的替代方案是来自3DDFA [3]的投影归一化坐标编码(Projected Normalized Coordinate Code, PNCC),该方法将3D坐标编码为RGB图像(详见第3.2节)。PNCC已被用于3D人像合成 [4] 和细粒度重建 [5] 等应用,但据作者所知,其在单视角3D超分辨率任务中的应用尚属首次。
图像超分辨率(Image Super-Resolution, ISR)。ISR 已从早期的 CNN 模型(如 SRCNN [6] 和 ESPCN [7])发展到兼顾保真度与效率的先进模型。SRGAN [8] 引入了感知真实感,后续由 ESRGAN [9] 进一步优化。注意力机制与 Transformer 的引入进一步推动了该领域的发展,RCAN [10] 采用通道注意力机制,SwinIR [11] 则应用了 Swin Transformer。这一方向随后被 SwinFIR [12] 和 HAT [13] 扩展,分别引入频率模块与混合注意力机制。尽管扩散模型(如 SRDiff [14])能够实现高质量重建,但其计算开销巨大;而 ResShift [15]、FSRDiff [16] 和 AddSR [17] 等方法则致力于提升效率。针对轻量级应用,DRCT [18]、HMANet [19]、CPAT [20]、EDT [21] 和 DVMSR [22] 等模型专注于架构优化或高效训练策略(DVMSR 采用 Vision Mamba 架构,与本文工作密切相关,因此本文也将采用该架构)。
深度超分辨率(Depth Super-Resolution, DSR)。大多数DSR方法采用引导式策略,利用高分辨率(High Resolution, HR)辅助输入(如RGB图像)来增强低分辨率(Low Resolution, LR)深度图。早期工作将联合滤波扩展至深度学习领域,DJF [2] 和 DJFN [23] 建立了基于CNN的引导机制,DMSG [24] 探索了多尺度融合,PAC [25] 引入了像素自适应卷积,DKN [26] 采用可变形卷积核。JIIF [27] 将深度建模为隐式函数以提升可解释性。近期模型则引入更丰富的引导信息:DCTNet [28] 利用频域学习,SUFT [29] 采用不确定性感知特征传输,RSAG [30] 使用结构注意力(Structure Attention)。图结构也受到关注 [31]。当前最先进方法SGNet [32] 融合梯度与频域线索。然而,上述所有方法均依赖于高质量对齐的HR RGB数据。相比之下,无引导DSR(如CAIRL [33])仍处于探索阶段。尽管这类方法在精度上仍落后于引导式方法,但在RGB不可用的场景中至关重要,例如设备缺失或信号缺失等情况,因而推动了对鲁棒的RGB无关解决方案的研究。
点云上采样(Point Cloud Upsampling, PCU)。PCU旨在从Sparse点云生成稠密点云。PU-Net [1] 首次引入基于局部块的深度PCU方法,而基于图的方法如PU-GCN [34] 和 ARGCN [35] 更好地捕捉了全局上下文信息,其中后者引入了对抗性训练。其他方法包括在PU-GAN [36] 中采用受Transformer启发的特征的生成对抗网络(GANs),在Grad-PU [37] 中使用基于梯度的损失函数,以及在PU-Ray [38] 中引入基于射线的先验知识。RepKPU [39] 和 APU-LDI [40] 探索了改进的表示学习与插值策略。
尽管取得了这些进展,PCU方法通常计算开销较大,且依赖迭代优化,因此难以适用于实时应用场景。
3 方法论
3.1 Pipeline 概述
08224通过将输入的3D数据转换为选定的2D表示形式,随后在该表示上应用2D超分辨率(Super-Resolution, SR)模型。该表示需满足以下几项要求:必须仅编码几何信息,以确保在无需RGB或其他辅助输入的情况下正常运行;必须能够从单一视角实现可逆性,以支持无损恢复;同时必须保持类似图像的结构,以保证与标准2D SR架构的兼容性。SR模型本身必须为无引导(unguided)模型,仅依赖低分辨率(Low-Resolution, LR)表示进行操作。
3.2 PNCC 作为 2D 表示
Image
如第3.1节所述,选择合适的3D表示方法至关重要。尽管深度图缺乏空间细节,而点云与2D超分辨率(SR)模型不兼容,作者采用PNCC。如图2所示,PNCC将场景点的归一化3D坐标
编码为对应像素的
值。这种方法在保持完整单视角几何信息的同时,以兼容标准2D架构的格式进行表示,因而成为08224中的有力选择。尤为重要的是,PNCC还可逆地还原为深度图和点云。
给定深度图
和相机内参
,作者计算 PNCC 如下:
其中
为缩放因子。坐标随后被归一化以适应 RGB 范围,同时保持宽高比。深度无效的像素将从损失计算和评估中排除,并使用最近邻插值进行填充以保证稳定性。该过程基于与分辨率相关的相机内参。
PNCC 存储可见表面的归一化 XYZ 坐标。通过将每个有效像素的坐标去归一化并跳过无效像素,即可恢复点云。类似地,深度图可通过直接对蓝色通道(Z)进行去归一化获得。
3.3 2D 超分辨率架构
作者为本框架适配了两种领先的2D ISR模型:
• SwinT-PNCC:基于高精度的SwinIR [11] 架构,该模型采用Swin Transformer作为主干网络进行深度特征提取。
• VM-PNCC:基于高效性出色的DVMSR [22],采用Vision Mamba主干网络以实现实时处理速度。
SwinIR 和 DVMSR 架构在各自的论文中有详细描述,二者均采用低层特征提取器和高层(主干网络,Backbone)特征提取器,随后通过一个上采样 CNN 融合这些特征。
作者实现了每种策略的两种变体,均以 PNCC 作为输入:一种预测完整的 PNCC(XYZ),另一种仅预测 Z 通道(深度),以便如 3.2 节所述进行后续 PNCC 计算。作者在第 4.2 节中对该选择进行了消融实验(预测 XYZ 与仅预测 Z 的对比)。
两个模型均在PNCC数据上从零开始训练,使用像素级的Charbonnier损失函数。
4 实验与结果
4.1 实验设置
作者将在双三次插值 Baseline 以及多种前沿引导式方法上评估08224。作为参考,作者在标准的 NYUv2 基准测试上与 GraphSR [31] 和 DCTNet [28] 报告的结果进行对比(使用 SGNet 预处理版本进行对比)。为了在所有测试集上实现直接且可控的比较,作者选择 SGNet [32] 作为主要 Baseline ,因其代表了当前表现最佳的引导式方法。为保证公平性,SGNet 与08224均在作者自定义处理的、几何对齐的 NYUv2 数据集版本 [41] 上进行训练(该版本允许作者进行额外的定性对比,因为 SGNet 的数据集版本在可视化时对齐效果不佳)。下一节将详细说明该数据集的构建过程。作者在 Middlebury [42] 和真实世界 RGB-D-D [43] 数据集上测试模型的泛化能力。尽管作者最初考虑使用 Lu 数据集 [44],但由于其缺少关键参数且对 Middlebury 以外的贡献有限,最终将其排除。性能以在有效深度区域的 RMSE(cm)衡量,分别在
、
和
缩放尺度下评估。有效性通过推理时间与参数量进行衡量(所有测试均在 NVIDIA RTX A6000 GPU 上进行)。
对于(对齐良好的)NYUv2 和 Middlebury 数据集,作者通过双三次下采样原始深度图生成低分辨率(Low-Resolution, LR)输入,并通过最小池化(min-pooling)高分辨率(High-Resolution, HR) Mask 来生成相应的有效 Mask ,以确保空间一致性(详见第3.2节)。RGB-D-D 数据集本身已包含来自不同设备的真实世界 HR 和 LR 采集数据,呈现出真实的域差距(domain gap)。针对该数据集,作者通过额外的双三次下采样构建
的图像对,以匹配作者目标的分辨率比例。所有模型均在正确对齐的 NYUv2 训练集上进行训练,并在 NYUv2 测试集、Middlebury 和 RGB-D-D 上进行评估。用于生成 PNCCs 的方法如第3.2节所述,使用各数据集对应的内参(intrinsics)。
4.2 结果
Image
尽管像Grad-PU [37]这样的点云上采样方法在3D超分辨率任务中是自然的选择,但在单视角场景下表现不佳。尽管其模型体积紧凑,Grad-PU由于其迭代性质,仍存在性能受限和运行时间较长的问题(见表1)。因此,作者排除基于点的方法,转而专注于基于图像的Depth Super-Resolution(深度超分辨率)。
Image
在对齐不准确的 NYUv2 基准测试版本上(表4.2),尽管08224未达到 SGNet 和 DCTNet 的精度水平,但其运行时间与模型规模显著降低(同时优于 GraphSR)。在对齐良好的版本上(表4.2),08224在 ×4 和 ×8 缩放下均优于 SGNet,且在 ×16 下仍保持竞争力,同时速度提升最高达 ×18。在 Middlebury 数据集上进一步验证了模型的泛化能力,SGNet 在更高缩放倍数下性能显著下降,甚至低于双三次插值(bicubic)。相比之下,08224在所有缩放尺度下均保持优异性能。在具有挑战性的 RGB-D-D 数据集上,尽管存在传感器噪声和自然退化,08224仍明显优于 SGNet 和双三次插值。所有表中,各实验的最佳值均以粗体标出。双三次插值(bicubic)虽列于表中,但未参与本对比。
- 结果来自原始论文 [31, 28]。
总体而言,08224在无引导深度超分辨率任务中达到了最先进(state-of-the-art)的性能,同时在速度、模型规模以及跨数据集和真实场景条件下的鲁棒性方面均有显著提升。
作者提供了SwinT-PNCC、SGNet与双三次插值(bicubic upsampling)之间的定性对比,以支持作者的定量结果。
Image
为了更准确地评估空间精度,图4展示了RGB-D-D重建点云在相同尺度下的两个3D视角。深度图通过内参矩阵进行逆投影,高分辨率RGB图像仅用于渲染。SwinT-PNCC生成的几何结构最为一致,表面平滑且结构准确。SGNet相较于双三次插值有所提升,但引入了噪声伪影,而08224有效避免了此类问题(SGNet结果中帽状物周围的离群点即为明显例证),凸显了其更优的真实感与一致性。
消融实验:预测XYZ与仅预测Z。作者比较了两种输出策略在从...重建3D几何结构方面的表现。
PNCC输入。第一个分支预测全部三个PNCC通道(XYZ),而第二个分支仅预测Z分量(深度),利用已知相机内参的投影技术(第3.2节)恢复完整的几何结构。后者通过将输出约束在相机光线上,强制实现几何一致性。如表4所示,仅预测深度即可获得相当或略优的RMSE,这可能归因于与场景几何结构的更好对齐。
Image
消融实验:以深度图作为输入。为了评估在本方法中使用PNCC表示所带来的改进,作者在对齐的NYUv2数据集(x4上采样)上,对比了使用深度图作为输入的VM-Depth方法与采用PNCC的标准方法。对比结果详见表5。该结果表明,相较于简单的深度图,PNCC表示在单视角3D超分辨率任务中具有更优的性能,仅通过改变输入方式即可带来显著提升。
5 结论
在本工作中,作者提出了 2Dto3D-SR,一种用于单视角 3D 超分辨率的通用框架,该框架利用 3D 几何的 2D 表示。作者验证了 PNCC 作为紧凑且可逆编码的有效性,实现了两种变体:SwinT-PNCC(Swin Transformer)和 VM-PNCC(Vision Mamba),以展示该框架的灵活性。
08224在多个基准测试中实现了最先进的精度与效率,且无需依赖 RGB 引导,为 2D 模型与 3D 数据增强之间提供了一条高效桥梁。尽管当前单视角设计在某些应用中可能存在局限性,但该框架可扩展至多视角设置。未来工作将聚焦于此方向,同时探索其他类型的 3D 数据增强方法。
参考
[1]. 2D REPRESENTATION FOR UNGUIDED SINGLE-VIEW 3D SUPER-RESOLUTION IN REAL-TIME
点击上方卡片,关注「AI视界引擎」公众号
