告别绝对坐标系!PRoPE编码革新多视角Transformer,首次统一内外参编码

点击下方名片,关注「集智书童」公众号


picture.image

精简阅读版本

本文主要解决了什么问题

多视角Transformer中的相机几何条件化问题 :如何将相机的内参(如焦距、主点)和外参(如旋转和平移)有效编码到视觉Transformer中,以提升多视角任务的性能。

绝对编码的局限性 :传统的射线图编码方式(如Plücker射线图)依赖于绝对坐标系,对参考帧的选择敏感,限制了模型的泛化能力。

相对编码的扩展性问题 :现有相对SE(3)编码(如CAPE、GTA)虽然提升了性能,但未能完整建模相机的内参信息,限制了其在变化内参场景下的表现。

本文的核心创新是什么

提出PRoPE(Projection Positional Encoding) :一种新型的相对位置编码方法,将完整的相机视锥(Frustum)几何信息(包括内参和外参)建模为相对位置关系,注入到Transformer的自注意力机制中。

PRoPE的理论特性

  • • 保持全局帧不变性(Global Frame Invariance);
  • • 可简化为相对SE(3)编码(当内参一致);
  • • 可退化为RoPE(用于单图像块位置编码)。

广泛验证其泛化能力 :将PRoPE集成到多个任务(如新视角合成、立体深度估计、空间认知)和多个模型架构(如LVSM、UniMatch、CAT3D)中,验证其有效性。

结果相较于以前的方法有哪些提升

在新视角合成(NVS)任务中表现更优

  • • 在RealEstate10K和Objaverse数据集上,PRoPE在PSNR、SSIM等指标上优于Plücker射线图、CAPE、GTA等方法;
  • • 特别是在内参变化的增强数据集上,PRoPE展现出显著优势。

更强的分布外泛化能力

  • • 在测试时使用更长的输入序列(如从2视图扩展到16视图)和分布外焦距(如1x到5x)时,PRoPE优于其他方法,表明其具备更强的外推能力。

任务泛化能力强

  • • 在立体深度估计(UniMatch)和判别性空间认知任务(DL3DV)中,PRoPE均显著提升了模型性能。

可扩展性良好

  • • 在更大规模模型(如LVSM、CAT3D)中,PRoPE依然带来了性能提升,且计算开销几乎可以忽略。

局限性总结

对相机参数的依赖性 :PRoPE需要准确的相机内参和外参作为输入,若输入参数存在噪声或误差,可能影响模型性能。

仅适用于已知相机参数的场景 :该方法目前主要面向已知相机几何的任务(如NeRF、SLAM等),不适用于无相机参数的纯视觉任务。

实现复杂度略高 :相比简单的射线图编码,PRoPE涉及更复杂的投影矩阵计算和注意力机制改造,可能增加实现和调试成本。

尚未在视频理解等动态场景中验证 :目前的实验集中在静态场景的多视角任务,未来可探索其在视频建模或动态场景中的应用。

总结

PRoPE通过将完整的相机几何信息(内参+外参)建模为相对位置编码,显著提升了多视角Transformer在多个任务和不同模型架构下的性能与泛化能力,尤其在处理变化内参和分布外输入时表现突出,具有广泛的应用前景。

深入阅读版本

导读

Transformer模型在多视角计算机视觉任务中应用日益广泛,其中视角间的几何关系对3D感知至关重要。为利用这些关系,多视角Transformer模型必须借助相机几何信息将视觉 Token Anchor 定在3D空间中。本研究中,作者对比了三种相机条件化Transformer的技术: Token 级射线图编码、注意力级相对位姿编码,以及作者提出的新型相对编码——投影位置编码(PRoPE),后者将相机完整 Frustum (包括内参和外参)捕获为相对位置编码。实验首先验证了相对相机条件化如何提升新视角合成中的前馈性能,并进一步展示了PRoPE带来的增益。这一效果在多种设置下均成立:包含共享和变化内参的场景、结合 Token 级和注意力级条件化、以及泛化到具有分布外序列长度和相机内参的输入。随后,作者验证了这些优势在不同任务(立体深度估计和判别性空间认知)以及更大模型规模下的持续性。代码已发布在作者的项目网页2上。

1 引言

作者世界的图像存在于其被捕捉的视角背景下。这些视角的几何结构——赋予像素坐标物理意义的内在和外在参数——将视觉观测数据 Anchor 定在3D空间中。这种空间 Anchor 定正变得越来越重要,尤其是在3D视觉和具身智能的进步使得多视角任务变得更加普遍的背景下。

为了使用Transformer解决多视图任务,模型必须将视图信息绑定到每个输入图像的 Patch Token 上。这种绑定需要特别小心:正如针对1D序列的朴素位置编码技术可能会阻碍语言模型的学习性能[1],相机几何的朴素编码也可能对多视图视觉模型不是最优的[2-4]。这两个领域的进展可以总结为从绝对编码[5]到相对编码的过渡[6]。

在本工作中,作者研究了在输入图像的相机几何形状上对视觉Transformer进行条件化的方法。作者调查了现有的相关技术,包括(i)像素对齐的、基于token Level 的射线图(raymaps)的绝对编码——这是近年来最先进的模型中最常见的编码方式[7-10]——以及(ii)基于SE(3)位姿关系的注意力 Level 的相对编码[3, 4]。随后,作者提出了一种新的相机条件化技术——投影位置编码(PRoPE),该技术旨在将相机的完整几何形状捕获为相对位置编码。PRoPE模型描述了观察视锥关系,这些关系既包含了内参也包含了外参,同时它还易于与标准Transformer架构和融合注意力核[11]相结合。

作者的主要实验涉及三个任务,涵盖六个数据集。作者首先进行了一系列研究,比较用于前馈新视角合成的相机条件技术。

RealEstate10K [12] 和 Objaverse [13]。作者的结果表明,相对编码(尤其是PRoPE)相较于绝对编码具有优势。随后,作者验证了这些优势在其他场景下的适用性:在将PRoPE集成到UniMatch [14]中进行跨三个基准的立体深度估计时,在使用DL3DV [15]进行的判别性空间认知任务中,以及在扩展到更大规模的新视角合成模型 [7, 8]时,均展示了性能提升。

作者的贡献如下:

    1. 调研。作者调研了多视图Transformer中相机几何的绝对射线图和相对SE(3)条件技术。
    1. 方法。作者提出了PRoPE(Projective Positional Encoding),一种新的相对位置编码技术,该技术将完整的相机几何信息——包括内参和外参——注入到Transformer的自注意力模块中。
    1. 评估。作者提出了一系列新颖视图合成(NVS)实验,通过实证方法比较相机条件技术。作者的结果证实了相对姿态编码方法如CAPE [4]和GTA [3]的优势,同时展示了PRoPE在不同设置中的进一步改进:具有共享内参的场景、具有变化内参的场景、结合了token级和注意力级表示的混合条件场景,以及对于分布外测试输入的泛化能力。
    1. 任务泛化。作者证明,当相机作为相对位置编码集成到UniMatch中时,其优势可泛化到(i)立体深度估计,(ii)判别性空间认知,以及(iii)扩展到更大模型规模的情况。

2 相关工作

绝对位置编码与相对位置编码。Transformer架构是置换不变的;因此它们需要显式的位置编码来理解序列输入中的 Token 顺序[5]。序列模型中的位置编码方法一直是研究的热点领域[1, 16-19]。早期工作[20-27]主要关注绝对位置编码(APE),而最近的方法越来越多地采用相对位置编码(RPE),特别是RoPE[28],作为跨领域的标准,包括自然语言处理[29, 30, 1, 31]和计算机视觉[32-34, 28, 35]。相对编码通过定义 Token 对之间的相对偏移来定义位置,从而改进模型。这些偏移被注入到标准的点积注意力[5]的成对交互中:

。位置偏移可以通过

矩阵的成对特性注入,通过加性偏差[6, 36, 37]或基于S0(2)的旋转[1]实现。RPE相较于APE具有显著优势,包括平移不变性、改进的关系建模以及泛化到长序列的能力[38, 1, 39]。在本工作中,作者研究了绝对编码和相对编码,用于在相机几何形状上对transformers进行条件化,而非1D位置。

多视图Transformer。许多计算机视觉任务是多视图的——它们将多个图像及其相机几何信息作为输入。例如,3D重建和视图合成[40-44]、姿态估计[45]、深度预测[14, 46, 47]、3D场景理解[48, 49]、机器人技术[50]和世界模型[51]等任务。许多近期研究利用视觉Transformer的改进缩放特性[22, 52, 53]来解决这些任务[8, 7, 9, 10, 54]。这些模型将输入图像分割成多个图像块,并将每个图像块作为Transformer的独立视觉 Token 。在本工作中,作者以LVSM[8]和UniMatch[14]提出的模型设计为基础,研究一个关键的设计决策——Transformer如何基于相机几何信息进行条件化。

Transformer中的相机条件化。目前,用于对多视图Transformer进行相机条件化的主流方法是射线图[45, 7, 8, 10]——每个像素包含的6D嵌入,这些嵌入包含射线原点和方向[44, 7]或普勒坐标[55, 45]。将这些参数连接到像素上,可以在token Level 对相机内参和外参进行条件化。然而,射线图需要定义一个参考系[56, 7, 57],这是一个问题,因为世界坐标系统的选择是任意的,并且可能阻碍泛化。尽管这个问题可以通过归一化相机姿态[58, 57, 8]部分解决,但已有研究表明,通过相对编码[2-4]可以实现更根本的解决方案。值得注意的是,捕捉相对SE(3)姿态的注意力 Level 编码不需要定义一个一致的全局参考系,与融合注意力核[11]兼容,并且已被证明可以提高新视角合成性能[3, 4]。在下一节中,作者将调查绝对射线图和相对SE(3)方法,用于对Transformer进行相机几何编码。然后,作者提出了一种新的相对编码方法PRoPE,该方法将更完整的相机视锥之间的关系表示为相对位置编码。

3 基于相机的Transformer条件化

在本工作中,作者评估了基于相机几何对多视图视觉Transformer进行条件化的技术。为了描述这些方法,作者首先回顾了用于定义相机视点的投影矩阵。然后,作者描述了它们与现有几何编码技术的联系:包括绝对、基于token的编码形式(如射线图)和相对、基于注意力层的SE(3)姿态编码。接着,作者介绍了PRoPE:一种基于GTA[3]构建的相机条件化技术。

3.1 预备知识

在这项工作中,作者研究了以

张来自已知相机的图像为输入的Transformer模型:

Extra open brace or missing close brace

其中,每个

是一张图像,

是相机内参,而

是从世界坐标到相机坐标的变换。后两项编码了对应每张图像的 Frustum :内参捕捉 Frustum 的形状和视场,而外参捕捉位置和方向。这些被封装在"世界到图像"投影矩阵

中。

为了方便记号,这些

投影矩阵可以通过提升到

并使用标准基向量

来使其可逆。

该变换将3D世界坐标映射到由相机

的视锥定义的投影图像空间。它可以用于根据世界坐标计算2D图像坐标:

其中

分别是图像和世界中的齐次坐标。可以使用逆关系从2D图像坐标计算3D空间中的射线方向。对于齐次图像坐标

其中

是一个标量大小,

是一个单位范数的射线方向。

3.2 像素对齐几何编码

基于token Level 且像素对齐的射线图是多视图Transformer中编码几何信息的主要方法[7, 42, 10, 9]。采用射线图的网络通过通道维度将图像

与逐像素射线图

进行拼接,从而将输入扩展至RH W(3+R)。计算这些射线图主要有两种方法,作者将其称为"朴素"方法和普吕克方法。

朴素射线映射。朴素射线映射[7]根据每个像素的起源和方向向量进行计算:

每个射线方向

使用

根据公式6进行计算。

Pluicker光线图。Plucker光线图[45, 8]可以通过用矩量项替换朴素光线图中的原点项来实现:

这一项使得射线表示对射线原点的选择保持不变。

特性。射线映射提供了一种简单的方法,用于基于相机内参和外参进行条件化。然而,一个重要的缺点是它们是绝对的:类似于早期用于1D序列的位置编码技术[5],射线映射以全局术语表示。因此,它们对参考框架的任意选择很敏感,这可能阻碍泛化。

3.3 相对SE(3)编码

符号说明。为了形式化注意力级几何编码所需的操作,作者记号批量矩阵向量积

、克罗内克积

以及单位矩阵

。作者使用

表示图像/相机索引,使用

表示块/ Token 索引。

是块

所在图像的索引。

矩阵的行用下标

标注。批量矩阵向量积定义为:

作者使用

表示一批块对角矩阵,其中

中的每个矩阵下标为

。CaPE [4] 通过在将

矩阵传递给自注意力机制之前对其进行变换,注入相对 SE(3) 位姿。CaPE 可以使用每个token的块对角矩阵

来形式化,该矩阵通过对相机外参进行对角重复计算得到。

类似于RoPE [1],在自注意力机制之前会对

矩阵进行变换。这可以封装为一个增强型自注意力模块:

这种影响是,在

中的每个

的点积被替换为:

,从而基于相对姿态对输出进行条件化。

GTA [3]提出了一种用于每个token的变换的公式,其High-Level目标与CaPE相似。GTA的注意力变体以相同的方式转换

矩阵,同时 Proposal 也转换

矩阵:

这还带来了将相对变换注入注意力算子的值聚合过程的额外好处。每个 Token

的注意力层输出变为

其中

是由转换后的点积(公式14)计算得到的softmax分数。GTA的实验[3]比较了基于SE(3)的几种

的公式,包括有值矩阵转换和无值矩阵转换的情况。表现最佳的方法包括值转换,以及用于相机姿态的SE(3)和用于2D图像块位置的RoPE[1]。作者的实验包含了使用这些术语的GTA。

3.4 投影位置编码(PRoPE)

作者在研究中引入了一种新的相对位置编码方法,称之为PRoPE。PRoPE的核心观察是,现有的相对编码技术所考虑的SE(3)姿态仅是相机几何的局部表示。PRoPE不是仅通过每个相机

和相机

的姿态

来建立关联,而是利用完整视场的投影关系。

这个

矩阵可以被解释为每个相机定义的局部射影空间之间的变换;它编码了相机视图之间的完整几何关系。正如作者在公式21中将要看到的,它还保留了基于SE(3)的相对编码的关键全局不变性特性。

为了实现PRoPE,作者定义了一组新的

矩阵,并使用GTA风格的注意力机制(公式15)将它们注入Transformer模块中。作者设计这些矩阵的目的是(1)编码相机之间的视锥关系——这利用了公式17中的投影关系——以及(2)编码相机内的相对块位置——这遵循GTA [3]并使用RoPE项。这些目标通过互补的子矩阵实现,每个子矩阵的形状为

Extra close brace or missing open brace

在这些定义中,

构建了

旋转嵌入 [1] 用于

,这些是 Token

属性的块坐标。PRoPE 具有若干重要特性,当展开投影变换时这些特性将更加明显:

作者观察到:

    1. 全局帧不变性。重新定义世界帧相当于对

项进行右乘,这在方程21中代数消除了。 2. 2. 简化为相对

注意力。对于具有单位内参的相机,公式21简化为CAPE和GTA中使用的相对

变换。这些方法可以解释为PRoPE的一种情况,其中内参矩阵被设置为单位矩阵。 3. 3. 简化为RoPE [28]. 方程21对于来自同一图像的块计算结果为恒等式。对于这些token对,PRoPE简化为

中的剩余项:单图像视觉Transformer使用的RoPE项。

4 实验

作者实验的目标是理解相机条件技术(包括PRoPE)如何影响多视图Transformer的性能。为此,作者提出了在多种任务和评估条件下比较编码策略的实验。

作者按以下结构组织研究。首先介绍基本实验设置(第4.1节),接着对相机几何的绝对编码和相对编码进行实证比较(第4.2节)。随后,作者更详细地评估PRoPE理解相机内参的能力(第4.3节),并探讨结合注意力层级和 Token 层级条件化的混合方法(第4.4节)。最后,作者展示关于泛化能力的研究:针对分布外测试输入(第4.5节),附加任务(第4.6节),以及扩展到更大模型和更多计算资源时(第4.7节)。

4.1 实验设置

作者包含了多种相机条件化技术的指标——Naive和Plicker射线图编码、CAPE[4]、GTA[3]以及PRoPE。在作者的实验中,GTA指的是[3]研究过的

变体,其中SO(2)指的是在块位置上的RoPE。如第3.4节所述,PRoPE采用了GTA提出的自注意力机制和RoPE组合。因此,PRoPE与GTA的主要区别在于使用了相对投影关系而不是相机之间的相对SE(3)关系。

作者还包括了其他任务的结果(第4.6节),但作者的核心实验评估了使用前馈新视角合成(NVS)的相机条件技术。NVS是一个理想的基准任务,因为它需要细粒度的几何推理:模型在仅给定校准参考图像和目标相机参数的情况下被训练以从目标视点渲染场景。作者通过重新实现和训练LVSM[8]的变体来完成这一点,LVSM是一种最先进的新视角合成方法,最初使用Pluicker光线图编码相机几何。作者在RealEstate10K[12]和Objaverse[13]数据集上分别进行训练和评估。RealEstate10K中的每个场景都使用相同的相机(即恒定的内参),但不同场景之间的相机可以不同。另一方面,作者使用的Objaverse渲染在整个数据集中使用相同的相机内参。

作者采取了多个步骤来确保评估的公平性。模型在相同的代码库中训练,使用匹配的超参数和优化步骤。当不使用射线图作为输入时(CAPE [4]、GTA [3] 和 PRoPE),作者对图像进行固定嵌入的填充;这使得所有实验使用相同的输入、输出和整体模型尺寸。最后,虽然作者的初始实验使用较小的模型尺寸(

参数),但作者也在第4.7节验证了更大的模型。更多细节请参见附录A.1.1。

4.2 相对位置编码与绝对位置编码

表1展示了四种编码技术在两个数据集上的结果,并将在下文中进行讨论。

picture.image

相对编码优于绝对编码。与先前工作[4, 3]一致,作者观察到相机几何的相对编码始终优于绝对编码。CAPE、GTA和

PRoPE在广泛使用的Pluicker raymaps上均实现了更高的产量提升,其中PRoPE(紧随其后的是GTA)取得了最佳效果。

投影位置编码提升了视图合成质量。PRoPE在RealEstate10K数据集[12]的各项指标上始终优于其他编码方法,尽管该数据集的内部参数变化有限。这证实了在作者的相对编码中捕捉更完整的相机信息(包括内部参数和外部参数)是有益的。作者还发现,当训练和测试图像都具有恒定的内部参数时,性能没有损失:在Objaverse数据集上,GTA[3]和PRoPE产生了相同的指标,这进一步验证了当模型不需要关注相机内部参数时,PRoPE简化为GTA。

4.3 注意力层级内在条件

实际数据通常涉及不同的相机和焦距——例如自动驾驶汽车的多视角装置或便携式相机的变焦镜头。理解内参的能力是PRoPE的相对相机编码与先前相对位姿编码技术的主要区别。然而,现有的RealEstate10K [12]等数据集通常使用固定相机设置来模拟多视角场景,所有视角的内参都相同。

为了理解PRoPE在编码内在信息方面的有效性,作者评估了每种条件方法在RealEstate10K [12]和Objaverse [13]数据集的内在信息增强版本上的表现。作者对RealEstate10K通过将均匀采样的[1, 3]范围内的缩放因子应用于每张图像进行增强。对于Objaverse,作者将其视场从常数切换为在35至50度之间均匀采样的视场。与第4.2节相比,这意味着场景中的相机可以在外参和内参方面发生变化。作者在表2中展示了定量结果,在图A.1中展示了定性结果,并在下方展示发现。

picture.image

PRoPE能够实现内在感知的多视图理解。作者观察到PRoPE在两个数据集上都优于所有其他相机条件技术。现有的基于注意力的方法,让网络在相对姿态上条件化,在缺乏内在知识的情况下表现不佳。虽然token级的射线图携带了足够的相机信息,但它们整体上表现不如PRoPE的相对条件化公式。

4.4 混合编码策略

基于token和注意力层面的相机编码需要对Transformer架构的不同部分进行修改。因此,它们彼此兼容:两种条件风格可以同时使用。为了在同时探索这些"混合"条件策略(图2)的同时,将PRoPE与一个更强的 Baseline 进行比较,作者训练了LVSM变体,这些变体将相对编码与局部、相机帧射线图相结合:

picture.image

作者称这种射线映射为CamRay。CamRay与现有的射线映射具有许多相似之处(第3.2节)——它编码了内参,是像素对齐的,并且可以与输入图像连接——但它不依赖于绝对坐标系。因此,它可以与相对姿态和相机编码技术结合使用,而不会牺牲全局帧不变性。正如作者在第4.6节所观察到的,这为Plucker射线映射提供了实证优势。

CamRay可被理解为相机内参的token级编码。因此,作者使用第4.3节中描述的内参增强NVS数据集对其进行评估。结果报告在表3中,并在下文进行讨论。

picture.image

PRoPE能够有效地编码相机几何信息。在RealEstate10K和Objaverse数据集上,作者观察到PRoPE的表现与GTA

CamRay相当或更优,尽管它们包含相同的信息。PRoPE的设计也更为简洁:它仅在注意力层面应用,而GTA

CamRay则同时包含注意力层面和token层面的项。将CamRay与PRoPE结合使用,能够进一步提升视图合成的质量。

基于token Level 和注意力 Level 的调节技术是互补的。GTA和PRoPE都受益于额外的CamRay输入。GTA受益更为显著:这可以解释为标准基于SE(3)的GTA公式并未编码内在属性。

4.5 分布外鲁棒性

一种解释相对相机编码优于绝对编码的假设是泛化特性的提升;这与RoPE [28] 能够提升语言模型性能的原因相似。为验证这一点,作者使用引入序列长度和内禀参数分布偏移的测试时设置对条件化方法进行基准测试(图3)。这使作者能够评估不同相机条件化技术对未见相机配置鲁棒性的影响。

picture.image

设置1:测试时更长的输入序列。受测试时上下文长度外推[59. 60]的启发,作者的第一个设置部署了使用固定数量输入视图(在作者的实验中为2个)训练的NVS模型,在测试时显著增加到更多视图(最多16个)。这在实际场景中尤为重要,因为观察的数量在不同应用中可能会有很大差异,有时还会动态增加。

设置2:测试时分布外内在特性。作者的第二个设置评估模型在测试时处理不同焦距的能力。这至关重要,因为焦距在不同相机和变焦 Level 之间可能存在显著差异,为每种可能的焦距训练单独的模型是不切实际的。作者使用从训练焦距的

的焦距测试模型,模拟在部署期间看到更多变焦图像的场景。

相对编码能够提升泛化能力;PRoPE优于其他方法。在RealEstate10K [12] 数据集上的评估结果汇总于图4,相关可视化结果展示在图5和图6中。作者观察到三点主要结论。首先,虽然Pluicker Raymap比CAPE和GTA编码了更完整的相机信息,但在所有设置下它始终表现不佳——即使当内参信息至关重要时也是如此。其次,与所有其他方法相比,PRoPE在分布外设置中展现出更好的性能和鲁棒性,尤其是在处理分布外焦距时。这表明显式建模相机之间的相对投影关系比仅建模相对SE(3)关系(如GTA和CAPE所做)更有效。最后,作者发现将CamRay添加到PRoPE实际上会损害内参外推的性能;这表明PRoPE在内参外推方面具有独特优势。

picture.image

picture.image

picture.image

4.6 任务泛化

与作者的研究结果类似,先前关于相对姿态编码[3, 4]的多视图Transformer的研究主要集中于新视角合成实验。为了更好地理解这些结论的泛化能力,作者将在两个新任务中评估PRoPE:使用UniMatch[14]进行立体深度估计,以及围绕DL3DV[15]设计的空间认知任务。

立体深度估计。作者使用UniMatch [14]来设置这项任务,这是一个在下游应用中广泛采用的预训练多视图Transformer [64-67]。UniMatch最初是在三个不同的任务上训练的;作者专注于立体深度估计任务,该任务假设输入视图之间的相对相机姿态是已知的。作者使用PRoPE将相机信息整合到UniMatch的跨视图注意力机制中,仅修改了官方代码中的约50行。所有模型都遵循原始论文中描述的完全相同的训练协议。

空间认知。接下来,作者设计了一个受[68]启发的空间认知任务。与视图合成和深度估计不同,后者依赖于精确的几何理解以生成连续输出,作者的空间认知任务提供了一种判别性输出,用于评估多视图理解能力。在该任务中,系统被给予同一场景的多个图像,每个图像都附带相机信息。该问题的设计方式是,仅通过分析相机信息、仅通过分析图像,或在不推理所有输入之间的多视图关系的情况下都无法解决。其中一对图像-相机信息被故意损坏,通过从其他帧中采样分配给它一个错误的相机姿态。然后,系统被要求根据几何一致性识别出错误的图像-相机对。有关实现细节,请参见附录A.1.3,输入和期望输出的示例请参见图A.3。

PRoPE的优势能够泛化到不同任务中。对于深度估计,作者在表4中提供了定量结果,在图7中展示了定性结果。对于空间认知,作者在表5中提供了准确率指标。作者发现PRoPE在两个任务中都显著提升了多视角理解能力。在作者的空间认知任务中,作者观察到随着测试时视角数量的增加,使用PRoPE的性能持续提升,而Pluicker raymaps则未表现出相同趋势。作者还观察到,当用CamRay替换Pluicker时性能有所提升,这表明绝对外参信息阻碍了模型的泛化能力。

picture.image

picture.image

picture.image

4.7 PRoPE的扩展

在作者的最终实验集中,作者评估了相对相机编码的优势如何扩展到具有更多计算资源的更大模型。为此,作者进行了两项实验,具体讨论如下。

PRoPE的优势在LVSM规模扩展时依然存在。最后,作者使用约100倍的更多计算资源扩展了作者的LVSM训练流程(详细信息列于附录A.1.1)。作者训练了该较大LVSM模型的两个变体:一个遵循原始LVSM论文[8]并使用Plucker射线,另一个集成了PRoPE。结果报告在表6中,作者观察到相对PRoPE编码继续提升模型质量——在更大资源训练的模型变体上,提升幅度虽较小但仍明显。

picture.image

PRoPE提升了CAT3D的性能。在原始作者的帮助下,作者将PRoPE添加到并重新训练了CAT3D [7],这是一个基于朴素射线图的较大多视图扩散模型。作者在表7中报告了该模型的指标。PRoPE在各项指标上均表现出一致的性能提升,同时并未引入额外的模型参数,且计算开销可以忽略不计。

picture.image

5 结论与未来工作

在这项工作中,作者提出了一种关于多视角Transformer的相机条件化研究,重点在于相对编码,用于建模视角之间的关系。作者的实验强调了将相机表示为相对位置编码——特别是能够同时捕捉相机内参和外参的相对编码——如何提升多视角Transformer的性能及其在不同设置和任务中的泛化能力。作者希望这些结果能够为未来多视角计算机视觉模型的设计提供指导。

参考

[1]. Cameras as Relative Positional Encoding

0
0
0
0
评论
未登录
暂无评论