FlexWorld:引入视频到视频扩散模型与渐进扩展过程,从单张图像高效生成灵活视角3D 场景 !

大模型向量数据库机器学习

备注好友:方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

picture.image

从单张图像生成具有灵活视角的三维场景,包括360°旋转和缩放,面临挑战,主要原因是缺乏三维数据。为此,作者引入了FlexWorld,这是一个新颖的框架,包含两个核心组件:

(1) 强大的视频到视频(V2V)扩散模型,可以从粗糙场景中的不完整输入渲染生成高质量的新视角图像;

(2) 渐进扩展过程,用于构建完整的三维场景。特别是,利用先进的预训练视频模型和精确的深度估计训练对,作者的V2V模型可以在大相机姿态变化下生成新视角。

在此基础上,FlexWorld 逐步生成新的三维内容,并通过几何感知场景融合将其集成到全局场景中。

广泛的实验表明,FlexWorld 在从单张图像生成高质量的新视角视频和灵活视角三维场景方面非常有效,在多个流行指标和数据集上,其视觉质量优于现有最先进的方法。

定性地,作者强调FlexWorld 可以生成高保真度的具有灵活视角的场景,例如360°旋转和缩放。

项目页面:https://ml-gsai.github.io/FlexWorld。

1 Introduction

从单张图像创建具有灵活视角的3D场景,在直接获取3D数据成本高或不切实际的应用领域(如考古保护和自主导航)中具有变革性潜力。然而,这一任务本质上仍然存在困难:单一的2D观测无法提供足够的信息来消除完整的3D结构歧义。特别是,在推理到极端视角(例如,180°旋转)时,之前被遮挡或完全不存在的内容可能会出现,从而引入显著的不确定性。

生成模型,尤其是扩散模型[16, 42, 43],为解决这一问题提供了原则性和有效的方法。虽然现有的方法通常依赖预训练的生成模型作为新颖视图合成的先验知识,但它们面临显著的局限性。基于图像的扩散方法[9, 50, 64, 65]往往会积累几何误差,而基于视频的扩散方法[13, 55]则难以处理动态内容和摄像头监督不足的问题。最近尝试通过引入点云先验以提高一致性的工作[33, 66]显示出前景,但仍然在可扩展性方面受到限制,常常在视角变化较大时失效。

为了实现这一目标,作者提出了FlexWorld,用于从单张图像生成灵活视角的3D场景。与现有方法[29, 44, 67]不同,FlexWorld通过合成和整合新的3D内容逐步扩展持久化的3D表示。FlexWorld包含两个关键组件:

(1) 一个强大的视频到视频(V2V)扩散模型,该模型能够根据粗略场景渲染出的不完整视图生成完整的视图图像;

(2) 一种几何感知的3D场景扩展过程,该过程提取新的3D内容并将其整合到全局结构中。特别是,作者对一个先进的视频基础模型[62]进行了微调,使其能够在大范围相机变化下生成高质量的内容。

基于V2V模型,场景扩展过程采用摄像机轨迹规划、场景融合以及细化过程,逐步从单张图像构建出详细的3D场景。

作者的广泛实验表明,FlexWorld 在高质量视频和灵活视角三维场景合成方面均表现出色。特别是,作者的 V2V 模型在视觉质量上优于当前最先进的 Baseline 方法 ,同时在多个基准测试 [23, 72] 上保持了出色的相机可控性(见表1)。对于三维场景生成基准测试也得到了类似结论(见总结部分)。作者的主要贡献包括:

picture.image

  1. 作者提出了Flex World,这是一个渐进框架,用于灵活视角场景生成,通过利用一致的视频序列来扩展和构建场景。
  2. 作者展示了一种在精心设计的数据集上微调的视频到视频扩散模型,能够在大幅相机变化的情况下生成新颖视角,并确保与现有场景的一致性。
  3. 在各种基准数据集[23, 72]上,FlexWorld 在视频和场景生成方面均展现出优于 Baseline 模型的性能。

2 Related work

2.1 3D scene generation

随着可微渲染[21, 35]的3D表示形式的出现,从单一文本或图像生成3D目标取得了 rapid 的进展,紧跟其后的是3D场景生成的进步。多项研究利用图像扩散模型[36, 39]进行新颖视角合成和单目深度估计[3, 5, 20, 38],从而推导出对应的3D结构。另一类工作侧重于训练网络直接从单张或多张稀疏图像中获取3D表示。近年来的研究将相机控制集成到图像[11, 33, 40, 56]或视频模型[29, 31, 44, 66, 67]中,以促进新颖视角的生成,随后进行3D重建[26, 51],以获取3D场景的表示。然而,这些模型往往难以在显著视角变化下生成新颖视角,这限制了场景视角生成的灵活性。通过在精心设计的数据上微调V2V模型,FlexWorld可以在显著的相机轨迹变化下生成新颖视角,从而促进灵活视角的3D场景的创建。

2.2 Camera-controlled video diffusion models

近年来,相机控制视频扩散模型受到了广泛的关注。多项研究探讨了在相机条件下生成视频的方法。

然而,这些模型并未针对静态场景生成进行设计,因为生成视频中的动态特性妨碍了其重建能力。DimensionX [44]通过几个LoRA [19]实现了基本的相机控制,但缺乏处理复杂运动的灵活性。Wonderland [29]和StarGen [67]可以从单视角和相机轨迹生成视频;但是,它们不能产生新的视频来补充现有的三维结构,从而限制了生成场景的范围。See3D [33]和ViewCrafter [66]能够接受特定场景视角中的缺失信息并进行补全,但难以应对显著的视角变化(见图3)。相比之下,作者提出了一种基于更高级视频基础模型训练的V2V模型,并利用现有场景信息,以实现广泛的相机变化,并提供一种强大的工具,用于灵活的视图场景生成。

picture.image

3 Method

在本节中,作者将首先介绍FlexWorld的基础知识。随后,在第3.2节中,作者将会展示作者的灵活视角三维场景生成框架。最后,在第3.3节中,作者将讨论支持该框架的改进型V2V模型。

3.1 Preliminaries

视频扩散模型。扩散模型[16, 42, 43]包含一个正向过程和去噪过程。在正向过程中,扩散模型从时间0逐渐向干净图像

中添加高斯噪声,直至时间

。在某特定时间

时的噪声图像

可以表示为

,其中

是预先定义的超参数。在去噪过程中,通过训练噪声预测器

来预测

中的噪声以进行生成。给定与

相对应的条件

,扩散模型的训练目标为:

近年来,视频扩散模型[4, 12, 24, 32, 62, 71]通常采用3D-VAE编码器

将源视频压缩到一个潜在空间,在该空间中训练扩散模型。生成的潜在视频随后使用对应的解码器

解码到像素空间。密集立体视觉模型[26, 48, 51],例如DUSt3R [51]和MASt3R [26],提供了一种先进的工具,可以从单张或多张稀疏视图中获取对应点图、深度图和相机参数,从而促进三维点云的重建。这种方法提供了一种从单张图像中推理粗略的三维结构和相机估计的方法。

3D 高斯散射。目前,3D 高斯散射(3DGS)[21] 是一种非常流行的3D 表示方法,它通过颜色、中心点、不透明度、尺度和四元数旋转等参数化多个3D 高斯函数来表示3D 场景。3DGS 在3D 重建和生成中的有效性和效率已在多项研究中得到了广泛验证[6-8, 21, 46, 47]。除了原始论文[21] 中介绍的

损失和结构相似性损失

[54] 以外,优化3D 场景的损失函数通常还会结合局部感知损失

[44, 70] 来提高优化效果。权重

是可调超参数。正式地,具体的损失函数表示为:

3.2 Progressive flexible-view 3D scene expansion

为了克服第1节中讨论的单视频中多视角不足对3D场景生成的限制,作者提出了一种渐进式场景扩展方法,名为FlexWorld。FlexWorld由两个关键部分组成:1) 由预定义的摄像机轨迹指导的新视角视频合成,以探索未见区域;2) 几何感知的3D场景扩展,在更新持续的全局结构的同时保持几何一致性。作者采用了一种视频到视频(V2V)模型,该模型可以根据从粗糙场景渲染出的不完整视频生成相应的高质量视频,用于新视角合成,这将在第3.3节中详细讨论。

在本节中,作者关注几何感知的3D场景扩展,这包括三个关键子部分:(1)摄像机轨迹规划,确定需要扩展的区域;(2)场景集成,将新生成的3D内容整合到全局场景中;以及(3)细化过程,提高场景的视觉质量。每个组件将在下面详细讨论。

相机轨迹规划。相机轨迹决定了需要扩展的区域,但缺乏任何3D信息的区域会使V2V模型失去相机控制能力。作者优先使相机朝向特定区域移动,以确保输入视频始终包含3D信息。具体而言,从单张初始粗略场景图像开始,首先通过向外放大生成新的视角来扩展场景。接着,作者交替地将相机左右旋转180度,以增加更多场景细节,最终实现一个灵活的360度视角。详见第4.4节中关于向外放大的初始轨迹必要性的消融实验。

场景融合。为了从生成的视频中提取3D信息,作者首先开发了一种方法以获取新的3D内容,然后将其集成到全局场景中。随后,作者将所有视频帧视为Ground Truth,并优化场景以增强重构效果。

正式地,作者从生成的视频中选择

个关键帧,以便于提取3D内容,即点云。作者利用DUSt3R [51] 同时生成每个关键帧

和参考视图

的初始深度图

。对于每个视图,作者渲染出与现有场景对应的不完整深度图

及其 Mask

。参考视图通常优化得很好,其渲染的深度图

完全已知且可用于测量深度尺度。对于每个

,来自视图

的新添加点云

可通过以下方式获得:

其中,

表示关键帧

的外部参数,

表示内在参数,

表示该帧的像素坐标,范围从 0 到帧大小。中值运算

表示从给定的深度图中提取中值。通过使参考视图的深度尺度对齐,作者缓解了深度估计模型固有的不稳定性。深度对齐

表示任何进一步的深度对齐操作,在这里作者使用引导滤波 [14] 来实现更平滑的整体深度过渡。最后,作者将这些点云

转换为 3DGS,并将其添加到场景中,使用整个视频的所有视角进行优化,损失函数如式 (2) 所示。相应的超参数可以在第 4 节中看到。

精修过程。为了进一步提升生成场景的视觉质量,作者采用 SDEdit [34] 方法,通过从固定视角渲染多视图图像

,添加随机噪声,并使用 FLUX.1-dev [25] 图像扩散模型进行多步去噪处理。

其中

是前向扩散过程的时间戳,

表示去噪模型,而

表示 refinized 图像。作者使用

对 3DGS 场景中相应的视图进行细化,并采用与式(2)相同的损失函数。参见图7中的消融实验。

从上述讨论中可以看出,虽然所提出的框架是可行的,但生成多视角场景需要V2V模型在大范围相机变化下产生新的一致内容。否则,实现多视角场景可能需要多次迭代,这可能会引入累积误差,影响3D场景的一致性。

3.3 Improved diffusion for novel view synthesis

现有的车到车(V2V)方法无法处理显著视角变化(180°),如图3所示,主要是因为它们使用了较弱的基础模型[4, 58],这些基础模型在次优数据上进行训练,如图4所示。作者通过在先进基础模型和仔细设计的训练数据上进行视频条件训练,改进了作者的V2V扩散模型。

视频条件化。为了开发适合FlexWorld的V2V扩散模型,作者选择了一个更先进的基模型CogVideoX-5B-I2V [62]作为基础,并用视频条件化替代了原始的图像条件化。具体来说,3D-VAE编码器压缩了条件视频,然后将这些压缩后的视频按通道与噪声潜在变量进行拼接。给定一个摄像机轨迹

,作者的模型旨在学习分布

,其中

表示在

下的粗略场景渲染出的不完整视频,而

则表示相应视角下的高质量场景视频。训练目标与原扩散模型一致,如公式(1)所示。

训练数据构建。如图4所示,由密集立体视觉模型[26, 51, 66]生成的不准确训练配对往往与Ground Truth有显著偏差,并且包含碎屑纹理。因此,训练得到的V2V模型也表现出类似的瑕疵(见附录A)。为了解决这个问题,作者通过使用3DGS重构来获取更精确的深度估计,精心构建训练数据配对。作者实施了一个合成训练数据Pipeline,如下所述:

使用所有可用图像重建3DGS场景; 从随机帧开始,提取其深度并从3DGS进行反投影以获得点云; 在复杂相机轨迹下,从数据集中渲染不完整的视频序列

(连续49帧); 将

与 GT 值

匹配,形成训练配对

。此方法确保在生成的数据中进行更精确的深度估计,从而获得更准确的初始点云。这种改进可以提高训练配对的质量,如图4所示。

为了支持静态场景的生成及大范围相机变化,作者选择了高质量的DL3DV10K [30] 场景数据集,该数据集包含多种相机运动。作者从训练数据集中排除了RealEstate10K数据集 [72],因为其视频中经常包含移动物体和简单的相机运动,无法满足作者的需求。

训练完成后,作者的视频模型能够在不完整的输入下生成高质量的新视角,应用于粗糙场景,并且在任意运动轨迹下表现出色,尤其是在大范围相机变化的情况下(参见图3)。这使作者的模型成为FlexWorld中最佳的视频扩散模型,显著提升了灵活视角的3D场景生成能力。

4 Experiment

作者依次介绍了FlexWorld的实现细节、新型视图合成与三维场景生成的比较,以及消融研究。

4.1 Implementation details

作者基于图像条件下的视频扩散模型CogVideoX-5BI2V [62]构建了作者的视频到视频模型。该模型在分辨率为

的情况下进行训练,学习率为5e-5,批量大小为32,总共在16块NVIDIA A800 80G GPU上进行了5000个步骤的训练。在原始的I2V微调过程中,作者保留了其他超参数的默认设置。在训练数据集中,作者使用了DL3DV-10K数据集[30]中的数据,并剔除了COLMAP相机标注失败的数据。3DGS损失函数中的系数

分别设置为0.8、0.2和0.3。更多细节可参见附录B。

4.2 Comparison on novel view synthesis

作者通过将视觉生成质量与相机准确性与5个开源 Baseline 模型(包括MotionCtrl [55]、CameraCtrl [13]、DimensionX [44]、See3D [33]、ViewCrafter [66])进行对比,评估了作者的视频到视频模型在新型视角合成方面的能力。

评价数据集。为了确保公平性,作者选择了与训练数据集分开的 RealEstate10K (RE10K) 测试数据集 [72] 和 Tanksand-Temples (Tanks) [23] 数据集进行评估。参考先前的研究 [29, 66],作者在 RealEstate10K 中随机选择了 300 个视频片段,采样步长范围为 1 到 3。在 Tanks-and-Temples 数据集中,作者从 14 个测试场景中随机选取了 100 个视频片段,并以步长 4 进行采样。值得注意的是,该数据集未包含预先标注的摄像头;因此,作者利用 MASt3R [26] 模型对摄像头进行了标注。每个选定的视频片段涉及 49 个摄像头长度。对于生成帧数少于 49 帧的模型,作者从原始轨迹中均匀排除摄像头,以匹配所需的长度。

评价指标。作者借鉴了以往的研究[29, 66],使用多种指标全面评估生成的视频。这些指标包括用于评估视觉质量的FID[15]和FVD[49],以及用于评估生成帧与ground truth之间相似度的PSNR、SSIM[54]和LPIPS[70],计算每帧的平均值。此外,作者还使用MASt3R[26]估计了每个生成帧及其ground truth对应的相机姿态,并根据前期研究[13, 29, 66]中的公式计算了相机精度。

定性比较。从图5所示的定性比较中可以看出,所有模型在控制摄像机运动方面都表现出一定的能力,而ViewCrafter、See3D和FlexWorld等方法展示了相对精确的控制;然而,生成输出的视觉质量各不相同。MotionCtrl的结果常常出现伪影,而CameraCtrl生成的内容则显得较为模糊。See3D难以从新颖视角生成独特的新型物体,而ViewCrafter生成的内容则较为暗淡。相比之下,作者的方法保持了有效的摄像机控制,并在生成内容的视觉质量上超越了所有 Baseline 模型。

picture.image

定量比较。作者的定量结果见表1。FlexWorld在所有数据集上均优于 Baseline 模型,取得了最优的FID和FVD分数,表明生成内容的分布与真实值高度一致。此外,作者的模型在图像质量方面也表现出色,获得了最佳的峰值信噪比(PSNR)、结构相似性(SSIM)和绝对感知图片保真度(LPIPS)分数,显示出优越的视觉质量。另外,作者的模型在摄像机控制方面也表现优异,具有较低的

值。

4.3 Comparison on scene generation

作者主要通过将渲染结果的视觉质量与4个开源 Baseline 方法进行对比来评估作者的方法在3D场景生成方面的性能:LucidDreamer [9]、DimensionX [44]、See3D [33] 和 ViewCrafter [66]。使用与第4.2节相同的采样策略,作者在RE10K [72] 和 Tanks [23] 数据集中分别随机选取了100张和50张图片进行评估。除了LucidDreamer使用其原始实现生成场景外,其他方法的场景均从转换为3DGS的视频中重建而来,并设置重建超参数按照[44]中的说明。作者选择使用PSNR、SSIM和LPIPS作为评价指标,以对比每个 Baseline 生成的3D场景渲染结果与真实帧之间的差异。

如图6的定性比较所示,FlexWorld生成的场景与输入图像的内容一致性更高,相较于其他 Baseline 方法更为一致。此外,FlexWorld还在输入范围之外的新区域生成了更高视觉质量的内容。作者还进行了定量比较,如表2所示,在Tanks [23]数据集上,除了在SSIM指标上略低于See3D外,FlexWorld几乎在所有指标上都优于其他 Baseline 方法。所有结果表明,FlexWorld生成的场景具有更高的3D一致性和视觉质量。

picture.image

picture.image

4.4 Ablation study

作者进行了一项消融研究以证明FlexWorld中每个组件的必要性,如图7所示。

在视频扩散方面的消融实验。如图7a所示,将作者的V2V模型在FlexWorld中替换为ViewCrafter后,场景内容变得模糊。这是由于ViewCrafter在大范围相机变化下的输出不一致,如第3.2节所述。

相机轨迹上的消融实验。缩放运动对于扩大场景以增强相机控制至关重要。如果没有这一运动,生成的视频将与输入轨迹不匹配,导致生成场景中出现不一致和模糊现象,如图7b所示。

关于细化过程的消融实验。视频模型的生成质量限制了生成场景中的细节。如第3.2节所述,进一步的细化过程在保留场景现有几何结构的前提下提升了生成的细节,如图7c所示。

参考

[0]. FlexWorld: Progressively Expanding 3D Scenes for Flexiable-View Synthesis .

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论