PaintScene4D 引领文本到 4D 场景生成框架，以简洁架构，绘就逼真动态四维场景！

备注好友：

方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

近年来，扩散模型的发展已经革新了二维和三维内容的生成，但生成逼真的动态四维场景仍然是一项重大挑战。现有动态四维生成方法通常依赖从预训练的三维生成模型中提炼知识，这些模型往往是在合成物体数据集上进行微调的。

因此，生成的场景往往会侧重于物体而缺乏照片的真实感。尽管文本到视频模型可以生成更具现实感且带有运动的画面，但在空间理解方面常常存在困难，并且在渲染过程中对相机视角的控制有限。

为了应对这些限制，作者提出了一种名为PaintScene4D的新颖的文本到四维场景生成框架，该框架摒弃了传统的多视角生成模型，转而采用一种更为简洁的架构，利用训练于多种真实世界数据集上的视频生成模型。

作者的方法首先使用视频生成模型生成参考视频，然后通过策略性地选择相机阵列来进行渲染。作者应用渐进式空间变换和修复技术以确保在多个视角下空间和时间的一致性。

最后，作者使用动态渲染器优化多视角图像，从而基于用户偏好实现灵活的相机控制。采用无监督的架构，作者的PaintScene4D高效地生成了可以从任意轨迹观看的逼真四维场景。

Introduction

从文本描述生成动态3D场景，这被称为文本到4D场景生成，是计算机视觉和图形学领域最具挑战性的前沿之一。尽管近年来的研究已经极大地增强了作者从文本生成静态3D内容以及2D图像和视频的能力，但合成时间连贯且动画化的3D场景仍然是一个基本的挑战。这一任务不仅需要生成空间一致的3D几何形状和外观，还需要产生符合真实世界物理定律和语义约束的逼真运动——所有这些都需要在多个视角下保持时间一致性。

4D 场景生成的复杂性源于多个相互关联的挑战。首先，与仅需确保空间一致性的静态3D生成不同，4D 场景必须同时保持空间和时间的一致性。这意味着任何生成的运动都必须具备物理合理性且具有语义意义，在时间上保持场景的几何结构。其次，缺乏大规模、多样化的4D 场景数据集限制了稳健生成方法的发展，现有的大多数方法依赖于目标中心的数据，无法捕捉全场景的丰富动态。第三，同时优化空间和时间维度的计算复杂性使得在合理的时间限制内实现高质量的结果变得困难。

当前针对这些挑战的方法大致可分为两类，每类方法都存在显著的不足。第一类方法扩展了静态3D生成技术（例如，MVDream [42] 和 Zero123 [28, 41]，它们是在以目标为中心的数据集如Objaverse [9] 上训练的），旨在融入时间动态特性。虽然这类方法在保持几何一致性方面效果良好，但通常难以生成复杂的运动，往往只能产生细微的变形或简单的平移。这一局限性源自它们对ScoreDistillation Sampling (SDS) [33] 优化技术的依赖，尽管这种技术对于静态内容非常有效，但在应用于时间序列时会变得计算上不可行。第二类方法是文本到视频模型（例如，Animatediff [13] 和 CogVideo [54]），这些模型能够生成动态内容。然而，这些方法缺乏明确的3D理解，导致时间上的不一致性和几何上的缺陷。这两种方法都无法充分解决生成时空一致的4D场景的基本挑战。

为解决这些限制，作者提出了PaintScene4D，这是一种新颖的框架，融合了文本到视频生成和三维感知神经渲染的优势。作者的核心洞察是，通过使用视频生成作为初始先验，并通过渐进式变形和修复技术重建3D场景，可以在保持空间和时间一致性的同时生成复杂的运动。具体而言，作者的方法首先使用预训练的文本到视频模型生成基础视频，提供丰富的运动先验。然后，作者围绕场景构建一个“摄像头网络”，通过将视频帧映射到临近视点并使用修复来填补任何产生的空洞。这种方法允许作者在不需要显式的3D监督或昂贵的优化过程的情况下，建立动态场景的全面多视角表示。

PaintScene4Dis的效果通过多个实证贡献得到了验证。如图1所示，作者的方法在文本到四维场景生成方面达到了最先进的性能，生成了视觉上令人印象深刻的结果，并且在空间和时间上都保持了一致性。

生成的场景展示了复杂的运动，同时在多个视角下保持了几何结构。值得一提的是，作者的框架大大降低了计算需求，在单张A100 GPU上大约3小时内即可生成高质量的4D内容——这比现有方法[2, 62]通常需要数十小时有了显著改进。通过广泛的实验和消融研究，作者证明了作者的方法在多个指标上都具有优越性，包括时间一致性、运动复杂性和渲染质量。此外，作者的方法还提供了前所未有的灵活性，允许用户在推理过程中编辑现有的视频或指定自定义轨迹。

picture.image

作者的主要贡献总结如下：

一种新颖的一站式文本到四维场景生成框架，该框架有效提炼了四维感知神经渲染之前的视频生成技术。
一种渐进式的扭曲和 inpainting 技术，使得能够构建空间上和时间上一致的多视图表示。
PaintScene4D 的全面评估与分析表明，在四维场景生成方面达到了最先进的效果，并且显著降低了计算需求并增强了相机控制选项。
Related Work

文本到三维生成。文本到三维生成在过去几十年中取得了显著进展。早期方法依赖于基于规则的系统，通过解析文本输入并使用目标数据库生成语义表示来构建场景 [1, 6, 8]。随着数据驱动方法的引入，该领域取得了重大进步，这些方法利用多模态数据集 [7] 和预训练模型（如 CLIP [35]），能够更精细地操纵三维网格 [11, 18] 或辐射场 [48]。这一进展促成了利用 CLIP 辅导进行全面三维场景合成的方法的发展 [17, 40]，随后演变出通过评分蒸馏采样 (SDS) 优化网格和辐射场的技术 [22, 33, 50]。多视角感知扩散模型的引入进一步提高了生成的三维结构的质量 [24, 28, 42]。扩散和 Transformer 架构的平行发展使得能够对新颖视图合成进行高级图像到三维转换 [5, 12, 29, 34, 45, 47, 57]。这些方法主要解决的是目标级重建问题。

最近在文本生成三维场景方面的进展引入了应对场景级复杂性的创新方法。Text2Room [14] 提出了一种网格填充和修补的方法来实现网格化和场景生成，而 Text2NeRF [59] 则转向利用辐射场作为场景生成的先验知识，不再依赖于基于网格的重建。尽管这些方法最初仅限于以相机为中心的场景，但后续工作 [60] 扩展了其能力，支持使用任意6自由度（DOF）相机轨迹的一般三维场景生成。然而，这些方法仍然局限于静态场景，缺乏对运动的处理能力，而这对于表现动态的真实世界环境至关重要。

面向目标的文本到四维生成。从三维扩展到四维场景生成带来了显著的额外复杂性。MAV3D [44] 首次采用了这一方向，通过引入基于HexPlane [4] 的动态NeRF表示以及视频驱动的SDS损失，将生成过程结构化为静态、动态和超分辨率三个阶段。在此基础上，Dream-in-4D [63] 使用基于变形场的动态NeRF，并将文本到四维生成组织为明确的静态和动态两个阶段。同样地，4D-fy [2] 引入了一种混合表示，结合了静态和动态 Voxel ，并利用多种SDS损失函数 [30, 33, 42] 以实现动态内容的生成。此外，Ling等人 [26] 通过将动态网络应用于三维高斯溅射 (3D-GS)，实现了动态渲染，并在视频SDS和三维高斯约束下进行了优化。

最近的研究侧重于分解和控制运动生成。TC4D [3]将运动分解为由样条曲线表示的全局轨迹，以及通过基于视频的SDS损失分段生成的局部物体运动，其中全局路径由用户定义。Comp4D [53]利用大语言模型（LLMs）分解 Prompt ，并根据LLM推导出的轨迹信息生成和组合4D目标。这些方法主要侧重于目标 Level 的重建，限制了它们更广泛的应用。值得注意的是，4Real [58]通过利用在大规模数据集上训练的视频生成模型绕过了多视图生成模型。作者在此基础上改进并解决其局限性，提出了一种方法来生成能够捕捉真实环境中的几何结构和纹理的4D场景，同时增强了对摄像机运动和渲染能力的控制。

Preliminary: 3D Gaussian Splatting

3D高斯点绘制（3D-GS）[21]利用点云显式地表示场景，每个点作为一个三维空间中的高斯分布建模。每个高斯分布由中心点

表示其均值，并由协方差矩阵

捕获其散布程度。点的高斯函数

表示为：

为了实现可微优化，协方差矩阵

被分解为一个旋转矩阵

和一个缩放矩阵

，形式为

。生成新视图涉及到一种可微的平滑技术[55]，其中3D高斯分布被投影到2D图像平面。正如[64]所述，通过视角变换矩阵

和投影的雅可比矩阵

计算相机坐标系中的变换后的协方差

，得到

。在这个设置中，每个高斯分布由其位置

、由球谐系数 (SH) 表示的颜色

（其中

是SH函数的数量）、透明度

、旋转

和尺度

参数化。像素颜色和透明度通过方程2中定义的高斯混合得出，其中来自N个重叠高斯的颜色

计算如下：

其中，

和

分别表示第

个高斯点的颜色和透明度，这些值通过优化高斯函数的 SH 系数获得，并且透明度可以调整。

Method

概述。在本文中，作者提出了一种名为PaintScene4D的新框架，用于从文本输入生成4D动态场景。作者的方法始于一个视频扩散模型，该模型生成初始视频作为场景和动作的参考。使用此视频作为输入，作者采用深度估计模型从每一帧中推导出深度图，从而逐步构建场景的空间表示。为了创建场景的全面多视角视图，作者逐步将初始帧变形到新的摄像机位置，从第一帧开始。在这个过程中，使用空间一致的图像修复方法填充由于遮挡或视角变化而缺失的任何区域。对于每个后续帧，作者的方法重用先前时间戳中的修复数据以保持连续性，并仅填充新的未观察到的区域。一旦作者构建了一个摄像机网络，每个摄像机在一段时间内捕捉所有帧，作者就采用一种4D渲染算法重建场景并生成新的视角。整个方法的流程如图2所示。

picture.image

4.1. Scene eInitialization

相机轨迹。为了支持最终渲染输出预期的运动路径，作者建立了一组虚拟相机网络以匹配用户期望的相机路径。这些相机代表了构建四维场景时所需的一系列有序视图布局的 Backbone 部分。由于作者的框架包含了图像变形操作，因此获取精确的相机参数内参非常重要。然而，使用来自扩散模型生成的视频存在一个挑战，即无法直接访问这些相机的内参。为了解决这一问题，作者采用了预训练模型Perspective Field [20]，基于提供的视频帧来计算相机的内参矩阵。

4.2. Scene Construction w/ Progressive Inpainting

由于缺乏多视角监督，直接使用单一视角视频

及其深度图

来训练4D辐射场会导致过拟合和几何歧义性的问题。为了解决这一问题，作者应用基于深度图像的渲染（DIBR）技术 [10] 在初始视图周围建立一组虚拟相机网络。具体而言，对于初始时间步

的图像

中的每个像素

和其对应的深度

在时间步

的深度图

中，作者计算相邻视点

中该像素的变换坐标

及其深度

如下所示：

其中，

和

分别是内参矩阵、视图

和视图

的相机姿态，而

表示视点

在时间戳

的图像。经过变换后，作者用修复技术填充新畸变视图中的被遮挡或缺失区域。作者的实验发现，当修复区域较大时，基于扩散的先验能够获得更高的修复质量。因此，对于每个视图，作者选择一个尽可能远且重叠最少的可用视点，将当前帧映射到该视点，并在必要时应用修复技术。大面积的遮挡使用基于二维扩散的先验进行修复，而对于较小的缺口，则采用Teleabr 基于的修复技术 [46]。

作者的扭曲过程从第一个时间戳开始，逐步对所有视图进行扭曲和修复缺失区域，然后再处理后续的时间戳。对于第一个时间戳，作者以一个基准视角

开始，将其扭曲到相邻视角

，并修复其中的缺失区域。为了保证空间一致性，作者将原始的

和新扭曲的帧

结合起来进一步扭曲

例

如

，

等

. 这种方法确保了在后续视角

中修复的内容得以保留，从而在整个场景中保持连贯性。

深度对齐。为了将二维图像 (I) 转换为三维表示，作者首先估计每个像素的深度。准确整合新旧内容需要精确的深度对齐，确保场景中类似元素如墙壁或家具在不同视角下呈现出一致的深度。直接投影预测的深度往往会因视角之间的不一致尺度而导致急剧过渡和几何不连续性。为此，作者采用了一种受 Liu 等人 [27] 启发的深度对齐方法，通过尺度和位移优化来细化深度。具体而言，作者通过最小二乘法优化尺度参数 (\gamma) 和位移参数 (\beta)，即 (\gamma, \beta \in \mathbb{R})，使预测的深度 (\hat{d}) 与渲染深度 (d) 之间的差异最小化：

其中， Mask ( m ) 排除了未观测像素参与对齐过程。

此外，深度估计模型在物体边界处可能无法准确解析深度，常会导致在预期有突变处出现平滑过渡。这一问题影响整体变形质量，从而产生遮挡区域内的拖尾模式等伪影。为此，作者应用双边滤波来锐化深度边界，提升填充性能。更多实现细节参见补充材料。

4.3. Scene Completion with Temporal Consistency

在完成第一个时间戳的映射和修复后，作者将这些操作依次应用于后续的时间戳。然而，直接独立地将相同的方法应用到每个时间戳上可能会导致时间上的不一致性。这是由于基于2D扩散的修复方法本身存在的固有变异性，可能导致在不同时间戳的相同区域产生不同的结果。为了解决这个问题，作者通过确保背景区域在各个帧中视觉上的一致性来引入时间一致性。具体而言，作者要求跨时间戳重叠区域的内容在背景区域尤其表现出相似性。

前景与背景分离。在填充处理之后，作者使用一个分割模型来区分每一帧中的前景和背景区域。对于包含显著遮挡的情况，尤其是背景中的大面积缺失区域，作者通过从前一时间戳中引入内容来填补这些区域。这种方法通过从前几帧获取背景信息来维持时间连续性。对于靠近前景边界的孔洞，作者根据前一时间戳中相应区域的背景或前景状态来确定填充源。如果当前帧中被分类为背景的边界区域与前一时间戳中的背景区域相匹配，作者则使用早期帧的信息进行填充。相反，如果该区域在前一帧中被识别为前景的一部分，则应用二维扩散模型来进行填充。这种选择性的填充策略允许作者在保持跨时间戳一致性的同时，根据时间上的前景和背景信息适当地填充这些区域。

4.4. Training and Optimization

在执行所有视图和时间戳间的空间扭曲和修复操作后，作者建立了一个全面的摄像网络，其中每个摄像头包含从其相应视角拍摄的视频帧。重要的是，这种多视角设置在无需特定模型训练的情况下构建。利用这些多视角的空间信息和时间动态性，作者采用4D渲染方法来合成场景的新视角。在渲染过程中，作者利用了4D高斯框架[51]，该框架使用一个可变形网络表示4D空间。渲染器接受高斯参数以及时间戳，并计算这些参数在时间戳条件下的变形。这种方法可以连续建模变形，在新视角合成时实现平滑的时间戳间插值。在测试阶段，可以根据需要选择任何期望的视角和时间戳以生成新的视图。

Experiments

5.1. Implementation Details

作者的优化框架分为两个阶段：首先重构一组摄像头网络，每台摄像机与特定的时间段视图相关联，然后训练一个4D渲染器。具体来说，作者构建了一组25个摄像头，并使用跨越50个时间戳的视频。所有实验均在一块A100 GPU上完成。完整的扭曲和修补过程不需要额外的训练，大约需要两小时。随后，在大约一小时的训练后，4D渲染器可以完成训练并生成任意轨迹下的新颖视角。总的训练和生成新视角的时间约为三小时。这一时间显著短于近期最先进的方法所需的时间：Dreamin-4D 需要超过四小时，而 4Dfy 则需要超过二十小时，尽管它们只生成目标 Level 的4D渲染。为了初始化场景并为4D重建建立运动先验，作者使用了CogVideoX-5b [54]。对于深度估计，作者采用了DepthCrafter [16]，因为它可以在视频帧之间产生一致的深度估计，从而实现可靠的扭曲。作者使用Perspective Fields [20] 来估计生成视频的摄像机内参数。为了使分割模型能够区分前景和背景，作者使用了GroundingSAM-2[37]。

5.2.BaselinesandEvaluationMetrics

由于目前缺乏公开源代码实现的文本到四维场景级生成方法，在缺乏四维物体级生成方法开源实现的情况下，作者将作者的方法与现有的最先进的文本到四维物体级生成方法，即4Dfy [2] 和 Dream-in-4D [62]，在多样化的20个 Prompt 中进行了对比评估。为了评估作者提出的方法的有效性，作者利用了CLIP 分数 [35] 并结合了一个结构化用户研究。

CLIP评分。CLIP评分[32]通过计算CLIP文本和视觉嵌入之间的余弦相似性来评估输入 Prompt 与生成的视觉内容之间的一致性。评分范围从0到100，数值越高表示匹配度越接近。作者通过从每个 Prompt 生成视频，并使用CLIP ViT-B/32评估每一帧，然后对所有帧和 Prompt 的分数取平均值以确保一致性，来计算4Dfy、Dream-in-4D以及作者方法的CLIP评分。

用户研究。通过Google表单进行了全面的用户研究，每对视频涉及30名评估者。每位评估者被呈现了三个匿名视频，每个视频均捕捉了一个摄像机沿圆形轨迹移动所拍摄的动态场景，并附带有原始文本 Prompt 。评估者同时查看了4Dfy、Dream-in-4D及作者方法生成的渲染结果，并根据四项标准评分：运动现实感、视频-文本对齐度、高动态性以及总体现实感。详细结果见表1。

picture.image

5.3.Text-to-4D Generation

在图4中，作者可视化了由作者的方法生成的空间-时间渲染结果，与4D-fy和Dream-in4D进行比较。尽管所有方法都能合成4D场景，但4D-fy和Dream-in4D专注于目标级渲染，并且缺乏精细的空间细节。相比之下，作者的方法能够在显著减少的时间内生成场景级的4D重建，产生逼真的渲染结果。值得注意的是，4D-fy在建模真实运动方面存在问题，而Dream-in4D产生的效果带有卡通风格，降低了现实感。相反，作者的方法在空间和时间维度上都达到了高水平的照片写实质量。作者还在图3中展示了一组作者的结果示例。定量指标包括CLIP得分和用户研究的结果如表1所示。作者的方法在CLIP得分和用户偏好测试中均优于4D-fy和Dream-in4D。评估者表现出对PaintScene4D的明显统计偏好，原因在于其更高的运动真实感、前景和背景的真实渲染效果、整体的真实感以及更好的视频-文本对齐。

picture.image

5.4. Explicit tCamera Control

为了评估摄像头控制效果，作者将作者的框架与其他文本到视频（T2V）模型进行了对比，如图5所示。

picture.image

作者将相同的文本 Prompt 输入到T2V模型两次，并仅调整摄像机运动描述，使其引导模型在一种情况下“向右倾斜”，在另一种情况下“向上移动”。这种设置使作者能够评估模型解读和执行细膩摄像机控制指令的能力。作者的观察结果揭示了T2V模型的两个关键局限性。首先，即使使用固定的随机种子，T2V模型也会因每个修改后的 Prompt 生成不同的场景而产生差异。其次，尽管模型在第二种情况下模拟了摄像机的上移动作，但它未能明确控制摄像机运动的程度。相比之下，作者的方法能够在同一场景内对摄像机轨迹进行显式且一致的控制，并利用四维建模实现精确的摄像机操作。

Ablation Study

作者进行了一个消融实验以分析作者提出的PaintScene4D框架的各个组件，实验结果如图6所示。

picture.image

深度对齐模块：深度对齐模块对于保持前景的几何一致性至关重要。在变形过程中，所有帧都会被利用，帧间任何深度不一致都可能导致误差积累，从而在前景边界处产生明显的伪影。

最远视图采样：在PaintScene4D中，作者在变形过程中每一步选择最远的视图以最大化填充区域。跳过这一步会导致前景边缘附近，如熊猫边界处，出现严重的退化以及针尖状的伪影，这是由于高斯点绘制过程引起的。

一致性的修复模块：在修复过程中维持时间一致性对于生成连贯的4D场景至关重要。如果没有这个模块，修复结果在不同时间戳目标边界处（例如，大熊猫）会变得不一致，从而导致渲染质量显著下降。

参考

[0]. PaintScene4D: Consistent 4D Scene Generation from Text Prompts .

PaintScene4D 引领文本到 4D 场景生成框架 ，以简洁架构，绘就逼真动态四维场景 ！

参考