大模型剖析 - 一文搞懂Sora底层技术 - 文章 - 开发者社区

本文将从 Sora的本质、Sora的原理*、Sora的技术*********** 三个方面，带您一文搞懂视频生成模型： Sora。

一、Sora 的本质

Sora 是什么？

视频生成模型作为世界模拟器（Video generation models as world simulators）

picture.image Sora Introduction

一、引言
主题：探索使用大规模生成模型在视频数据上进行训练的可能性。
目的：构建能够模拟物理世界的通用视频生成模型。
二、方法
训练模型：采用文本条件扩散模型，在视频和图像上进行联合训练。这些视频和图像具有不同的持续时间、分辨率和纵横比。
架构选择：使用基于时空块的视频和图像潜在编码的变换器架构。这种架构能够处理视频和图像数据，并将其转化为统一的视觉数据表示。
三、模型介绍

模型名称：Sora。

模型能力：能够生成一分钟的高保真视频。这表明模型在生成长时间、高质量视频方面具有显著的能力。

四、结论
生成结果：通过训练得到的模型能够生成具有不同特征的视频内容，这些视频在视觉上具有真实感和连贯性。
应用前景：通过进一步扩展这些视频生成模型，我们可以朝着构建通用物理世界模拟器的目标迈进。这种模拟器在虚拟现实、增强现实、电影特效、游戏开发等领域具有广泛的应用潜力。

Sora 能干什么？

Sora是一个通用的视觉数据模型——它可以生成持续时间、纵横比和分辨率各异的视频和图像，最长可达一分钟的高清视频。

一、文本生成视频（text-to-video）

picture.image text-to-video

二、图片生成视频**************************** （image-to-video）

picture.image image-to-video

三、延长生成的视频（Extending generated videos）

picture.image Extending generated videos

四、

视频到视频编辑

（v

ideo-to-video editing ）

picture.image video-to-video editing

五、连接视频（ Connecting videos ）

picture.image

Connecting videos

二、Sora 的原理

picture.image Sora 技术报告重点关注

视觉数据转化 ： 如何将所有类型的视觉数据转化为统一的表述形式，从而实现生成模型的大规模训练？

一、将视觉数据转换为图像块（Turning visual data into patches）

灵感来源：大型语言模型通过在互联网规模的数据上使用词元编码/令牌（token）进行训练，获得了通用能力。
应用到视觉数据：受到文本处理的启发，研究者考虑如何将视觉数据转换成类似词元的结构，以便能够利用类似的好处。
视觉块的引入：为了将视觉数据转换成适合生成模型处理的格式，研究者提出了视觉块嵌入编码（visual patches）的概念。这些视觉块是图像或视频的小部分，类似于文本中的词元。
处理高维数据：在处理高维视觉数据时（如视频），首先将其压缩到一个低维潜在空间。这样做可以减少数据的复杂性，同时保留足够的信息供模型学习。

picture.image 将视觉数据转换为图像块

二、视频压缩网络（Video compression network）

介绍：训练了一个网络，用于降低视觉数据的维度。该网络将原始视频作为输入，输出一个在时间和空间上都被压缩的潜在表示。

应用：在这个压缩的潜在空间内，Sora模型接受训练并随后生成视频。同时，训练了一个相应的解码器模型，将生成的潜在表示映射回像素空间。

picture.image 视频压缩网络

三、隐空间时空编码块（Spacetime Latent Patches）

提取：给定一个压缩的输入视频，提取一系列时空编码块作为transformer的令牌（token）。这种方案同样适用于图像。

优点：基于补丁的表示使Sora能够训练不同分辨率、持续时间和宽高比的视频和图像。在推理时，可以通过在适当大小的网格中排列随机初始化的编码块来控制生成视频的大小。

picture.image 隐空间时空编码块

四、扩展Transformer用于视频生成（Scaling transformers for video generation）

Sora模型：是一个扩散模型，给定输入的噪声块和条件信息（如文本提示），它被训练来预测原始的“干净”块。重要的是，Sora是一个扩散变换器。

扩展性：Transformer在多个领域展现了显著的扩展属性，包括语言建模、计算机视觉和图像生成。在这项工作中，发现扩散变换器作为视频模型也能有效地扩展。随着训练计算量的增加，样本质量显著提高。

picture.image 扩展 Transformer 用于视频生成

工作研究方法 ：

以前的大量工作已经使用各种方法研究了视频数据的生成建模，包括循环网络（RNN）1,2,3、生成对抗网络（GAN）4,5,6,7、自回归变换器（Auto Transformer）8,9和扩散模型（D iffusion Models ）10,11,12。 这些工作通常集中在狭窄类别的视觉数据、较短的视频或固定大小的视频上。

picture.image 工作研究方法

一、可变持续时间、分辨率、宽高比（ Variable durations, resolutions, aspect ratios）

picture.image Variable durations, resolutions, aspect ratios

Sora模型通过直接在原始尺寸上训练，实现了图像和视频生成的灵活性采样与改进构图，适应了不同设备的多样化需求。

传统方法的限制：过去的图像和视频生成方法通常会将内容调整到标准尺寸，如4秒长、256x256分辨率的视频。这种方法忽略了原始数据的多样性和特点。
直接在原始尺寸上训练：能够更好地利用和保留原始数据中的细节和信息。可以提高生成内容的多样性和灵活性。
采样灵活性（Sampling flexibility）：Sora能够处理多种尺寸和宽高比的视频，包括宽屏1920x1080p和竖屏1080x1920等。这种灵活性使得Sora能够为不同设备生成适应其原生宽高比的内容。Sora还允许在生成全分辨率内容之前快速创建较小尺寸的原型，提高了工作效率。

picture.image Sampling flexibility

改进的构图和画面组成（Improved framing and composition）：通过在视频的原始宽高比上进行训练，Sora改善了生成视频的构图和取景。与将训练视频裁剪成正方形的模型相比，Sora生成的视频在构图上更为完整和协调，避免了主体被部分遮挡的问题。

picture.image Improved framing and composition

二、

语言理解 （ Language understanding ）

Sora模型 通过引入重新标注技术和利用GPT扩展用户提示，Sora文本到视频生成系统提升了文本准确性和视频质量，实现了更精准的用户意图转化。

大量带标注视频的需求：文本到视频生成系统的训练依赖于大量带有相应文字描述（标题）的视频数据。这种数据的获取和处理对于系统的性能至关重要。
应用重新标注技术：借鉴自DALL·E 330的重新标注技术被应用于视频数据，通过训练一个高度描述性的标注模型来为训练集中的所有视频生成新的文字标题。这种做法旨在提高文本与视频内容之间的匹配度和描述准确性。
高度描述性视频标题的效益：使用高度描述性的视频标题进行训练，可以提升生成视频的文本准确性和整体质量。这意味着系统能更好地理解和响应文本输入，从而生成更符合用户意图的视频内容。
利用GPT扩展用户提示：类似于DALL·E 3的做法，Sora也利用GPT技术将用户提供的简短提示转换成更详细、更具体的文字描述。这些详细描述随后被用作视频生成模型的输入，使得Sora能够生成更准确、更高质量的视频内容，紧密遵循用户的初始提示。

picture.image 语言理解

三、Sora 的技术

使用图片和视频进行提示（Prompting with images and videos）

Sora除了通过 文本进行提示，也可以通过其他输入进行提示，例如预先存在的图片或视频。这项能力使得Sora能够执行广泛的图像和视频编辑任务——创建完美循环的视频，为静态图像添加动画，向前或向后延长视频的时间等。

picture.image

Prompting with images and videos

制作DALL·E图像动画（Animating DALL·E images ）：Sora能够根据DALL·E生成的图像来制作动画。DALL·E是一种能够根据文本提示生成图像的大模型，而Sora则可以将这些静态图像转化为动态视频。

picture.image

Animating DALL·E images

延长生成的视频（Extending generated videos）：Sora还具有延长视频的功能，无论是向前还是向后延长时间。这意味着，你可以从一段已生成的视频片段开始，然后让Sora向前或向后扩展这段视频。这种方法甚至可以用来制作无缝的无限循环视频。

picture.image

Extending generated videos

视频到视频编辑（Video-to-video editing）：通过使用一些扩散模型，Sora可以实现从文本提示对输入的视频进行风格和环境等的零次学习转换。也就是说，你可以通过文本描述来改变视频的风格或环境，而无需提供任何训练数据。

picture.image

Video-to-video editing

连接视频（Connecting videos）：Sora还可以在两个输入视频之间逐渐插值，创建在完全不同主题和场景构成的视频之间的无缝过渡。这意味着，你可以使用Sora来将两个完全不同的视频连接起来，而过渡效果看起来非常自然。

picture.image

Connecting videos

图像生成能力（Image generation capabilities ）：除了生成视频外，Sora还能够生成图像。这是通过在空间网格中排列高斯噪声块来实现的，可以生成不同大小的图像，分辨率最高可达2048x2048。

picture.image

Image generation capabilities

涌现的模拟能力（Emerging simulation capabilities）

当在大规模上进行训练时，视频模型Sora展现出了一系列有趣的新兴能力。这些能力使Sora能够模拟现实世界中的人类、动物和环境。这些属性并不是基于明确的3D、物体等的归纳偏见，而是纯粹的规模效应现象。

picture.image

Emerging simulation capabilities

3D一致性（3D consistency ）：Sora可以生成具有动态相机运动的视频。当相机移动和旋转时，人物和场景元素在三维空间中保持一致的移动。

picture.image

3D consistency

长距离一致性和物体恒存性（Long-range coherence and object permanence ）：对于视频生成系统来说，保持长时间视频的时间连贯性是一个重大挑战。Sora通常（但不总是）能够有效地建模短距离和长距离依赖关系。即使人物、动物和物体被遮挡或离开画面，模型也能保持它们的存在。它可以在单个样本中生成同一角色的多个镜头，并在整个视频中保持其外观。

picture.image

Long-range coherence and object permanence

与世界互动（Interacting with the world ）：Sora有时可以模拟一些简单的动作，这些动作以简单的方式影响世界的状态。例如，画家可以在画布上留下随时间持续存在的新笔触，或者人物可以吃汉堡并留下咬痕。

picture.image

Interacting with the world

模拟数字世界（Simulating digital worlds ）：Sora还能够模拟人工过程，如视频游戏。Sora可以在控制《我的世界》中的玩家采用基本策略的同时，以高保真度渲染游戏世界及其动态。通过使用提到“我的世界”的字幕提示Sora，可以零次尝试地引发这些能力。

picture.image

Simulating digital worlds