点击下方卡片,关注“慢慢学AIGC”
本文探索了在视频数据上大规模训练生成模型。 具体来说,在视频和图像上联合训练了基于文本的扩散模型,这些视频和图像的持续时间、分辨率和纵横比各不相同。OpenAI 利用了一种能够在视频和图像编码的时空切片上运行的 Transformer 架构, 最大的模型 Sora 能够生成一分钟的高保真视频。该 研究结果表明扩大视频生成模型的规模是朝着构建通用物理世界模拟器的一条有前景的道路。
这份技术报告主要关注:
- 将各种视觉数据转化为统一表示的方法,从而实现了大规模训练生成模型;
- 对 Sora 的能力和局限性进行定性评估;
过去有大量工作研究使用各种方法对视频数据进行生成建模,包括循环神经网络、生成对抗网络、自回归 Transformer 和扩散模型。 这些工作经常专注于狭窄的视觉数据类别,较短的视频,或固定尺寸的视频。 Sora 是一种通用视觉数据模型——它可以生成持续时间、纵横比和分辨率各不相同的视频和图像,最长可达一分钟的高清视频 。
将视觉数据转化为切片
OpenAI 从大型语言模型获得灵感,后者通过在互联网规模的数据上训练而获得通用能力。语言模型范式的成功在一定程度上归功于使用 token 优雅地统一了各种文本形式——代码、数学和各种自然语言。在这项工作中,OpenAI 考虑生成视觉数据模型如何继承这种优势。语言模型有文本 token,Sora 有视觉切片。之前的研究表明,切片是视觉数据模型的一种有效表示。OpenAI 发现,切片是训练生成模型在不同类型的视频和图像上的一种高度可扩展和有效的表示方法。
在高层次上,OpenAI 通过首先将视频压缩到较低维空间,然后将表示分解为时空切片,从而将视频转换为切片。
视频压缩网络
OpenAI 训练了一个网络来降低视觉数据的维度。该网络以原始视频为输入,输出时空上都经过压缩的隐藏表示。Sora 在这个压缩的隐藏空间中接受训练和后续生成视频。此外还训练了一个相应的解码器模型,将生成的隐藏码映射回像素空间。
时空潜空间切片
给定一个压缩后的输入视频,OpenAI 提取一系列的时空切片,作为 Transformer 的 token。这种方案也适用于图像,因为图像只是单帧视频。基于切片的表示使 Sora 能够对分辨率、持续时间和长宽比可变的视频和图像进行训练。在推理时可以通过以合适大小的网格排列随机初始化的 切片来控制生成视频的大小。
扩展用于视频生成的 Transformer
Sora 是一种扩散模型。给定带有噪声的输入切片 (和文本提示等条件信息),它被训练预测原始的"干净"切片。重要的是,Sora是一种扩散transformer。transformer 已经在各种领域展现出了卓越的扩展能力,包括语言建模、计算机视觉和图像生成。
在这项工作中,OpenAI 发现扩散 Transformer 也能有效应用于视频模型。在训练过程中,使用固定的种子和输入进行采样的比较。随着训练计算量的增加,样本质量显著提高。
可变持续时间、分辨率、纵横比
过去的图像和视频生成方法通常会将视频调整为标准尺寸——例如 4 秒的 256x256 分辨率视频。OpenAI 发现在原始尺寸上训练数据可以带来几个好处。
- 采样灵活性
Sora 可以采样 1920x1080p 的宽屏视频、1080x1920 的竖屏视频以及两者之间任何纵横比的视频。这使 Sora 能够直接为不同设备以其原生纵横比创建内容。它还允许先以较低分辨率快速制作内容原型,然后以全分辨率生成——所有这些都使用同一个模型。
- 改进的构图和镜头
OpenAI 通过实证发现,在原始纵横比上训练视频可以改善构图和镜头。将 Sora 与一个将所有训练视频裁剪为正方形的模型版本进行了比较,后者是训练生成模型时的常见做法。经过正方形裁剪的模型有时会生成主体只有部分在视野内的视频。相比之下,Sora 生成的视频具有改善的构图。
语言理解
训练文本到视频生成系统需要大量带有相应文本描述的视频。OpenAI 在视频上应用了 DALL·E 3 引入的重新描述技术。首先训练一个高度描述性的字幕模型,然后使用它为训练集中的所有视频生成文本描述。OpenAI 发现,在高度描述性的视频字幕上进行训练可以提高文本的保真度以及视频的整体质量。
与 DALL·E 3 类似,OpenAI 还利用 GPT 将用户的简短提示转换为更长、更详细的描述,然后将这些描述发送给视频模型。这使 Sora 能够生成高质量视频,准确地遵循用户的提示。
使用图像和视频提示
以上和我们登陆页面中的所有结果都展示了文本到视频的样本。但 Sora 也可以使用其他输入(如预先存在的图像或视频)作为提示。这种能力使 Sora 能够执行各种图像和视频编辑任务——创建完美循环视频、为静态图像添加动画、向前或向后扩展视频等。
- 为 DALL·E 图像添加动画
Sora 能够在给定图像和提示作为输入的情况下生成视频。
- 延长生成的视频
Sora 还能够延长视频,无论是向前还是向后。 可以使用这种方法同时向前和向后延长一段视频,从而产生无缝的无限循环。
- 视频到视频编辑
扩散模型为基于文本提示编辑图像和视频开辟了诸多方法。OpenAI 将其中一种方法 SDEdit 应用于 Sora。这种技术使 Sora 能够零次学习地转换输入视频的风格和环境。
- 连接视频
还可以使用 Sora 在两个输入视频之间平滑过渡,创建在主题和场景构图完全不同的视频之间无缝过渡。
图像生成能力
Sora 也能生成图像。OpenAI 通过将高斯噪声切片排列在时间跨度为一帧的空间网格中来实现。该模型可以生成高达 2048x2048 分辨率的图像。
新兴的模拟能力
OpenAI 发现大规模训练的视频模型表现出一些有趣的新兴能力。这些能力使 Sora 能够模拟现实世界中的人、动物和环境的某些方面。这些特性的出现并非来自任何针对 3D、物体等的显式归纳偏差——它们纯粹是规模扩大的现象。
- 3D 一致性
Sora 能够生成具有动态摄像机运动的视频。随着相机的移动和旋转,人物和场景元素在三维空间中保持一致性。
- 远程连贯性和物体持久性
视频生成系统一直面临着在采样较长视频时保持时间连贯性的重大挑战。Sora 通常(但并非总是)能够有效地建模短期和长期依赖关系。例如,即使人物、动物或物体被遮挡或离开画面,模型也能够将其持续存在。同样,它能够在单个采样中为同一个角色生成多个镜头,并在整个视频中保持其外观一致。
- 与世界互动
Sora 有时可以模拟以简单方式影响世界状态的行为。 例如,画家可以在画布上留下新的笔触,这些笔触会持续存在,或者一个人可以吃汉堡,在上面留下咬痕。
- 模拟数字世界
Sora 还能够模拟人工过程——一个例子是视频游戏。通过提示涉及"我的世界"的描述,Sora 能够同时使用基本策略控制玩家,并以高保真度渲染世界及其动态。
这些能力表明,继续扩大视频模型规模是朝着开发高度能模拟现实世界及其中的物体、动物和人的模拟器迈进的一条有前景的道路。
讨论
Sora 目前在作为模拟器时存在许多局限性。例如,它无法准确模拟许多基本交互的物理过程,比如玻璃破碎。其他交互,如吃食物,也不总是会产生正确的物体状态变化。OpenAI 在登陆页面上列举了该模型的其他常见失效情况——比如在长时间样本中出现的不连贯性或物体的自发出现。
OpenAI 认为,Sora 当前展现的能力证明了继续扩大视频模型规模是朝着开发能够模拟现实世界及其中的物体、动物和人的高能力模拟器迈进的一条有前景的道路。
点击下方 卡片 ,关注“ 慢慢学AIGC ”