自2月16日(大年初七)OpenAI宣布推出“Sora”以来,业界随之震 动,最近关于Sora的热度也是居高不下,LangGPT社区第一时间对Sora模型相关进行解读,以下是相关正文:
需要说明的是,截止到目前2月25号,OpenAI 的 Sora 模型还未向公众开放! 目前公布出来的仅有Sora官网和一份 技术报告 而已, 在 Sora 正式发布前打着 Sora旗号卖课的都是诈骗!
更多Sora体系化内容可访问: Sora 体系内容(点击原文)
https://langgptai.feishu.cn/wiki/I9Nhw0qLSiSfYEkXRmHcczFAn2c
2月16日(大年初七)OpenAI宣布推出全新的生成式人工智能模型“Sora”,业界随之震动,ChatGPT推出一年以来,从自动生成文字到自动生成图片,再到如今的自动生成视频,全球再度掀起人工智能的关注浪潮。Sora在底层模型和算法上进行了创新,被业界称为视频生成领域的里程碑。
1、Sora是什么?
Sora is an AI model that can create realistic and imaginative scenes from text instructions.
Sora 是一个 AI 模型,可以根据文本指令创建现实且富有想象力的场景。
2、Sora生成的视频具有以下三个特点:
(1)超长时长: Sora可以直接输出长达60秒的1080P高清视频,而其他竞品仅能实现5-20秒左右;
(2)多视角切换: 人物场景在三维空间的移动更为自然,并且能够理解车窗倒影等物理规律,进行交互;
(3)多模态输入处理: 可以接受文字、图片、视频的输入提示,能够根据图像创建视频或补充现有视频,还能沿时间线向前或向后扩展视频
原文:
https://openai.com/research/video-generation-models-as-world-simulators
我们探索在视频数据上对生成模型进行大规模训练。具体来说,我们在不同时长、分辨率和长宽比的视频和图像上联合训练文本条件扩散模型。我们利用转换器架构,对视频和图像潜码的时空片段进行操作。我们最大的模型 Sora 能够生成一分钟的高保真视频。我们的研究结果表明,扩展视频生成模型是构建物理世界通用模拟器的一条可行之路。
本技术报告的重点是:(1) 我们将各种类型的视觉数据转化为统一表示法的方法,这种表示法可用于生成模型的大规模训练;(2) 对 Sora 的能力和局限性的定性评估。本报告不包括模型和实现细节。
之前的许多研究都使用了多种方法对视频数据进行生成建模,包括递归网络、生成对抗网络、 自回归 transformers和扩散模型等。这些作品通常只关注视觉数据的一小类视觉数据、较短的视频或固定大小的视频。Sora 是一种通用的视觉数据模型--它可以生成不同时长、长宽比和分辨率的视频和图像,甚至可以生成整整一分钟的高清视频。
将可视化数据转化为 Patches
我们从大型语言模型中汲取灵感,这些模型通过在互联网规模的数据上进行训练,获得了通用能力。LLM 范式的成功部分得益于token的使用,这些标记优雅地统一了文本代码、数学和各种自然语言的不同模式。在这项工作中,我们将考虑如何继承视觉数据生成模型的这些优点。LLM 有文本标记,而 Sora 有视觉 patches 。我们发现,对于在不同类型的视频和图像上训练生成模型来说,patches 是一种高度可扩展且有效的表示方法。
在高层次上,我们首先将视频压缩到低维潜在空间中,然后将其分解为时空 patches,从而将视频转化为 patches。
视频压缩网络
我们训练了一个可以降低视觉数据的维度的网络。该网络将原始视频作为输入,并输出经过时间和空间压缩的潜在表示。Sora 在此压缩潜空间内进行训练并生成视频。我们还训练了一个相应的解码器模型,将生成的潜像映射回像素空间。
时空潜(空间)patches
给定一个压缩输入视频,我们提取一系列时空 patches 作为 Transformer token。这一方案也适用于图像,因为图像只是单帧视频。我们基于补丁的表示法使 Sora 能够在不同分辨率、持续时间和长宽比的视频和图像上进行训练。在推理时,我们可以通过在适当大小的网格中排列随机初始化的补丁来控制生成视频的大小。
缩放 Transformer 模型用于视频生成任务
Sora 是一个扩散模型21,22,23,24,25;给定输入的噪声 patches(以及文本提示等条件信息)后,经过训练,它能预测出原始的 "干净 " patches。26 transformer在语言建模、13,14 计算机视觉、15,16,17,18 和图像生成等多个领域都表现出显著的可扩展特性。
在这项工作中,我们发现扩散变换器作为视频模型也能有效扩展。下面,我们展示了固定种子和输入的视频样本在训练过程中的对比。随着训练计算量的增加,样本质量明显提高。
视频时长、分辨率和宽高比等可变
以往的图像和视频生成方法通常会将视频调整大小、裁剪或修剪成标准尺寸,例如 256x256 分辨率的 4 秒视频。我们发现,在原始尺寸的数据上进行训练有几个好处。
采样灵活性
Sora 可以采样宽屏 1920x1080p 视频、竖屏 1080x1920 视频以及介于两者之间的所有视频。这样,Sora 就能直接以原始长宽比为不同设备创建内容。它还能让我们在生成全分辨率内容之前,以较小的尺寸快速制作原型--所有这些都使用相同的模型。
改进取景和构图
我们根据经验发现,在原始长宽比的视频上进行训练可以改善构图和取景。我们将 Sora 与将所有训练视频裁剪成正方形的模型版本进行了比较,这是训练生成模型时的常见做法。在正方形裁剪下训练的模型(左图)有时生成的视频只能看到主体的一部分。相比之下,Sora(右)生成的视频取景更好。
语言理解
训练文本到视频生成系统需要大量带有相应文字说明的视频。我们将 DALL-E 3 中引入的重新字幕技术应用于视频。我们首先训练一个高度描述性的字幕模型,然后用它为训练集中的所有视频制作文本字幕。我们发现,在高度描述性的视频字幕上进行训练可提高文本的保真度以及视频的整体质量。
与 DALL-E 3 类似,我们也利用 GPT 将简短的用户提示转化为较长的详细字幕,并发送给视频模型。这使得 Sora 能够准确地按照用户提示生成高质量的视频。
a woman wearing a green dress and a sun hat taking a pleasant stroll in Mumbai India during a winter storm
使用图片和视频提示
上面和我们的落地案例页面中的所有结果都显示了文字生成视频的示例。但 Sora 还可以使用其他输入,如已有的图片或视频。这种功能使 Sora 能够执行各种图像和视频编辑任务--创建完美的循环视频、静态图像动画、向前或向后延长视频时间等。
为 DALL-E 图像制作动画
只要输入图像和提示,Sora 就能生成视频。下面我们将展示根据 DALL-E 231 和 DALL-E 330 图像生成的视频示例。
A Shiba Inu dog wearing a beret and black turtleneck.
扩展生成的视频
Sora 还能向前或向后扩展视频。下面是四段视频,它们都是从一段生成的视频开始向后延伸的。因此,这四段视频的开头都与其他视频不同,但结局都是一样的。
<案例可在知识库文档查看>
我们可以使用这种方法向前和向后延伸视频,以产生可以无缝衔接的无限循环视频。
<案例可在知识库文档查看>
视频到视频的编辑
扩散模型为根据文本提示编辑图像和视频提供了大量方法。下面,我们将把其中一种方法 SDEdit 应用于 Sora。这项技术可使 Sora 在零拍摄的情况下转换输入视频的风格和环境。
视频无缝衔接
我们还可以使用 Sora 在两个输入视频之间逐步插值,在主题和场景构成完全不同的视频之间创建无缝过渡。在下面的示例中,中间的视频插接在左右相应的视频之间。
图像生成功能
Sora 还能生成图像。我们通过在空间网格中排列高斯噪声斑块来生成图像,时间范围为一帧。该模型可生成不同大小的图像,分辨率可达 2048x2048。
新兴模拟能力
我们发现,视频模型在经过大规模训练后,会表现出许多有趣的新兴能力。这些能力使 Sora 能够模拟物理世界中的人、动物和环境的某些方面。这些特性的出现并没有对三维、物体等产生任何明确的归纳偏差--它们纯粹是规模现象。
3D一致性 。
Sora 可以生成动态摄像机运动的视频。随着摄像机的移动和旋转,人物和场景元素会在三维空间中持续移动。
<案例可在知识库文档查看>
长距离一致性和对象持久性。
视频生成系统面临的一个重大挑战是在对长视频采样时保持时间一致性。我们发现,Sora 经常(但并非总是)能够有效地模拟短距离和长距离依赖关系。例如,即使人、动物和物体被遮挡或离开画面,我们的模型也能保持它们的存在。同样,它还能在单个样本中生成同一人物的多个镜头,并在整个视频中保持其外观。
<案例可在知识库文档查看>
与真实世界互动
Sora 有时可以模拟一些影响世界状态的简单动作。例如,画家可以在画布上留下新的笔触,并随着时间的推移而持续,或者一个人可以吃汉堡并留下咬痕。
<案例可在知识库文档查看>
模拟数字世界
Sora 还能模拟人工进程,视频游戏就是一个例子。Sora 可以通过基本策略同时控制 Minecraft 中的玩家,同时高保真地呈现世界及其动态。只需在 Sora 的提示字幕中提及 "Minecraft",就能零距离激发这些功能。
<案例可在知识库文档查看>
这些功能表明,继续扩大视频模型的规模,是开发物理和数字世界以及其中的物体、动物和人的高功能模拟器的一条大有可为的途径。
局限性
作为一款模拟器,Sora 目前还存在许多局限性。例如,它不能准确模拟许多基本交互的物理现象,如玻璃碎裂。其他交互,如吃食物,并不总能产生正确的物体状态变化。我们在案例页面中列举了该模型的其他常见失效模式,例如在长时间样本中出现的不连贯现象或物体的自发出现。
<案例可在知识库文档查看>
我们相信,Sora 今天所拥有的能力证明,不断扩大视频模型的规模,是开发物理和数字世界以及其中的物体、动物和人的功能模拟器的一条大有可为的道路。
<案例可在知识库文档查看>
不要当韭菜,去报所谓的Sora提示词课程,所有的最佳提示词实践都可以在官网找到并实践。
1、提示词相关:
或许,我们应该拿起高中时候的语文书?回味一下当时写作时所用到的技能,我给大家分享一条Sora的视频生成提示词:“ 无人机拍摄的海浪拍击大苏尔加雷角海滩崎岖悬崖的景象。蔚蓝的海水激起白色的波浪,夕阳的金色光芒照亮了岩石海岸。远处有一座小岛,岛上有一座灯塔,悬崖边长满了绿色的灌木丛。从公路到海滩的陡峭落差是一项戏剧性的壮举,悬崖边缘伸出海面。这一景观捕捉到了海岸的原始之美和太平洋海岸公路的崎岖景观。 ”
哪怕没有看到生成的视频,只是听到这段话,是不是脑海里已经出现了一个海边悬崖的波澜壮阔的画面?
但是上面这段话,大部分人肯定都只会这么写“无人机拍一个海边的悬崖,悬崖上有一个灯塔”,肯定是不会出现官方提示的这个效果,所以如何提高我们的语言表达能力和想象力,是当下普通人应该思考的问题~
对于官网中所有的相关精彩示例,最佳prompt实践,LangGPT的小伙伴们都整理到文档中了,有兴趣的同学可自取~ Sora 体系内容
2、编剧导演基础:
要通过Sora生成优美的画面,导演和编剧的一些基本功也是需要的,这里推荐三本经典书籍📚
《故事:材质、结构、风格和银幕剧作的原理》
《救猫咪:电影编剧指南》
《电影剧本写作基础(修订版)》
3、持续阅读:
保证自己进行大量阅读,收集素材。在阅读的过程中,如果有特别有画面感的文字描述,你完全可以记录下来,作为你笔记里的一个特殊分类,标签就可以叫“Sora可变视频”。
4、多看经典电影
这个跟多读书的作用类似,但是效果会更加直接明显一些。例如一些电影的精彩镜头,你完全可以通过截屏或者是片段的方式变成自己的素材库,有点儿像积累PPT的模版库。
上述的3、4点也是得到 快刀青衣老师的观点, 更多应对策略和大头观点都整理到文档中了,有兴趣的同学可自取~
Sora 体系内容(文末点击原文):https://langgptai.feishu.cn/wiki/I9Nhw0qLSiSfYEkXRmHcczFAn2c
《每日经济新闻》记者经过对官方技术报告的梳理,总结出了 Sora 的 6 大优势:
(1)准确性和多样性: Sora 的显著特征之一是能够准确解释长达 135 个单词的长提示。它可以准确地解释用户提供的文本输入,并生成具有各种场景和人物的高质量视频剪辑。这一新工具可将简短的文本描述转化成长达 1 分钟的高清视频。它涵盖了广泛的主题,从人物和动物到郁郁葱葱的风景、城市场景、花园,甚至是水下的纽约市,可根据用户的要求提供多样化的内容。
(2)强大的语言理解: OpenAI 利用 Dall-E 模型的 re-captioning(重述要点)技术,生成视觉训练数据的描述性字幕,不仅能提高文本的准确性,还能提升视频的整体质量。此外,与 DALL·E 3 类似,OpenAI 还利用 GPT 技术将简短的用户提示转换为更长的详细转译,并将其发送到视频模型。这使 Sora 能够精确地按照用户提示生成高质量的视频。
(3)以图/视频生成视频: Sora 除了可以将文本转化为视频,还能接受其他类型的输入提示,如已经存在的图像或视频。这使 Sora 能够执行广泛的图像和视频编辑任务,如创建完美的循环视频、将静态图像转化为动画、向前或向后扩展视频等。OpenAI 在报告中展示了基于 DALL·E 2 和 DALL·E 3 的图像生成的 demo 视频。这不仅证明了 Sora 的强大功能,还展示了它在图像和视频编辑领域的无限潜力。
(4)视频扩展功能: 由于可接受多样化的输入提示,用户可以根据图像创建视频或补充现有视频。作为基于 Transformer 的扩散模型,Sora 还能沿时间线向前或向后扩展视频。从 OpenAI 提供的 4 个 demo 视频看,都从同一个视频片段开始,向时间线的过去进行延伸。因此,尽管开头不同,但视频结局都是相同的。
(5)优异的设备适配性: Sora 具备出色的采样能力,从宽屏的 1920x1080p 到竖屏的 1080x1920,两者之间的任何视频尺寸都能轻松应对。这意味着 Sora 能够为各种设备生成与其原始纵横比完美匹配的内容。而在生成高分辨率内容之前,Sora 还能以小尺寸迅速创建内容原型。
(6)场景和物体的一致性和连续性: Sora 可以生成带有动态视角变化的视频,人物和场景元素在三维空间中的移动会显得更加自然。Sora 能够很好地处理遮挡问题。现有模型的一个问题是,当物体离开视野时,它们可能无法对其进行追踪。而通过一次性提供多帧预测,Sora 可确保画面主体即使暂时离开视野也能保持不变。
下文内容由秘塔AI共创,部分观点也只是猜测
Sora被称为世界模型,主要是因为它能够生成符合物理规律的视频,这表明它能够模拟和理解物理世界的基本规律。
OpenAI将Sora定位为“作为世界模拟器的视频生成模型”,这意味着它不仅仅是视频生成工具,而是试图通过技术手段让计算机能够像人类一样全面、准确地认知世界。
Sora的工作原理涉及到对真实物理世界的模拟,包括复杂的渲染、物理规则和长期推理,这些都是对真实物理世界的建模过程。此外,Sora还展示出了对现实世界的理解能力,这是超越了感知能力的认知能力。
因此,Sora之所以被称为“世界模型”,是因为它的核心功能在于模拟现实世界的复杂度和多样性,从而实现对物理世界的全面和准确的认知。
Sora视频生成模型是如何模拟物理世界的?
Sora视频生成模型通过多种技术手段模拟物理世界。首先,Sora是一个数据驱动的物理引擎,它不仅能够生成视频,还能对虚拟和现实世界进行模拟。这意味着它能够通过学习和推理,构建出直观的物理效果,并进行长期推理和语义基础的处理。此外,Sora模型采用了扩散型变换器(diffusion transformer)架构,这种架构能够将随机噪声逐渐转化为有意义的图像或视频内容。这使得模型能够处理和生成具有复杂动态和空间关系的高质量视频。
Sora的另一个关键特点是其能够理解物体在物理世界中的存在,并且即使在人、动物和物体被遮挡或离开画面时也能保持它们的存在。这表明Sora能够在单个样本中生成同一角色的多个镜头,并在整个视频中保持其外观。这些能力使得Sora成为一个有前途的物理世界通用模拟器。
Sora视频生成模型通过其数据驱动物理引擎的架构,结合扩散型变换器和扩散补丁等技术,以及能够理解物体在物理世界中的存在和与世界互动的能力,成功模拟了物理世界的复杂性和多样性。
Sora在模拟现实世界复杂度和多样性方面的具体案例有哪些?
- 视频游戏模拟 :Sora能够通过基本策略同时控制Minecraft中的玩家,同时高保真地呈现世界及其动态。这表明Sora具备模拟数字世界的能力,尤其是在游戏领域的应用。
- 视觉数据生成 :Sora可以生成跨越不同时长、宽高比和分辨率的视频和图像,显示出其作为视觉数据的多面手的能力。这种能力使得Sora能够在不同的场景和条件下生成高保真度和多样性的视频和图像内容。
- 影视行业应用 :OpenAI表示,Sora能够用于评估关键区域的危害或风险,并向视觉艺术家、设计师和电影制作人授予访问权限,以推进该模型对创意专业人士的帮助。虽然Sora在影视行业的应用还未完全成熟,但它已经展现了其在模拟复杂场景方面的潜力。
- 物理世界的空间模拟能力 :Sora在关键指标上大幅领先之前的一些视频生成类模型,其对物理世界的空间模拟能力甚至达到了逼近真实的水平。这一点说明Sora在模拟现实世界的空间复杂度方面具有显著优势。
- 多样化的视频和图像生成 :Sora能够生成高保真度、多样性的逼真视频和图像内容,包括不同分辨率和风格的视频和图像。这种多样性和创新能力展示了Sora在模拟现实世界的多样性方面所能达到的水平。
Sora在模拟现实世界复杂度和多样性方面的具体案例包括视频游戏模拟、视觉数据生成、影视行业应用、物理世界的空间模拟能力以及多样化的视频和图像生成等方面。这些案例展示了Sora在模拟现实世界的复杂度和多样性方面所展现出的强大能力。
关于Sora还有各个大头的相关观点,点击原文查看更多~
-
Sora 系列推荐阅读 文章
-
大揭秘:OpenAI公布Sora模型技术原理以及训练细节
-
4大行业将因OpenAI超强Sora模型变天,给你3条应对变革小建议
-
零门槛解读Sora生成视频为什么牛,普通人可以提前做三点准备
-
大佬观点、行业研报等等
结语
大变革已经到来,我们不必焦虑,打好基本功,保持好奇心,多学多用,踏着浪潮,迎风而上吧!