Sora能作为物理世界模拟器吗 - 文章 - 开发者社区


        
          
知乎原文：https://zhuanlan.zhihu.com/p/684089478

最近一直被Sora刷屏，给大家带来一篇分享《Sora能作为物理世界模拟器吗》（来自@知乎张俊林）。

picture.image 我们生存的世界有可能是Sora生成的吗

OpenAI宣称Sora是物理世界模拟器，虽然没有明确提世界模型的概念，但很明显一个好的世界模拟器背后自然蕴含着一个好的世界模型。关于Sora是否是物理世界模拟器这点大家争议很大，有人对此支持并开始畅想未来，甚至开始质疑我们目前感知到的环境，包括我们自己，是否也是现有世界之外的一个Sora生成的（我很多时候也这么觉得，但跟Sora无关，这大概是科幻爱好者的通病。如果这个世界真是由世界之外的Sora生成的，我希望写Prompt的大哥把关于我的那部分Prompt再优化一下，拜托啦）。有人表示反对并批评OpenAI过度炒作（我很多时候也这么觉得，主要跟Altman的做事风格有关，目前OpenAI不仅越来越Close，而且有把大模型技术神秘化的趋势）。

我觉得，以目前的技术条件来说，单靠Sora本身很难构造世界模拟器，专门为了让Sora成为世界模拟器而用现有游戏模拟器来训练它是多此一举，这么做一来做不好，游戏模拟器相对复杂的真实世界来说就是一个玩具；二来目前经验是你想构造一个可扩展的有潜力的模型，模型结构简洁通用是个前提条件，如无必要，勿增实体。

picture.image Vision Pro+GPT 4+Sora

但是，让我们把思路打开，对于构建世界模拟器这件重任，其实没有必要赋予Sora这么大的责任负担，不是还有GPT 4吗，应该让它们各司其职，各自承担起一部分责任。假设是GPT 4+Sora两者配合，我认为大概率未来是可以基于两者能力互补而形成世界模型，来构造出逼真虚拟世界的。可以畅想一下，如果是苹果Vision Pro+GPT 4+Sora组合起来会是什么场景，你可以任意时刻进入任意你想体验的世界，无论是合法的还是非法的(谷歌Gemini对此表示强烈反对及严正抗议)，主动走入Matrix不再是梦，想起来是不是令人激动？

我们来仔细分析下各司其职构建世界模拟器的含义。先说无条件（Unconditional，意思没有文本指导）的图片／视频生成模型，比如基于Diffusion的图片／视频生成模型。无条件的Diffusion图片生成模型擅长对物理世界实体的外观（苹果长什么样子）、实体属性（苹果是红色的）、实体间的空间关系（苹果放在桌子上）建模，它能很好生成一个苹果的图片，本质上是生成了3维世界某个场景一个瞬间Snapshot的二维压缩平面，但是它并不知道人们把这个物体叫做“苹果”。

无条件的Diffusion视频生成的话，除了图片里物体间的空间关系，还可以额外学习到时间维度物体的运动规律，也就是物体的运动轨迹（苹果会从树上垂直落到地面），本质上是对物理世界4维时空的3维压缩（平面二维图像+时间维度），但是要注意的是：生成模型通过视频学会的是物体的运动规律和运动轨迹，但不是物理定律，它知道苹果应该朝下向着地面运动，因为它看过很多视频都是这样的，但这并不意味着它学会了牛顿的“万有引力”定律。没有人能只通过看到苹果下落就写出万有引力定律公式，包括牛顿也不行，牛顿能写出来也是经过大量实验以及抽象的推理思考才总结出来的。类似的，视频生成模型也不知道人们把这个视频场景叫做“苹果被风吹落到了地面”。可以看出，无条件图片／视频生成模型强在物体外在形象的表征、物体空间关系以及运动轨迹建模，但弱于抽象思考。归纳而言，可以说无条件的图片／视频生成模型着于“色相”而弱于“法”。

再说语言模型，LLM是从大量人类语言中学习知识的，语言本身就是一种抽象的产物，所以LLM擅长对抽象知识的建模和生成，本质上LLM在Transformer的参数空间内构建了一个由抽象概念编织成的“知识之网”，LLM是靠不同知识之间的相互关系而不是它的“色相”来定义具体知识的。比如它知道“苹果”这个概念，这是网中一节点，在LLM内部看起来就是某个“ID编号2587的”Token；也知道“苹果是一种水果”，这代表“苹果”和“水果”两个概念之间在“知识之网”上的连线；同时也知道“苹果是红色的”这种实体属性关系，但它不知道“红色”看起来是一种什么感觉，和“绿色”的感觉是什么差异，因为颜色的感知是不同波长光波在视网膜上激发出的不同类型的电信号，本质上是一种感觉，通过语言抽象化、概念化赋予叫做“红色／绿色”的ID用于相互之间传递信息，我们人类管这种感觉叫做“红色”，本质也是把某种感知通过离散编码ID化，只不过LLM又把它编码成自己内部的数字Token编号而已。而且，LLM对于空间概念理解也比较薄弱，比如它能生成“苹果在桌子上面”，但是估计不太理解“苹果在桌子左边”的空间布局是什么意思，这源于人类对空间关系的理解主要来自于视觉信道。另外，LLM知道某个概念但是并不知道这个概念对应的外在形象具体是什么样子。所以可以看出，LLM擅长抽象知识和抽象思考，弱于对于空间关系的理解，以及物体外在具体形象的理解。所谓LLM长于“法”而弱于“相”。

当在各自模态范围内不断强化模型能力的时候，本质上仍然在强化它们各自擅长之处，源于本身的弱点无法从根本上得到改善。

然后我们再说SD、Sora这种文本指导（Text Conditional）下的图片／视频生成模型。要注意的一点是，LLM是通过自监督驱动来从数据学习知识的，无需人标注数据，只要把人已经写好的内容给它学就行了。但是，目前无论是SD这种“文生图”模型，还是Sora这种“文生视频”模型（目前的多模态模型也是类似的），究其本质，还是有监督学习，就是说需要大量高质量的标注好的成对的<文本，图>或<文本-视频>数据。我觉得Sora之所以强，最根本的原因应该归功于“合成数据”方面的优势，就是说靠人大量标注<文本-视频>肯定行不通，那么就靠机器自己去标注，在保证质量前提下，大量地、低成本地、快速地扩充标注数据数量，这是目前无论是文生图、还是文生视频效果好不好真正的秘诀和法宝。

再说回来不同模型“各司其职”构建世界模拟器的事情。文本指导（Text Conditional）下的图片／视频生成模型的核心目标不在于各自增强文本模型或者视频生成模型两者各自已经擅长的能力（一般文本编码器[text encoder]模型都是拿来主义，把训练好的文本编码模型拿来直接用，图片encoder-decoder模型一般也是离线训练好直接拿来用的，训练过程中参数是固定的，不会跟着文生视频训练数据而发生变化），而是建立起抽象文本和具象外在形象两者之间的grounding，即对LLM抽象词语概念的外在形象的绑定，学会单词“苹果”对应的外在形象是什么，也学会“河水中顺流而下”这种语言表达所对应的物体运动轨迹是什么，这是“色随法成”，即产生符合文本描述的视频表征内容。好的Grounding的意义在于联合两者各自的优势，一起来更完整的理解或者创造世界模型。

picture.image 大模型的脑裂现象

如果打个比方的话，我觉得不同类型的模型各司其职相互配合来构建世界模拟器，可以把它们之间的关系以及相互的配合过程称为解决“大模型的脑裂现象”：无条件的图片／视频模型类似人类的右脑，擅长形象思维，负责形象世界的生成；LLM类似人类的左脑，擅长语言及抽象思考，负责抽象知识和物理法则的生成和语言描述，包括复杂物理世界规律的建模和表述。如果没有大量高质量的<文本，视频>配对数据的训练，单看两者，就存在大模型表述世界的脑裂现象，而通过类似Sora这种大量配对数据的训练，在两者之间建立起良好的grounding，相当于用“胼胝体”建立起了左右脑之间的信息传输通道，两者联合理解和生成复杂的现实世界。

那你说Sora目前包含世界模型吗？我觉得是包含的，但已经是通过GPT 4+Sora这种打配合的模式。Sora的技术报告里有一句提到“当用户输入Prompt后，会用GPT把短的Prompt改写成长的详细的视频描述文字，然后再作为Sora的输入”（we also leverage GPT to turn short user prompts into longer detailed captions that are sent to the video model.），估计这里用的就是GPT 4。如果Sora世界模型的总含量是100的话，我相信80%的世界模型含量体现在GPT 4产生的视频详细描述里，就是说可以把很多抽象知识、物理世界的规则甚至是物理定律对应的物体外在表现，通过语言描述体现在送给Sora用于产生视频的文字提示里，比如在改写的prompt里写清楚：“篮球碰到墙壁反弹了回来／篮球落到水里溅起水花／路面的积水反射出大楼的倒影等”，而剩下的20%世界知识含量包含在Sora的视频生成过程中（比如物体对应的外观、物体的运动轨迹等，这个可能比较适合直接从图片和视频里学习）。既然LLM擅长物理世界的抽象知识表达，我们不如充分利用它的优点，而Sora则一方面专注做好Grounding，这体现为更精准地遵循文本Prompt指令，如果你prompt里写着“路面积水反射出大楼的倒影”而Sora遵循文本能力强，看着Sora就是了解物理定律的，但是这个物理规则来自于GPT 4产生的Prompt，Sora可能只是Grounding做得好能遵循指令而已；另外一方面Sora把物体的外在形象一致性、空间关系以及运动轨迹表达好就行，两者配合好，我感觉是有望构建物理世界模拟器的。

欢迎多多关注公众号「NLP工作站」，欢迎加入交流群，有问题的朋友也欢迎加我微信「logCong」私聊，交个朋友吧，一起学习，一起进步。我们的口号是“生命不止，学习不停”。

往期推荐：