从像素到空间：智汇云舟3D图形引擎如何重塑世界模型的未来 - 文章 - 开发者社区

世界模型的“像素困境”

想象这样一个场景：你戴上VR头盔，走进一个由AI实时生成的虚拟世界。你向左转，看到桌上有一个杯子；你向右走几步再回头——那个杯子还在桌上，形状、颜色、位置都没有变。这听起来再自然不过，但对今天绝大多数AI“世界模型”来说，这恰恰是最难做到的事情。

世界模型（World Model） 是近年来人工智能领域最受瞩目的方向之一。它的目标很直接：让AI能够理解、模拟甚至预测物理世界的演化。一个理想的世界模型，应该像一个小型“物理引擎”，能够根据用户的动作（移动、旋转、抓取等）实时生成连贯的视觉反馈。

目前主流的世界模型走的是这样一条技术路线：用扩散模型（Diffusion Transformer，简称DiT）直接生成像素。 简单来说，就是给AI看一大堆视频，让它学会“预测下一帧画面应该长什么样”。以Cosmos平台为代表的系统已经证明，基于DiT架构、在海量视频数据上训练的世界模型，可以产生时序连贯、物理上看似合理的视觉推演。

但问题也随之而来。

第一个问题： 记忆太短。自回归（Auto-Regressive）生成方式意味着模型根据过去的若干帧来预测下一帧。但受限于硬件，模型能“记住”的过去帧数非常有限——在实际操作中，往往只有几秒钟的画面。当你走出一个房间再回来，模型可能已经“忘记”了房间里桌子上的杯子。一些研究尝试通过外部“记忆库”来存储关键帧，但随着探索范围扩大，记忆库越来越庞大，检索效率急剧下降。

第二个问题： 视角不一致。这是更根本的缺陷。机器人系统通常配备多个摄像头——头顶的、手腕上的、正前方的——以获取互补的视角。但当前的多视角世界模型处理方式非常简单粗暴：把不同视角的图像token像串糖葫芦一样拼在一起，让模型自己去“领悟”视角之间的关系。结果可想而知：同一个物体在不同视角下位置漂移、深度信息自相矛盾、纹理对不上号。

第三个问题： 缺乏持久的空间记忆。现有模型本质上是在“记住像素的历史”，而不是维护一个稳定的三维世界状态。这意味着它们缺乏对世界“持续性”的认知——物体离开视野后是否还存在、回到原地时场景是否依然如故，这些问题对纯像素模型来说都是巨大的挑战。

这些问题的根源是什么？答案指向同一个方向：纯扩散模型缺少对三维空间的显式理解。

问题出在哪？三篇论文的深度剖析

2026年发表的三篇重要论文，从不同角度揭示了这一困境的本质。

PAIWorld团队（中国科学院工业AI研究所）将问题追溯到了两个根本性缺陷：

缺陷一：缺少跨视角的“沟通渠道”。

每个视角都在“闭门造车”，各自生成各自的画面，没有专门的信息通道让它们互相校对。

缺陷二：缺少三维几何的“参考系”。

即使有了沟通渠道，模型也不知道什么样的三维结构才是“物理正确的”——它只会走捷径，比如复制颜色或纹理，而不是真正理解三维空间中的对应关系。

picture.image

研究团队做了一个精妙的论断：这两个缺陷必须同时解决，缺一不可。只有沟通没有几何参考，信息虽然能流通，但流过去的是“垃圾信息”；只有几何参考没有沟通，每个视角虽然知道什么是正确的三维结构，但没法告诉其他视角。PAIWorld通过引入几何感知的跨视角注意力和几何旋转位置编码来建立沟通，同时利用潜在3D-REPA从冻结的3D基础模型中蒸馏出三维感知特征作为学习信号。

PERSIST****团队则从另一个角度切入。他们指出，现有模型的自回归生成方式存在一个“固有缺陷”：模型能处理的过去帧数被硬件严格限制。与其“记住像素的历史”，不如维护一个持久的3D场景表征。 PERSIST将世界模拟分解为三个耦合组件：预测3D场景演化的“世界帧模型”、追踪智能体视点的“相机模型”、以及从3D场景生成像素的“世界到像素生成模块”。所有画面都从同一个三维世界“渲染”出来，不同视角、不同时刻的画面自然保持一致。

picture.image

3WM团队则提出了一个更宏大的愿景：用一个统一的模型搞定所有3D任务——深度估计、新视角合成、物体操作。他们将3WM构建为一个概率图模型，不同任务只是在这个图中走不同的“推理路径”。这种设计本身就暗含了对三维空间结构的建模需求。

三篇论文指向了同一个方向：纯粹基于像素的生成已经碰到了天花板，要让世界模型真正理解物理世界，必须引入显式的三维空间表达。

3D图形引擎：天然的世界模型框架

如果我们退一步想：传统3D图形引擎是怎么做的？

事实上，随着数字孪生与空间智能的发展，越来越多产业界实践已经开始采用"显式三维空间+实时渲染"的技术思路。包括智汇云舟在内的一批空间智能企业，近年来持续围绕视频三维重建、具身云端大脑、数字孪生、自主可控3D引擎等方向进行探索，本质上都是希望构建一个能够长期维护空间状态、支持实时感知与动态更新的三维数字空间。这种工程实践，与当前世界模型正在演进的技术路线具有较高的一致性。

一个3D图形引擎从来不会“记住”每一帧的画面。它维护的是一个完整的三维世界状态——每个物体的位置、形状、材质、光照条件——然后根据当前相机的位置和角度，实时渲染出这一帧应该看到的画面。走出房间再回来？物体的位置数据一直在那里，不会因为你没看它就消失了。

这种“持久3D状态 + 实时渲染”的架构，恰恰是世界模型所需要的。

近年来，神经渲染技术的突破为这一思路提供了强大的技术支撑。神经渲染一般包含三个核心组件：一个3D神经场景表征、一个从3D到2D的投影步骤、以及一个将投影数据加工成最终图像的神经着色步骤。

其中，3D高斯泼溅（3D Gaussian Splatting）和神经辐射场（NeRF）是最受关注的两项技术。高斯泼溅将3D场景表示为一系列带数学分布的“点云泼溅”，能够实现快速、逼真的渲染。而NeRF则通过神经网络隐式地建模场景的几何和外观。

更关键的是，这些3D表达方式正在与生成式AI深度融合。从产业落地来看，越来越多数字孪生平台也开始引入3D Gaussian Splatting、NeRF以及实时神经渲染等能力，以提升复杂场景的空间表达精度。例如，智汇云舟在视频孪生与空间智能领域持续探索视频三维重建、具身云端大脑、自主3D引擎与AI推理能力的融合，其技术方向与世界模型所强调的"持久三维空间表达"具有较高的契合度。

MoVerse的工作尤其具有代表性。它从一个窄视场图像出发，创建可交互导航的场景，其设计思路正是将显式3D表达的 controllability（可控性）和 long-range consistency（长程一致性）与生成式视频模型的感知质量结合起来。

2026年6月，VAST AI Research公布了名为“Project Eden”的通用世界模型项目。与传统视频生成方案将世界状态“压缩”在有限帧数中不同，Project Eden将底层的3D状态推理与视觉渲染在本质上进行了解耦。这几乎就是在描述一个“可学习的3D引擎”。

甚至连DreamX-World 1.0这样的通用交互式世界模型，其数据引擎也结合了“相机精准的Unreal Engine渲染”——用真实的3D引擎来生成训练数据，再用AI来学习和模仿这种3D一致的生成能力。

融合之路：1+1>2

如果我们把扩散模型比作一个“天赋异禀的画家”——他看过无数张照片，能画出以假乱真的画面，但他对三维空间的理解是模糊的、隐式的。而3D图形引擎则像一个“严谨的建筑师”——他精确知道每一个物体在三维空间中的位置，但他的“画功”依赖于手工建模，缺乏创造新场景的能力。

理想的世界模型，应该是“画家”与“建筑师”的结合体。

这条路正在被越来越多的研究者探索。PAIWorld已经在DiT世界模型的基础上引入了3D几何先验；PERSIST用持久3D状态替代了像素历史；3WM用概率图模型统一了多种3D任务。这些工作无一例外都在将三维空间的结构性知识注入到生成式模型中。

从技术演进的视角来看，这条融合之路可能沿着以下几个方向展开：

第一，3D表达作为世界模型的“记忆载体”。 与其让模型记忆海量的像素帧，不如让它维护一个紧凑的3D场景表征——可以是高斯泼溅点云，可以是神经辐射场，也可以是更传统的网格加纹理。这个3D表征作为世界的“持久记忆”，随着智能体的探索不断更新和完善。PERSIST已经证明了这条路的可行性。

第二，3D引擎作为生成过程的“物理约束”。 纯扩散模型生成的内容可能在像素层面很漂亮，但几何上漏洞百出。如果生成过程受到一个3D场景表征的约束——所有像素都必须从同一个3D世界“渲染”出来——那么视角一致性、空间连贯性就成为了内禀属性，而不是需要额外学习的能力。

第三，可微渲染作为“连接器”。 传统的3D图形引擎是不可微的——你没法通过“渲染出来的画面好不好看”来反向优化3D场景。但神经渲染技术（如3D高斯泼溅）是可微的，这意味着整个系统可以从“生成的画面是否真实”这个最终目标出发，端到端地优化3D场景表征、渲染参数和生成策略。

第四，3D场景的生成与编辑。 当世界模型内部维护的是一个显式的3D场景时，用户可以直接在三维空间中编辑这个场景——移动一个物体、改变光照、添加新物体。这种“在3D空间中直接操作”的能力，是纯像素模型永远无法提供的。

未来已来：从“像素预测”到“世界模拟”

让我们回到开头的那个VR场景。

在一个融合了3D图形引擎的世界模型中，当你走进一个虚拟房间时，AI并不是在“生成”一帧又一帧的画面——它是在构建和维护一个完整的三维场景。桌子的位置、杯子的形状、光源的方向，所有这些信息都存储在一个显式的3D表征中。当你转头、走动、甚至离开再回来时，系统只是根据你的新视角重新渲染这个已经存在的3D世界。

这听起来像是传统图形引擎，但它比传统引擎更强大——这个3D世界不是由美术师手工建模的，而是由AI从数据中学习并实时生成的。

从“像素预测”到“世界模拟”，这不仅是技术路线的转变，更是对“智能”本身理解的深化。一个真正智能的系统，不应该只是学会了“画出一幅像真的画面”——它应该理解画面背后那个三维世界的结构、规律和持续性。

三篇论文、数十项相关研究，以及整个领域的前沿探索，都在指向同一个方向：纯扩散模型的时代或许还会继续，但世界模型的未来，一定属于"3D图形引擎式架构"——一个以显式三维空间表达为核心、以神经渲染为接口、以生成式AI为动力的混合系统。
对于数字孪生产业而言，这一趋势同样意味着技术重心正逐步从"三维可视化"走向"空间智能"。包括智汇云舟在内的行业实践者，正在推动数字空间由静态建模向实时感知、空间认知与智能推演演进，这也为未来世界模型在交通、工业、城市治理等真实场景中的落地提供了更加坚实的空间底座。

这条路还很长，但方向已经越来越清晰。