Google的新东西：一句话创造可互动的虚拟世界！ - 文章 - 开发者社区

前几天，Google DeepMind发布了一个世界模型——Genie 3。

这个被称为"通用世界模型"的技术，仅仅用一句文字描述，就能在几秒钟内生成一个可以实时交互的3D世界。

picture.image

从文字到世界

当你在Genie 3中输入"佛罗里达飓风中的海岸"，系统立即生成一个波涛汹涌的海滨场景，巨浪拍打着护栏，棕榈树在狂风中摇摆，你可以像玩第一人称游戏一样在其中行走，感受虚拟的暴风雨。

输入"古希腊雅典的大理石建筑群"，一个完整的古代城市立即在你面前展开，阳光透过云层洒在石柱上，你可以在其中自由漫步。

picture.image

Genie 3最令人印象深刻的地方在于它的实时性和持续性。

与传统视频生成不同，它能以每秒24帧的速度生成720P分辨率的交互式环境，并且可以维持数分钟的环境一致性。

当你在虚拟世界中移动时，系统会记住你刚刚经过的地方，如果一分钟后你回到同一个位置，那里的建筑、物体都保持着原本的状态。

传统的游戏开发需要大量的3D建模师、场景设计师、程序员协作数月甚至数年才能构建一个游戏世界。

picture.image

现在，Genie 3将这个过程压缩到了几秒钟。

你可以说"我想要一个充满萤火虫的魔法森林"，然后立即获得一个可以探索的幻想世界，完整的光影效果、动态的萤火虫飞舞、真实的物理碰撞。

Google DeepMind的研究主任Shlomi Fruchter在发布会上强调：

"Genie 3是第一个支持实时交互的通用世界模型。它不局限于特定环境，既能生成照片般逼真的世界，也能创造完全想象的奇幻场景。"

更令人惊讶的是，Genie 3还支持"可提示世界事件"功能。

picture.image

你可以在已经生成的世界中继续输入指令来改变环境。

比如在一个雪山滑雪场景中，你可以突然说"加入一群驯鹿"，系统会立即在画面中生成驯鹿并保持整个场景的物理合理性。

虽然Genie 3的游戏化应用最为直观，但它的真正价值远不止于此，Google将其定位为迈向人工通用智能(AGI)的重要一步。

在教育领域，教师可以通过简单描述就创建沉浸式的历史场景。

想让学生了解古罗马的斗兽场？ 直接生成一个完整的竞技场，让学生在其中行走，观察建筑细节。

需要展示海底生物的生存环境？ 一句话就能创建出深海珊瑚礁，学生可以像潜水员一样探索海洋世界。

picture.image

对于机器人和自动驾驶技术的发展，Genie 3提供了前所未有的训练环境。

研究人员可以快速生成各种复杂场景来测试AI系统的反应能力——从拥挤的城市街道到极端天气条件，从工厂仓库到家庭环境。

Google已经开始用Genie 3训练他们的SIMA智能体，让它在虚拟仓库中学习完成"走向绿色垃圾压缩机"或"接近红色叉车"等任务。

Genie 3的核心技术是自回归生成模型，它逐帧生成世界内容，每一帧都要参考之前生成的所有内容来决定下一步的画面。

这种方式让系统具备了"记忆"能力，能够维持长时间的环境一致性。

系统没有使用传统的物理引擎，而是通过大量视频数据的训练，自主学习了重力、物体运动、光影变化等物理规律。

picture.image

当你看到Genie 3生成的瀑布、火山熔岩流动或者海浪拍岸时，这些效果都不是预编程的，而是AI通过观察真实世界视频后"理解"出来的物理规律。

尽管Genie 3已经展现出惊人的能力，但它仍有一些限制。

目前只能支持几分钟的连续交互，对于需要长时间训练的AI系统来说还不够。

而且在多个智能体复杂交互的场景中，系统的表现还有待提升。

文本渲染也是个问题，除非在初始描述中明确提及，否则生成的文字往往模糊不清。

picture.image

可以预见的是，随着技术的进一步完善，Genie 3可能会彻底改变我们创作、学习和娱乐的方式。

建筑师可以瞬间将设计构想变成可探索的3D空间，作家可以让读者真正"走进"小说场景，历史学家可以重现任何历史时期的真实环境。