前几天,混元发布了最新的混元3D世界模型Lite版本,并且同步开源到GitHub。
打开开源地址,映入眼帘的是一句诗
"一沙一世界,一花一天堂"
To see a World in a Grain of Sand , And a Heaven in a Wild Flower
可能有小伙伴还不了解腾讯混元3D世界模型,其实混元的3D世界模型1.0 在7 月 27 日,2025世界人工智能大会腾讯论坛上正式发布。
是业界首个开源 可沉浸漫游、可交互、可仿真的世界生成模型 ,为游戏开发、VR、数字内容创作等领域带来了全新的可能性。
并且在使用方式上十分简单,用户只需输入一句话或上传一张图片,就能生成一个完整、可漫游的3D世界。
我们先看一下3D世界模型的生成效果
如果你上传这样一张图片:
那么你会得到这样的一个3D世界,可以使用键盘的方向键和鼠标来自由的前进、拖动视角。
如果你输入的是一段提示词:
一座漂浮的城堡悬浮在云端,宏伟的城堡塔楼被白色的云雾包围,天空中弯曲的浮桥穿越浓雾,连接着远处的塔楼。云层上方,悬浮的花园盛开着各种美丽的花朵,给人一种神秘而浪漫的氛围。城堡的门口有古老的石雕,身影在云雾中若隐若现,给人一种梦幻般的感觉。
那么你会或者这样一个3D世界,同样可以使用键盘的方向键和鼠标来自由的前进、拖动视角。
官网的视频中有更多的案例
除了我们可以身临其境的漫游之外,混元3D世界模型的技术亮点在于其全方位的场景生成能力和高度的可编辑性。
混元3D世界模型生成的不是简单的贴片视频,而是通过层次化3D场景表征与生成算法,能够支持3D Mesh导出的真3D模型。由此以来,生成的3D模型就能够兼容已有CG管线进行二次开发,如游戏开发、物理仿真、场景编辑等。
也就是说,过去需要专业建模团队数周才能搭建的3D虚拟世界,现在只需一句文字或一张图片,几分钟内即可生成。
除了飞跃式的模型生产效率提升,我看到还有另外一面。
科技的平权和向善
如此强的模型在社区中一定是备受关注的那一个,但是混元3D世界模型1.0对本地显卡的最低要求高达26G,让小企业和个人开发者只有眼馋的份,开源模型对显卡要求高,是个人开发者的最大痛点之一。
8月15日,我惊喜的发现混元3D世界模型1.0推出了Lite版本,大幅降低了运行显存的要求,能够支持消费级显卡部署。
根据技术文档和官方信息,可以一窥混元团队在哪些地方做了技术优化:
- 动态FP8量化技术
通过引入动态FP8量化,混元团队将模型显存需求从原本的 26GB 优化至 17GB 以下,显存占用减少了35%,成功适配消费级显卡。这意味着个人开发者无需昂贵的高端显卡,也能轻松运行复杂的世界模型。
动态量化技术会针对不同参数层数值分布动态调整量化范围,确保在降低精度的同时最大程度保留模型性能,降低显存开销。
浮点数据类型的结构。所有显示的值(在 FP16、BF16、FP8 E4M3 和 FP8 E5M2中)都是最接近数值0.3952的表示形式。
- SageAttention量化技术
通过引入FP8量化注意力算子,将Transformer中的注意力计算使用INT8,同时结合动态平滑与硬件优化,实现注意力计算的推理速度提升2倍以上,精度损失<1% 。结合Attention 量化和线性层量化后显著降低模型运行所需显存。
SageAttention示意图 (per-block quantize Q,K; FP16 V)
- Cache算法加速推理
混元团队集成了Cache算法,通过优化冗余时间步,显著提升推理效率,让模型运行更加流畅。通过自动化搜参工具识别出关键时间步和block,优化冗余时间步,显著提升推理效率,让模型运行更加流畅。
Cache示意图
技术名称太深奥没关系,我们可以举一个简单的例子,这就像:
“你要抱着一个大大的羽绒被过安检,你地铁得安检、登机得安检、还得走到登机口,一个成年人抱着也很慢很麻烦。
而以上的技术优化像把那个2m*2m的羽绒被子,用真空抽空压缩成一个书本大小的小包,再给你开VIP通道、跳过重复安检关卡,就算是一个小孩也能飞快入站。”
经过以上技术优化后,模型运行的显存消耗大大降低,单张4090显卡可完美运行。
同时,Lite版本的模型还依旧保持了原模型生成的高水平精度。量化前后视觉效果无损,个人开发者即使使用消费级显卡也可体验到与工业级显卡同等质量的生成结果。
原始效果 | |
量化后效果 | |
|
| |
|
|
将混元3D世界模型 1.0 与业界其他开源3D世界模型进行横向对比,混元World 1.0画面清晰度、推理速度、3D引擎兼容性、可编辑性等多个维度,都优于业界同类模型。
混元3D世界模型1.0在文生世界、图生世界的美学质量和指令遵循能力等关键维度均全面超越当前SOTA的开源模型。
如果经常看我内容的小伙伴可能会有疑惑,跟前几天发布的SEELE的技术路线有相通之处。那混元3D世界模型和谷歌的Genie3有什么区别呢?
同样的,腾讯混元3D世界模型与Genie3生成的最大区别之一,也是“生成的内容,是否可以沉淀为真实资产”
我们依然以此举例,比如中间是你,前方有一个房子,后边有一个柱子。
Genin3 是实时生成路线,Genin3会根据你的输入,实时的生成周围的世界,当你操作视角向前时,身后的世界已经“不存在”了。
只有当你再次视角返回到身后的世界,模型才会重新渲染这个空间。
但是,如图一般,当你视角变动后再看回原来的房屋,再次渲染的“房屋”,本质上已经不是原来的房屋了。
即使他在外观上有可能保持一致,看起来像是原来的。
而腾讯混元3D世界模型生成的是分层的、真实的3D资产。不仅不以视角为转移,还能直接导出为3D文件。
目前,混元3D世界模型能够实现对场景中的天空、地面、植被、物体等不同组件分层建模。
生成的世界可导出为3D mesh格式文件,兼容Unity、Unreal Engine、Blender等主流工具。用户可对场景内元素进行独立编辑或物理仿真,无缝衔接AIGC技术与传统CG工作流。
比如,控制一个石球在3D世界中滚动、跳跃:
比如可以让一个人行走在未来的星球场景中:
再比如,引入物理碰撞,让物体之间有碰撞效果。
在消费级显卡上能达到如此效果,并且完美兼容现有的CG和3D工业生产管线,混元3D世界模型的使用价值不言而喻。
未来,消费级算力设备一定会像智能手机一样走进千家万户。
未来,每个人都能在方寸之间创造世界。
未来,在你点击生成3D世界的那一刻:
“双手握无限,刹那即永恒”
Hold Infinity in the palm of your hand , And Eternity in an Hour.
官网地址:3d.hunyuan.tencent.com
技术报告:https://arxiv.org/abs/2507.21809
GitHub地址:https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0
Hugging Face地址:https://huggingface.co/tencent/HunyuanWorld-1
既然看到这里了,请随手点个赞、在看、转发三连吧,感谢你的支持
往期推荐
2、抛砖引玉 | 为什么DeepSeek-R1是推理模型?(万字长文)