大家好,我是PaperAgent,不是Agent!新年快乐!
要说2025年AI圈最火的是什么,智能体(Agent) 当仁不让。从AutoGPT到各类AI助理,Agent几乎成了AI落地的代名词。
2026,新风向,似乎是——世界模型(World Models) × 具身智能(Embodied AI) ,将Agentic AI落地推向物理世界 ,成为新商业变量。
这在昨天推文最后也有讨论:2025,国产开源LLM盘点,DeepSeek不再一家独大
过去这一年,具身智能 已在发力,
- 国内顶尖高校密集出手 :清华大学11月30日揭牌“ 具身智能与机器人研究院 ”,由自动化系主任张涛教授领衔;复旦大学早在今年1月就成立了“ 可信具身智能研究院 ”;北航、北大也纷纷跟进,成立相关研究中心或挂靠实验室。
- AI顶会NeurIPS 2025
:录用5,984篇文章得出的技术热点,
Agent 与具身智能
学术界如此高调布局,背后指向一个共识:具身智能 ,而它的下一站,必须拥有“世界模型”。
那么,什么是“世界模型 ”?简单说,就是AI对物理环境的内部模拟与预测能力——它不只是“看到 ”现在,更要能“想象 ”未来。将世界模型融入视觉-语言-行动(VLA)与导航(VLN)系统,已成为提升机器人长程推理、样本效率与安全性 的关键路径。
2026,也许我们会见证:
- 机器人 不再只是“执行者”,而是“想象者+规划者”
- 模型 不只学习数据,更学习物理规律与因果逻辑
- Agent智能体 在虚拟世界中“预演”成功,再到现实世界中精准落地
基于世界模型的具身智能体框架示例:展示了近期在操控(VLA)与导航(VLN)研究中的应用。
传统 VLA/VLN 把感知-语言-动作当“端到端黑箱”训练,存在两大硬伤:
- 短视 :缺乏显式未来状态预测,长程规划吃力。
- 脆弱 :换环境/物体分布就崩,泛化差。
世界模型带来 4 把斧头:
① 样本效率:想象 rollout 替代昂贵真机交互
② 长程推理:显式状态转移,支持 MPC/MCTS
③ 安全:先“脑内试玩”再真机执行
④ 主动规划:从“被动反应”到“预见未来”
三大架构范式全景
具身智能中世界模型的架构三大范式:
- 模块化架构— —世界模型与策略为相互独立的模块;
- 顺序化架构 ——世界模型先生成高层计划,再指导独立的策略执行;
- 统一化架构— —将世界预测与动作生成融合于一个端到端网络,并联合训练。
模块化:WM 与 Policy 做“分工”
图 4 左右两侧分别对应 Type A/B 流程
- 角色分配
– WM = 环境模拟器(像素或隐空间)
– Policy = 策略优化器(RL/Planner) - 两种玩法
- 迭代模拟器 (Type A):闭环梯度优化,如 DayDreamer 用 RSSM 想象 rollout 更新 Actor-Critic。
- 候选评估器 (Type B):开环一次性打分,如 NWM 生成 100 条轨迹视频,用价值函数排序选最优。
表 2 20+ 模块化论文。
Tips 总结
✅ 可解释、模块复用、易调试
❌ WM 一旦预测不准,Policy 会被带偏;信息瓶颈明显。
顺序化:先“想”后“干”的两级流水线
- 核心思想
- WM 先 自回归 地生成“未来目标”——可以是图像、点云或语言坐标。
- 下游轻量级策略(IDM、Diffusion Policy)再 条件于该目标 生成低层动作。
图 5 一目了然三条路线差异。
- 三条技术路线
- Neural Future States :从视频生成模型中间层抽特征,如 VPP 取 U-Net 上采样块。
- Explicit Latent States :自监督预训练离散/连续潜码,如 LAPA、UniVLA。
- Pixel-level States :直接合成未来帧,再用 IDM 反推动作,如 UniPi、RoboDreamer。
表 3 按输出模态分类列出 30+ 工作
Tips 总结
✅ 天然支持“跨本体迁移”——同样目标图像,不同机械臂都能学;长程规划友好。
❌ 开环脆弱 :一旦想象目标物理不可达,后续全崩;需要“可行性检查器”辅助。
统一化:把“预测”和“控制”揉成一个大网络
图 6 展示统一架构“一边做梦一边出招”的端到端循环。
- 形式化
同一组参数 γ 同时输出未来状态 ŝ 和动作 â:
(ŝ, â) = M_γ(s_, l) - ** backbone 家族**
– 自回归 Transformer :GR-1、GR-2、CoT-VLA 把图像 token、动作 token、文本 token 放同一词表做 next-token prediction。
– 扩散模型 :UWM、PAD 把状态&动作拼接成噪声向量联合去噪,一步出图像+动作。
– 语言即状态 :NavCoT、EO-1 只输出文本坐标或房间标签,轻量化适合导航。
表 4 汇总 30+ 统一化工作,标注是否依赖未来状态生成动作。
Tips 总结
✅ 梯度直接回传,任务性能通常最高;隐式动力学建模更准。
❌ 黑箱、可解释性差;图像 token 序列超长,推理开销大;训练不稳定(梯度尺度差异)。
最后
世界模型 正在把“感知-语言-行动”这条单向链升级为“感知-语言-想象-行动”的闭环认知。 先选型、再落地:
- 要白盒 → 模块化
- 要迁移 → 顺序化
- 要性能 → 统一化
Integrating World Models into Vision Language Action and Navigation: A Comprehensive Survey
https://doi.org/10.36227/techrxiv.176531987.77979037/v1
推荐阅读
动手设计AI Agents:(编排、记忆、插件、workflow、协作)
每天一篇大模型Paper来锻炼我们的思维已经读到这了,不妨点个👍、❤️、↗️三连,加个星标⭐,不迷路哦
