2026,新风向,似乎是:世界模型×具身智能

大模型机器学习算法

大家好,我是PaperAgent,不是Agent!新年快乐!

要说2025年AI圈最火的是什么,智能体(Agent) 当仁不让。从AutoGPT到各类AI助理,Agent几乎成了AI落地的代名词。

picture.image

最新Agentic AI综述:架构、应用与未来

2026,新风向,似乎是——世界模型(World Models) × 具身智能(Embodied AI) ,将Agentic AI落地推向物理世界 ,成为新商业变量。

picture.image

一份最新具身智能中的世界模型&安全综述

这在昨天推文最后也有讨论:2025,国产开源LLM盘点,DeepSeek不再一家独大

过去这一年,具身智能 已在发力,

  • 国内顶尖高校密集出手 :清华大学11月30日揭牌“ 具身智能与机器人研究院 ”,由自动化系主任张涛教授领衔;复旦大学早在今年1月就成立了“ 可信具身智能研究院 ”;北航、北大也纷纷跟进,成立相关研究中心或挂靠实验室。
  • AI顶会NeurIPS 2025 :录用5,984篇文章得出的技术热点, Agent 与具身智能 picture.image

学术界如此高调布局,背后指向一个共识:具身智能 ,而它的下一站,必须拥有“世界模型”。

那么,什么是“世界模型 ”?简单说,就是AI对物理环境的内部模拟与预测能力——它不只是“看到 ”现在,更要能“想象 ”未来。将世界模型融入视觉-语言-行动(VLA)与导航(VLN)系统,已成为提升机器人长程推理、样本效率与安全性 的关键路径。

picture.image

2026,也许我们会见证:

  • 机器人 不再只是“执行者”,而是“想象者+规划者”
  • 模型 不只学习数据,更学习物理规律与因果逻辑
  • Agent智能体 在虚拟世界中“预演”成功,再到现实世界中精准落地

picture.image

基于世界模型的具身智能体框架示例:展示了近期在操控(VLA)与导航(VLN)研究中的应用。

传统 VLA/VLN 把感知-语言-动作当“端到端黑箱”训练,存在两大硬伤:

  1. 短视 :缺乏显式未来状态预测,长程规划吃力。
  2. 脆弱 :换环境/物体分布就崩,泛化差。

世界模型带来 4 把斧头:

① 样本效率:想象 rollout 替代昂贵真机交互

② 长程推理:显式状态转移,支持 MPC/MCTS

③ 安全:先“脑内试玩”再真机执行

④ 主动规划:从“被动反应”到“预见未来”

三大架构范式全景

具身智能中世界模型的架构三大范式:picture.image

  • 模块化架构— —世界模型与策略为相互独立的模块;
  • 顺序化架构 ——世界模型先生成高层计划,再指导独立的策略执行;
  • 统一化架构— —将世界预测与动作生成融合于一个端到端网络,并联合训练。

模块化:WM 与 Policy 做“分工”

picture.image

图 4 左右两侧分别对应 Type A/B 流程

  • 角色分配
    – WM = 环境模拟器(像素或隐空间)
    – Policy = 策略优化器(RL/Planner)
  • 两种玩法
  1. 迭代模拟器 (Type A):闭环梯度优化,如 DayDreamer 用 RSSM 想象 rollout 更新 Actor-Critic。
  2. 候选评估器 (Type B):开环一次性打分,如 NWM 生成 100 条轨迹视频,用价值函数排序选最优。

picture.image

表 2 20+ 模块化论文。

Tips 总结
✅ 可解释、模块复用、易调试
❌ WM 一旦预测不准,Policy 会被带偏;信息瓶颈明显。

顺序化:先“想”后“干”的两级流水线

  • 核心思想
  1. WM 先 自回归 地生成“未来目标”——可以是图像、点云或语言坐标。
  2. 下游轻量级策略(IDM、Diffusion Policy)再 条件于该目标 生成低层动作。

picture.image

图 5 一目了然三条路线差异。

  • 三条技术路线
  1. Neural Future States :从视频生成模型中间层抽特征,如 VPP 取 U-Net 上采样块。
  2. Explicit Latent States :自监督预训练离散/连续潜码,如 LAPA、UniVLA。
  3. Pixel-level States :直接合成未来帧,再用 IDM 反推动作,如 UniPi、RoboDreamer。

picture.image

表 3 按输出模态分类列出 30+ 工作

Tips 总结
✅ 天然支持“跨本体迁移”——同样目标图像,不同机械臂都能学;长程规划友好。
开环脆弱 :一旦想象目标物理不可达,后续全崩;需要“可行性检查器”辅助。

统一化:把“预测”和“控制”揉成一个大网络

picture.image

图 6 展示统一架构“一边做梦一边出招”的端到端循环。

  • 形式化
    同一组参数 γ 同时输出未来状态 ŝ 和动作 â:
    (ŝ, â) = M_γ(s_, l)
  • ** backbone 家族**
    自回归 Transformer :GR-1、GR-2、CoT-VLA 把图像 token、动作 token、文本 token 放同一词表做 next-token prediction。
    扩散模型 :UWM、PAD 把状态&动作拼接成噪声向量联合去噪,一步出图像+动作。
    语言即状态 :NavCoT、EO-1 只输出文本坐标或房间标签,轻量化适合导航。

picture.image

表 4 汇总 30+ 统一化工作,标注是否依赖未来状态生成动作。

Tips 总结
✅ 梯度直接回传,任务性能通常最高;隐式动力学建模更准。
❌ 黑箱、可解释性差;图像 token 序列超长,推理开销大;训练不稳定(梯度尺度差异)。

最后

世界模型 正在把“感知-语言-行动”这条单向链升级为“感知-语言-想象-行动”的闭环认知。 先选型、再落地:

  • 要白盒 → 模块化
  • 要迁移 → 顺序化
  • 要性能 → 统一化
  
Integrating World Models into Vision Language Action and Navigation: A Comprehensive Survey  
https://doi.org/10.36227/techrxiv.176531987.77979037/v1  

推荐阅读

动手设计AI Agents:(编排、记忆、插件、workflow、协作)

大模型虽好,但恕我直言:在OCR面前,开源小模型更香

AI Code赛道抛出一匹黑马:来自于字节跳动

一篇最新自演化AI Agents全新范式系统性综述


每天一篇大模型Paper来锻炼我们的思维已经读到这了,不妨点个👍、❤️、↗️三连,加个星标⭐,不迷路哦

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
VikingDB:大规模云原生向量数据库的前沿实践与应用
本次演讲将重点介绍 VikingDB 解决各类应用中极限性能、规模、精度问题上的探索实践,并通过落地的案例向听众介绍如何在多模态信息检索、RAG 与知识库等领域进行合理的技术选型和规划。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论