"去熟番茄颜色的房子。"
正常人听到这句话,脑子里会闪过:熟番茄→红色→找红房子。
SIMA 2也是这么想的。然后它真的找到了。
这就是Google DeepMind经过一年多升级后的成果(去年的SIMA 1介绍:Open AI 八年前的设想被谷歌突破啦!DeepMind官宣SIMA,动动嘴就能完成复杂游戏任务)。不再是那种"收到指令,执行指令"的机器人。它开始有自己的想法了。
从指令执行到推理思考
SIMA 1能做600多个基础动作:左转、爬梯子、开地图。像个听话的工具人。
SIMA 2不同。它会思考你的意图,推理环境信息,然后行动。
基于Gemini 2.5 Flash-Lite模型,它现在有了"内心独白"。
31% vs 翻倍跳跃
去年3月的SIMA 1,面对复杂任务成功率31%。人类76%。
差距明显。
现在SIMA 2直接翻倍。不是渐进式改良,是跳跃。
更厉害的是零样本学习。扔到《我的世界》MineDojo版本里,从没见过,照样能干活。
什么都能懂
最好玩的测试:研究员发了个🪓🌲。
SIMA 2去砍树了。
没有复杂的指令解析,没有语义分析。就是懂了。
不只是表情包。你在屏幕上画个草图,它能理解。用法语、德语下指令,它也能执行。
这种理解力,有点像人类的直觉反应。看到符号,瞬间明白意图。
自己教自己
更有趣的是学习方式。
传统AI:喂数据→训练→固化。
SIMA 2:基础训练→自己出题→自己做题→自己打分→改进。
像个学霸,做完作业还要给自己出加餐题。错了就总结,对了就巩固。
人类老师?不需要了。
在AI创造的世界里游戏
最疯狂的测试来了。
DeepMind把SIMA 2扔进Genie 3生成的全新虚拟世界。这些世界完全是AI凭空造出来的,SIMA 2从没见过。
结果?它照样能定位、理解指令、完成任务。
这意味着什么?一个AI在另一个AI创造的世界里正常"生活"。
科幻片既视感。
游戏之外的野心
SIMA 2现在能在这些游戏里折腾:
《无人深空》《我的世界》《Valheim》《太空工程师》...
但DeepMind的野心不止游戏。
想象一下:你让家里的机器人去厨房数豆子罐头。它需要知道什么是豆子,什么是厨房,什么是橱柜。然后导航过去。
SIMA 2专攻前半部分:理解。
后半部分的机械控制,那是另一个问题。
还有哪些限制?
DeepMind很坦诚地说了现在的问题:
长期复杂任务还是搞不定。记忆窗口有限。精确操作还不够好。
但方向对了。
距离AGI还有多远?
DeepMind不给时间表。但方向很清楚。
一个能在虚拟世界思考、学习、适应的AI,离在现实世界做同样的事不远了。
SIMA 2现在只是研究预览。团队想看看外界反应,找找合作机会。
但从演示看,这已经不是传统意义的"工具"了。
它开始有点像智能生物。会思考,会学习,会适应新环境。
从游戏NPC到通用智能,SIMA 2可能是个转折点。
关注公众号回复“进群”入群更多有趣资讯等你来
