2024年AI领域新趋势：类人机器人技术爆发，AutoRT、ALOHA等新技术加持下的机器人表现逆天！ - 文章 - 开发者社区

进入2024，AI技术的发展趋势是什么样？前面提到了多模态技术是一个重要方向。同时，另一个方向也在快速发展，那就是机器人技术，前者给AI装上了眼睛和耳朵，后者给AI装上了手脚，让它能跑能跳。

还记得去年机器人在联合国开发布会吗？《史上第一个机器人为主角的新闻发布会，在日内瓦举行，来看机器人是如何答记者问的》。

如果它只是宣告机器人时代的开始，那么现在，机器人将进入快速发展的时代。近日，东京大学发表一篇论文《From Text to Motion:Grounding GPT-4 in a Humanoid Robot "Alter3"1》，成功将类人机器人 Alter3 与 GPT-4 连接。他们利用指令让这个机器人完成了一系列的人类行为，例如弹吉他、自拍、扮演鬼魂角色。

他们在论文中阐述了他们是如何做到这一切的。通过大语言模型 (Large Language Model) 将书面指令转换为可执行的代码，从而让机器人能够模仿出多种人类的动作。

picture.image

Alter3 无法理解自己的行为对任何物理过程产生的影响，这从人类角度上看是非常不自然的。因此，Alter3 无法准确理解 "手举多高 "等细节，也就无法相应地改进自己的动作。通过反馈开发和利用外部记忆，Alter3身体模型可以与GPT-4集成，而无需更新其参数。

picture.image

现在，Alter3 可以根据人类的语言反馈重写代码。例如，用户可能会建议："自拍时手臂抬高一点。然后，Alter3 可以将修改后的动作代码作为动作记忆存储在数据库中。这样就能确保下次生成该动作时，将使用经过改进和训练的动作。通过这种反馈积累有关 Alter3 身体的信息，记忆可以有效地充当身体模式。

可以说，东京大学给大家提供了一个很有价值的Agent开发的范例。

就在昨天，Google DeepMind发布了最新的研究成果AutoRT2,SARA-RT3 and RT-Trajectory[4] 。在他们的文章《Shaping the future of advanced robotics[5]》中指出，AutoRT、SARA-RT 和 RT-Trajectory 建立在其 "机器人变形金刚"（Robotics Transformers[6]）研究成果的基础上，帮助机器人更快地做出决策，更好地理解和驾驭它们所处的环境。

简单讲，这三个技术，分别从训练，推理成本与性能，任务泛化出发提升机器人的能力。

picture.image

AutoRT

SARA-RT

RT-Trajectory

在领先的 RT-1 和 RT-2 模型的基础上，推出的AutoRT技术，利用大型基础模型的潜力来培养能够理解实际人类目标的机器人的系统。AutoRT 通过收集更多、更多样的经验性训练数据，有助于扩展机器人的学习范围，使其更好地适应真实世界的需求。在长达七个月的广泛现实世界测试中，该系统能安全地同时指挥多达 20 台机器人，总共使用了多达 52 台不同的机器人，在多个办公楼中收集了包含 77,000 次机器人试验的多样化数据集，涉及 6,650 种独特任务。

作者期待未来能够将这些模型和系统融合，打造出集 RT-Trajectory 的动作泛化、SARA-RT 的高效率以及像 AutoRT 这样的模型所进行的大规模数据收集于一身的机器人。

这还不够，近日一条机器人打扫卫生，做饭的视频火爆网络,比google的机器人看起来更为智能，可谓是将机器人热潮推上一个新高度，这就是斯坦福大学开源遥控机械臂项目 Mobile ALOHA[6]迎来了重大更新，其能力可谓逆天，Mobile ALOHA 在人类遥控中通过神经网络学习双手操作的日常行为，例如炒菜、做清洁、操作冰箱、电梯、咖啡机等等，只需要 50 次人类操作演示就能学会并重现。

参考链接：

[4]https://deepmind.google/discover/blog/shaping-the-future-of-advanced-robotics/

[5]https://deepmind.google/discover/blog/rt-2-new-model-translates-vision-and-language-into-action/

[6]https://mobile-aloha.github.io/