AGI新突破:李飞飞等提出一种理解文本、视觉和动作,并在不同领域进行交互的Agent AI

MySQLService Mesh容器

          
论文题目:An Interactive Agent Foundation Model 
          
论文链接:https://arxiv.org/pdf/2402.05929.pdf
      

随着人工智能技术的发展,研究者们正从创建特定任务的静态模型转向开发能够 适应广泛应用的动态、基于Agent的系统 。这些系统需要具备在 多种任务和数据模态 上进行泛化的能力,以实现人工通用智能(AGI)。

图中展示了一个

Agent AI系统

在多个虚拟环境中与人类互动, 处理文本、视频 、图像、对话、图像描述和实体动作的能力。

picture.image

论文提出了一个名为“ 交互式智能体基础模型(Interactive Agent Foundation Model) ”的人工智能系统,旨在开发能够在多种应用中表现良好的动态Agent系统。

该模型采用了一种新颖的 多任务智能体训练范式 ,通过在广泛的领域、数据集和任务上训练AI智能体。训练范式结合了

视觉掩蔽自编码器、语言建模和下一步行动预测

等多种预训练策略,构建了一个 多模态和多任务学习 的通用框架。

交互式智能体框架:旨在处理多模态信息,包括文本、视觉和行动,传达不同层次的抽象

picture.image

框架包括以下几个主要组成部分:

  1. 任务(TASKS):定义了Agent需要执行的具体任务。
  2. 智能体基础模型(AGENT FOUNDATION MODEL, UNIFIED):这是模型的核心部分,负责处理输入数据并生成输出。
  3. 训练数据(TRAINING DATA):提供了用于训练模型的数据,包括未标注的帧/图像、语言编码器、视觉编码器、行动预测、视觉描述、视觉问答和行动识别等。
  4. 智能体预训练(AGENT PRETRAINING):在这一阶段,模型通过大量的数据进行预训练,以学习如何理解和预测行动。
  5. 任务特定输出(TASK-SPECIFIC OUTPUTS):基于预训练模型,生成针对特定任务的输出。

模型的核心在于其通用性,利用机器人序列、游戏数据、大规模视频数据集和文本信息等多种数据源进行有效的学习。研究者们展示了该框架在

机器人、游戏AI和医疗保健

三个不同领域的性能,证明了模型能够在每个领域生成有意义且与上下文相关的输出。此外,研究者们还计划公开发布代码和模型,以促进这一领域的研究。

机器人:实验结果体验模型在 理解和执行复杂任务 (如操作机器人)方面的能力,以及它在 预测精确动作 方面的准确性。下图中模型在 CALVIN 数据集上的三个独特演示,其中模型成功遵循了文本指令,除了高级指令,还显示了Agent在每个帧上的低等级预测动作。

picture.image

游戏AI:Bleeding Edge 游戏数据集上的实验结果, 展示模型在处理这种高度动态和视觉复杂的游戏场景时的能力 ,这个数据集包含了玩家在游戏中的一系列复杂动作,模型需要根据视频帧来预测玩家的下一步行动。这些行动可能包括使用特定的游戏控制(如锁定目标、近战攻击、旋转角度、使用特殊能力等),以及玩家在游戏中的具体位置和动作。

picture.image

医疗保健:展示了模型在医疗保健领域的实验结果,特别是在 视频字幕、视觉问答和RASS评分预测 (活动识别)任务上的表现。RASS评分是一个用于评估患者激动或镇静状态的评分系统,评分范围从-5(深度镇静)到+4(极度激动),0分表示患者清醒且警觉。

picture.image

论文还讨论了与基础模型相关的工作,包括多模态理解和基于Agent的AI。在Agent范式部分,提出了一个 新Agent范式 ,旨在支持交互式的多模态通用Agent系统。 图中展示了五个主要模块

picture.image

  1. 智能体在环境中的感知与行动(Agent in Environment and Perception):包括任务规划和观察。
  2. 智能体学习(Agent Learning):智能体通过学习来改进其行为和决策。
  3. 记忆(Memory):智能体需要记忆来处理和利用过去的信息。
  4. 行动(Action):智能体根据其感知和学习结果执行行动。
  5. 认知与意识(Cognition and Consciousness):这里使用“意识”来表示智能体对其状态和周围环境的一定程度的感知。

推荐阅读


欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论