AGI新突破：李飞飞等提出一种理解文本、视觉和动作，并在不同领域进行交互的Agent AI - 文章 - 开发者社区


          
论文题目：An Interactive Agent Foundation Model 
          
论文链接：https://arxiv.org/pdf/2402.05929.pdf

随着人工智能技术的发展，研究者们正从创建特定任务的静态模型转向开发能够 适应广泛应用的动态、基于Agent的系统 。这些系统需要具备在 多种任务和数据模态 上进行泛化的能力，以实现人工通用智能（AGI）。

图中展示了一个

Agent AI系统

在多个虚拟环境中与人类互动，处理文本、视频、图像、对话、图像描述和实体动作的能力。

picture.image

论文提出了一个名为“ 交互式智能体基础模型（Interactive Agent Foundation Model） ”的人工智能系统，旨在开发能够在多种应用中表现良好的动态Agent系统。

该模型采用了一种新颖的 多任务智能体训练范式 ，通过在广泛的领域、数据集和任务上训练AI智能体。训练范式结合了

视觉掩蔽自编码器、语言建模和下一步行动预测

等多种预训练策略，构建了一个 多模态和多任务学习 的通用框架。

交互式智能体框架：旨在处理多模态信息，包括文本、视觉和行动，传达不同层次的抽象

picture.image

框架包括以下几个主要组成部分：

任务（TASKS）：定义了Agent需要执行的具体任务。
智能体基础模型（AGENT FOUNDATION MODEL, UNIFIED）：这是模型的核心部分，负责处理输入数据并生成输出。
训练数据（TRAINING DATA）：提供了用于训练模型的数据，包括未标注的帧/图像、语言编码器、视觉编码器、行动预测、视觉描述、视觉问答和行动识别等。
智能体预训练（AGENT PRETRAINING）：在这一阶段，模型通过大量的数据进行预训练，以学习如何理解和预测行动。
任务特定输出（TASK-SPECIFIC OUTPUTS）：基于预训练模型，生成针对特定任务的输出。

模型的核心在于其通用性，利用机器人序列、游戏数据、大规模视频数据集和文本信息等多种数据源进行有效的学习。研究者们展示了该框架在

机器人、游戏AI和医疗保健

三个不同领域的性能，证明了模型能够在每个领域生成有意义且与上下文相关的输出。此外，研究者们还计划公开发布代码和模型，以促进这一领域的研究。

机器人：实验结果体验模型在 理解和执行复杂任务 （如操作机器人）方面的能力，以及它在 预测精确动作 方面的准确性。下图中模型在 CALVIN 数据集上的三个独特演示，其中模型成功遵循了文本指令，除了高级指令，还显示了Agent在每个帧上的低等级预测动作。

picture.image

游戏AI：Bleeding Edge 游戏数据集上的实验结果， 展示模型在处理这种高度动态和视觉复杂的游戏场景时的能力 ，这个数据集包含了玩家在游戏中的一系列复杂动作，模型需要根据视频帧来预测玩家的下一步行动。这些行动可能包括使用特定的游戏控制（如锁定目标、近战攻击、旋转角度、使用特殊能力等），以及玩家在游戏中的具体位置和动作。

picture.image

医疗保健：展示了模型在医疗保健领域的实验结果，特别是在 视频字幕、视觉问答和RASS评分预测 （活动识别）任务上的表现。RASS评分是一个用于评估患者激动或镇静状态的评分系统，评分范围从-5（深度镇静）到+4（极度激动），0分表示患者清醒且警觉。

picture.image

论文还讨论了与基础模型相关的工作，包括多模态理解和基于Agent的AI。在Agent范式部分，提出了一个 新Agent范式 ，旨在支持交互式的多模态通用Agent系统。 图中展示了五个主要模块 ：

picture.image

智能体在环境中的感知与行动（Agent in Environment and Perception）：包括任务规划和观察。
智能体学习（Agent Learning）：智能体通过学习来改进其行为和决策。
记忆（Memory）：智能体需要记忆来处理和利用过去的信息。
行动（Action）：智能体根据其感知和学习结果执行行动。
认知与意识（Cognition and Consciousness）：这里使用“意识”来表示智能体对其状态和周围环境的一定程度的感知。