- 引言
- 框架设计
- 实验结果
- 总结
自古逢秋悲寂寥,我言秋日胜春朝。
随着多模态大语言模型(MLLM)的迅速发展,智能体(Agent)在处理图形用户界面(GUI)交互任务中的应用日益广泛,尤其是在移动设备上。紧接前文:AI手机新纪元:AutoGLM开启后APP时代下的挑战与机遇。今天这篇小作文主要介绍AppAgent v2,这是一种新型的多模态智能体框架,专为提升智能体在移动设备应用中的交互能力而设计。以下简要介绍AppAgent v2 框架的设计、创新、实验结果(本文视为简化版 ),更详细的解读可以阅读本微信公众号详解版 :Agent系列:AppAgent v2-屏幕智能Agent(详解版)。
论文地址:https://arxiv.org/abs/2408.11824
AppAgent v2 的核心创新在于其灵活的动作空间设计,结合了解析器、文本描述和视觉特征,从而提升了智能体对各种UI元素的适应能力,尤其是在处理非标准UI元素时表现突出。通过集成光学字符识别(OCR)和检测工具,AppAgent v2 能够有效识别和解析屏幕上的文本和图像,突破了传统文本智能体在移动应用中的局限。
该框架分为两个主要阶段:探索阶段 和部署阶段 。在探索阶段,智能体通过自主或手动探索记录UI元素的功能,并将其存储在结构化知识库中。知识库整合了多种元素数据(例如解析器、文本内容和视觉描述),为后续任务提供支持。在部署阶段,智能体通过基于检索增强生成(RAG)技术,从知识库中高效检索信息,以执行复杂的多步骤任务。
结构化知识库与动态更新 。AppAgent v2 的知识库设计是其一大亮点。该知识库能够动态更新,整合探索阶段的反馈信息,确保智能体在任务执行过程中能够快速适应新的应用场景。知识库不仅存储UI元素的ID、文本内容和视觉特征,还支持通过视觉特征识别UI元素,以适应不断变化的界面。
此外,AppAgent v2 支持跨应用任务处理并提供安全检查机制,尤其是在处理敏感操作时,智能体可切换至手动模式以保护用户隐私。
通过在DroidTask、AppAgent v1 基准和 Mobile-Eval 等多个基准测试中的实验,AppAgent v2 展现了卓越的任务完成率和操作效率。实验结果表明,即使在没有探索阶段的情况下,AppAgent v2 仍能超越其他基线方法,并在跨应用任务和多步骤任务中表现优异。特别是在应对未知应用程序和更新频繁的应用时,AppAgent v2 通过其探索功能显著提升了适应能力。
AppAgent v2 通过灵活的动作空间设计、结构化知识库和强大的探索与部署机制,显著提升了智能体在移动设备上的交互能力和任务执行效率。实验验证了该框架在复杂移动应用场景中的卓越表现,并展示了其在未来智能体研究中的巨大潜力。