Agent系列：多模态智能体AppAgent v2助力AI手机(简化版) - 文章 - 开发者社区

引言
框架设计
实验结果
总结

引言

自古逢秋悲寂寥，我言秋日胜春朝。

picture.image

随着多模态大语言模型（MLLM）的迅速发展，智能体(Agent)在处理图形用户界面（GUI）交互任务中的应用日益广泛，尤其是在移动设备上。紧接前文：AI手机新纪元：AutoGLM开启后APP时代下的挑战与机遇。今天这篇小作文主要介绍AppAgent v2，这是一种新型的多模态智能体框架，专为提升智能体在移动设备应用中的交互能力而设计。以下简要介绍AppAgent v2 框架的设计、创新、实验结果(本文视为简化版 )，更详细的解读可以阅读本微信公众号详解版 ：Agent系列：AppAgent v2-屏幕智能Agent(详解版)。

论文地址：https://arxiv.org/abs/2408.11824

框架设计

AppAgent v2 的核心创新在于其灵活的动作空间设计，结合了解析器、文本描述和视觉特征，从而提升了智能体对各种UI元素的适应能力，尤其是在处理非标准UI元素时表现突出。通过集成光学字符识别（OCR）和检测工具，AppAgent v2 能够有效识别和解析屏幕上的文本和图像，突破了传统文本智能体在移动应用中的局限。

该框架分为两个主要阶段：探索阶段 和部署阶段 。在探索阶段，智能体通过自主或手动探索记录UI元素的功能，并将其存储在结构化知识库中。知识库整合了多种元素数据（例如解析器、文本内容和视觉描述），为后续任务提供支持。在部署阶段，智能体通过基于检索增强生成（RAG）技术，从知识库中高效检索信息，以执行复杂的多步骤任务。

结构化知识库与动态更新 。AppAgent v2 的知识库设计是其一大亮点。该知识库能够动态更新，整合探索阶段的反馈信息，确保智能体在任务执行过程中能够快速适应新的应用场景。知识库不仅存储UI元素的ID、文本内容和视觉特征，还支持通过视觉特征识别UI元素，以适应不断变化的界面。

此外，AppAgent v2 支持跨应用任务处理并提供安全检查机制，尤其是在处理敏感操作时，智能体可切换至手动模式以保护用户隐私。

实验结果

通过在DroidTask、AppAgent v1 基准和 Mobile-Eval 等多个基准测试中的实验，AppAgent v2 展现了卓越的任务完成率和操作效率。实验结果表明，即使在没有探索阶段的情况下，AppAgent v2 仍能超越其他基线方法，并在跨应用任务和多步骤任务中表现优异。特别是在应对未知应用程序和更新频繁的应用时，AppAgent v2 通过其探索功能显著提升了适应能力。

总结

AppAgent v2 通过灵活的动作空间设计、结构化知识库和强大的探索与部署机制，显著提升了智能体在移动设备上的交互能力和任务执行效率。实验验证了该框架在复杂移动应用场景中的卓越表现，并展示了其在未来智能体研究中的巨大潜力。