GUI Agent综述 : 5-GUI Agent框架百家争鸣

大模型向量数据库云通信
前言

半盏屠苏犹未举,灯前小草写桃符。

picture.image

小伙伴们新年好,延续前文GUI Agent综述系列:

GUI Agent综述:9部曲揭秘下一代人机交互的前世今生-1:总览

GUI Agent综述:9部曲揭秘下一代人机交互的前世今生-2:三大技术基石

GUI Agent综述:9部曲揭秘下一代人机交互的前世今生-3:发展历程

GUI Agent综述:9部曲揭秘下一代人机交互的前世今生-4:深度解读GUI Agent的核心组件及其最新进展

今天这篇小作文主要介绍LLM驱动下的各种GUI Agent框架。后续还有以下4个章节,感兴趣的小伙伴可以留意下:

  • GUI Agent综述:6-GUI Agent训练数据收集
  • GUI Agent综述:7-基于 LLM 的 GUI Agent 模型优化
  • GUI Agent综述:8-GUI Agent的评测
  • GUI Agent综述:9-GUI Agent应用与未来

更多智能体(Agent)相关可以订阅此专题: 智能体(Agent) 专题

6 LLM驱动的GUI Agent框架

LLM的集成开启了构建GUI agent的新可能性,使其能够解释用户请求、分析GUI组件,并在各种环境中自主执行操作。通过为这些模型配备 第5节概述的基本组件和功能 ,研究人员已经创建了针对各种平台和应用的复杂框架。这些框架代表了一个快速发展的研究领域,每个框架都引入了创新技术和专业功能,推动了GUI agent所能达到的边界。

为了全面了解该领域,首先在表6、7、8和9中总结了Web、移动、计算机和跨平台的关键框架,重点介绍了它们的功能、目标平台和显著的创新。这些总结是理解LLM驱动的GUI agent开发广度的切入点。在概述之后,将详细讨论每个框架,研究它们的基本设计原则、技术进步以及它们在GUI自动化领域解决的具体挑战。通过深入研究这些方面,旨在更深入地了解这些agent如何塑造人机交互和任务自动化的未来,以及它们在该变革性领域发展中发挥的关键作用。

6.1 Web GUI Agent

Web GUI agent的进步在自动化各种动态Web环境中的复杂任务方面取得了显著进展。最近的框架引入了创新方法,利用多模态输入、预测建模和特定任务优化来提高性能、适应性和效率。在本小节中将深入研究这些框架,突出它们的独特贡献以及它们如何共同推动基于Web的GUI自动化边界。

picture.image

一个显著的趋势是集成多模态功能,以改善与动态Web内容的交互。例如,SeeAct利用GPT-4V的多模态能力,有效地将操作建立在实时网站上。通过利用视觉数据和HTML结构,SeeAct集成了使用图像注释、HTML属性和文本选择的接地技术,优化了与实时Web内容的交互。这种方法使SeeAct在实时Web任务中实现了51.1%的任务成功率,突显了动态评估在开发稳健Web agent中的重要性。

WebVoyager 凭借多模态输入的优势,通过支持真实网络环境中的端到端任务完成,推动了自主网络导航的发展。它利用 GPT-4V 处理视觉(屏幕截图)和文本(HTML 元素)输入,有效地与动态 Web 界面交互, 包括那些具有动态渲染内容和复杂交互元素的界面。这种多模态能力使得 WebVoyager 能够管理复杂的界面,其成功率显著高于传统的纯文本方法,为基于 Web 的任务自动化设定了新的基准。

除了多模态集成,一些框架专注于解析复杂的 Web 结构并生成可执行代码来导航复杂的网站。WebAgent 采用了一种双层模型方法,结合了用于解析长而复杂的 HTML 文档的 HTML-T5 和用于程序合成的 Flan-U-PaLM。这种模块化设计使 WebAgent 能够将用户指令转换为可执行的 Python 代码,通过特定于任务的子指令自主处理复杂的真实网站。与传统的单Agent模型相比,WebAgent 在真实网站上的成功率提高了 50%,这展示了将 HTML 特定解析与代码生成相结合,应用于多样化和动态 Web 环境的优势。

为了增强网络导航中的决策能力,一些框架引入了状态空间探索和搜索算法。LASER将网络导航建模为状态空间探索,允许灵活的回溯和高效的决策,而无需大量的上下文示例。通过将动作与特定状态相关联,并利用 GPT-4 的函数调用功能进行基于状态的动作选择,LASER 最大限度地减少了错误并提高了任务成功率,尤其是在 WebShop 和亚马逊等电子商务导航任务中。这种基于状态的方法提供了一种可扩展且高效的解决方案,提高了 LLM agent 在 GUI 导航中的效率。

类似地,Search-Agent创新性地引入了最佳优先搜索算法,以增强交互式 Web 环境中的多步推理。 通过探索多个动作路径,这种方法提高了决策能力,在 WebArena等基准测试中成功率提高了高达39%。 Search-Agent 与现有多模态 LLM 的兼容性证明了基于搜索的算法对于复杂、交互式 Web 任务的有效性。

在基于搜索的策略基础上,WebPilot采用了一种结合全局和局部蒙特卡洛树搜索 (MCTS) 的双重优化策略,以提高在复杂和动态环境中的适应性。如图 19 所示,WebPilot 将总体任务分解为可管理的子任务,每个子任务都进行局部优化。这种方法使 WebPilot 能够根据实时观察不断调整其策略,模拟类似人类的决策和灵活性。在 WebArena和MiniWoB++等基准测试上的广泛测试表明,WebPilot 具有最先进的性能,与现有方法相比,展现出卓越的适应性。

picture.image

为了进一步推进预测建模的概念,WMA 引入了一个世界模型来模拟和预测 UI 交互的结果。通过关注基于转换的观察,WMA 允许 agent 在执行操作之前模拟操作结果,从而减少不必要的操作并提高任务效率。这种预测能力在需要高精度的长时程任务中尤其有效,WMA 在 WebArena 和 Mind2Web 等基准测试中表现出强大的性能。

与此类似,WebDreamer 创新性地利用 LLM 进行 Web 导航中的基于模型的规划,如图 20 所示。WebDreamer 在执行之前使用 LLM 模拟和评估潜在的动作及其多步结果,类似于一个“梦想家”设想各种场景。通过预先评估不同计划的潜在价值,WebDreamer 选择并执行预期价值最高的计划。这种方法解决了 Web 自动化中的关键挑战, 例如安全问题以及在复杂和动态环境中进行稳健决策的需求,在 VisualWebArena 和 Mind2Web-live 等基准测试中表现出优于反应式 agent 的性能。

picture.image

除了预测建模之外,将 API 交互集成到 Web 导航中可以提供更高的灵活性和效率。Hybrid Agent结合了 Web 浏览和 API 交互,根据任务需求动态切换方法。通过利用 API 调用进行结构化数据交互,Hybrid Agent 减少了传统 Web 导航所涉及的时间和复杂性,在任务执行中实现了更高的准确性和效率。这种混合架构强调了在 AI agent 系统中集成结构化 API 数据和类似人类的浏览能力的优势。

为了解决复杂Web结构和跨域交互的挑战,AutoWebGLM 提供了一种高效的解决方案,通过简化 HTML 来关注关键网页组件, 从而提高任务准确性。通过使用强化学习和拒绝采样进行微调,AutoWebGLM 在英语和中文网站上的复杂导航任务中表现出色。其双语数据集和结构化的动作感知模块使其适用于跨域 Web 交互,强调了在多样化 Web 任务中高效处理的重要性。

总而言之,最近的 Web GUI agent 框架通过集成多模态输入、 预测模型和高级任务特定优化取得了实质性进展。这些创新为现实世界的任务提供了强大的解决方案,增强了基于 Web 的 GUI agent 的能力,并在开发智能、自适应的 Web 自动化方面迈出了重要一步。

6.2 移动GUI Agent

移动GUI Agent的发展经历了显著的技术进步,通过多模态模型、复杂架构和自适应规划,成功应对了移动环境中的独特挑战。这些Agent从最初的基础交互功能,发展到能够在各种移动应用中执行动态、上下文感知操作的复杂系统。

picture.image

早期的研究重点在于实现类人化的GUI交互,而无需访问后台系统。其中一个开创性的框架是 AppAgent ,它利用了GPT-4V的多模态能力,能够理解并响应视觉和文本信息。通过实时截图和结构化XML数据,AppAgent可以直接与GUI进行交互,例如执行点击和滑动操作,适用于从社交媒体到复杂图像编辑的多种应用。AppAgent通过自主探索和观察人类演示来学习新应用的使用方式,这种独特的学习方法展现了多模态能力在移动Agent中的高效性和适应性。

在此基础上, AppAgent-V2 对框架进行了进一步改进,增强了视觉识别能力,并引入了结构化数据解析。这使其能够进行更精确的上下文感知交互,并在不同应用中执行复杂的多步操作。此外, AppAgent-V2 还引入了安全检查机制以处理敏感数据,并通过实时跟踪和适应交互来支持跨应用任务。该框架的进化突显了高级视觉识别和结构化数据处理在提升任务精度和安全性方面的重要性,尤其是在实时移动环境中。

与此同时,以视觉为核心的方法也逐步兴起,进一步提升了移动任务自动化能力,而无需依赖特定应用的数据。例如, Mobile-Agent 利用OCR、CLIP和 Grounding DINO等视觉感知工具,通过截图和视觉工具进行操作。Mobile-Agent能够按照指令执行从应用导航到复杂多任务的操作,并通过自我反思机制调整错误。这种基于视觉的方法使Mobile-Agent成为了一个灵活且适应性强的移动任务助手。

为了解决长序列导航和复杂多应用场景中的挑战, Mobile-Agent-v2 引入了一种多Agent架构,将规划、决策和反思任务分离。通过三个Agent分工协作,该框架优化了任务进度跟踪,保留了与任务相关的信息,并在错误发生时进行纠正。结合诸如Grounding DINO 和 Qwen-VL-Int4 等先进的视觉感知工具,Mobile-Agent-v2 在Android和Harmony OS上的任务完成率显著提升,展示了多Agent系统在处理复杂移动任务中的潜力。

除了以视觉为核心的方法外,一些框架还尝试将GUI状态转换为自然语言,从而实现基于LLM的动作规划。 VisionTasker 通过处理移动UI截图,将视觉UI解析与顺序化LLM任务规划相结合,生成结构化的自然语言描述。借助YOLO-v8和 PaddleOCR28 进行组件检测,VisionTasker能够在陌生应用中自动化处理复杂任务,其在某些任务上的准确率甚至超过人类操作员。这种两阶段设计展示了一种灵活适应的框架,为移动自动化树立了强有力的标杆。

类似地, DroidBot-GPT 提出了一种创新方法,通过将GUI状态转换为自然语言提示,使LLM能够自主决策动作序列。通过解析GUI结构并将其转化为GPT模型可理解的语言,DroidBot-GPT无需对应用进行特定调整,即可在多种应用间实现通用性。这种适应能力凸显了LLM在处理复杂多步任务时的变革性作用,同时减少了对定制化数据的依赖。

为了提升动作预测和上下文感知能力,一些先进框架将感知与动作系统集成到多模态LLM中。例如, CoCo-Agent 通过其综合事件感知模块和综合动作规划模块,处理GUI元素(如图标和布局)。通过将操作分解为可管理的步骤,并利用如Android in the Wild (AITW) 和 META-GUI 等基准数据中的高质量数据,CoCo-Agent 展现了在各种智能手机应用中可靠自动化移动任务的能力。

进一步推进这种集成, CoAT 引入了“链式动作思考”过程,以增强动作预测和上下文感知能力。CoAT利用先进模型(如GPT-4V)和标签化标记技术解决了传统基于坐标的动作识别限制。通过构建Android-In-The-Zoo (AITZ) 数据集,CoAT提供了深度的上下文感知能力,显著提高了动作预测的准确性和任务完成率。这种方法在提升Android平台的可访问性和用户便利性方面展现了巨大潜力。

为了解决多步任务处理中的高计算成本问题, AutoDroid 结合了基于LLM的理解能力与应用特定知识。通过采用HTML风格的GUI表示和基于记忆的架构,AutoDroid减少了对大量LLM查询的依赖。其混合架构结合了云端模型和本地模型,从而提升了响应速度和可访问性,使AutoDroid成为处理各种移动任务的实用解决方案。

MobileGPT 则通过模拟人类的任务分解认知过程(探索、选择、推导和回忆)来自动化Android设备上的任务。这种方法极大地提高了任务执行的效率和准确性。MobileGPT的分层记忆结构支持模块化、可重用和可适应的任务及子任务,适用于多种上下文。在任务成功率、成本效率和适应性方面,MobileGPT表现优于现有最先进系统,展现了其推进移动任务自动化的潜力。

小结一下,移动GUI Agent取得了显著的发展,从单一Agent系统演进为能够进行动态、上下文感知操作的复杂多Agent框架。这些创新展示了复杂架构、多模态处理以及高级规划策略在应对移动环境多样化挑战中的重要性,同时标志着移动自动化能力的巨大进步。

6.3 计算机 GUI Agent

计算机 GUI Agent 已发展出在不同操作系统中提供复杂自动化功能的能力,能够解决跨应用交互、任务泛化以及高级任务规划等挑战。

picture.image

近年来,计算机 GUI Agent 的进步催生了能够在桌面环境中处理复杂任务的高级框架。这些 Agent 从简单的自动化工具演变为智能系统,利用多模态输入、先进架构和自适应学习技术,以高效且灵活的方式完成多应用任务。

在这一领域的一个重要进展是多 Agent 架构的引入,这种架构提升了任务管理和执行的能力。例如,专为 Windows 操作系统设计的 UI-Focused Agent (UFO) 就是一个开创性的框架。UFO 通过其先进的双 Agent 架构重新定义了以 UI 为中心的自动化,它利用 GPT-Vision 解释 GUI 元素,并能够在多个应用之间自主执行操作。该框架包含两个核心组件: HostAgentAppAgent 。HostAgent 负责全局规划、任务分解以及应用选择,而 AppAgent 则负责在单一应用内执行分配的子任务,如图 21 所示。这种集中式结构使 UFO 能够管理复杂的多应用工作流,例如信息聚合和报告生成。类似的架构也被其他 GUI Agent 框架采用。通过整合安全机制和可定制的操作,UFO 在处理复杂指令时保证了效率和安全性,成为 Windows 操作系统上一款前沿的助手。其架构展现了动态适应性和强大的任务解决能力,在多种应用场景中体现了多 Agent 系统在桌面自动化中的潜力。

picture.image

在适应性和通用能力的主题基础上, Cradle 将通用计算机控制的边界进一步拓展。Cradle 利用 VLM(视觉语言模型)与各种软件交互,从游戏到专业应用,无需依赖 API 接口即可完成任务。Cradle 使用 GPT-4o 解释屏幕输入并执行底层操作,使其在不同类型的软件环境中表现出极大的灵活性。其六模块结构涵盖信息收集、自我反思等功能,使 Agent 能够执行任务、推理行动,并通过过去的交互经验指导未来决策。Cradle 能够在动态环境(包括复杂软件)中运行,标志着通用型 Agent 的重要进步,其广泛适用性在桌面环境中具有重大意义。

为了将计算机 GUI Agent 的能力扩展到多个操作系统, OS-Copilot 提出了一个通用框架,可在 Linux 和 macOS 系统中运行。其突出功能 FRIDAY 展示了自我驱动学习的潜力, 能够适应多种应用并在无需针对每个应用进行专门训练的情况下完成任务。与特定应用的 Agent 不同,FRIDAY 集成了 API、键盘鼠标控制和命令行操作,构建了一个灵活的平台,可以在与新应用交互时自主生成和优化工具。OS-Copilot 在 GAIA 基准测试中的表现验证了其在未见过的应用中进行任务泛化的能力,为能在复杂环境中不断演进的操作系统级 Agent 提供了基础模型。这为创建能够处理多样化桌面环境和复杂任务需求的自适应数字助手指明了方向。

总之,计算机 GUI Agent 已实现了显著的发展,从单任务自动化工具成长为能够执行复杂多应用任务并从交互中学习的高级多 Agent 系统。像 UFO、Cradle 和 OS-Copilot 这样的框架展现了适应性和通用型 Agent 在桌面自动化中的潜力,为更智能、更多功能的 AgentOS 框架的演进铺平了道路。

6.4 跨平台 GUI Agent

跨平台 GUI agent 已经成为能够适应多种环境的多功能解决方案,从桌面和移动平台到更复杂的系统,这些框架注重适应性和高效性,通过轻量级模型和multi-agent 架构的结合,提升跨平台操作能力。本小节探讨了一些体现跨平台 GUI 自动化最新进展的关键框架。

picture.image

在该领域,一个重要的进步是 AutoGLM ,它通过集成大型多模态模型,实现了跨平台的无缝 GUI 交互,在网页浏览和 Android 控制之间架起桥梁。AutoGLM 引入了一种“中间接口设计”(Intermediate Interface Design),将规划(planning)与落地(grounding)任务分离,从而提升动态决策能力与适应性。通过强化学习的在线自我进化式课程设计,AutoGLM 能够从真实世界的反馈中逐步学习,并具备错误恢复能力。这种适应性和鲁棒性使得 AutoGLM 成为多样化用户应用中理想的解决方案,为跨平台自动化设立了新标准,同时也为基础型 agent 的未来研究指明了方向。

部分框架专注于集成先进模型以实现跨平台交互,而另一些则强调效率和可访问性。例如, TinyClick 针对单轮次 GUI 交互需求,提供了一种轻量化解决方案。它基于 Florence-2-Base 视觉-语言模型,通过用户指令和屏幕截图完成任务,仅需 0.27 亿参数。尽管模型规模较小,但 TinyClick 依然取得了出色的准确率——在 Screenspot 数据集上达到了 73%,在 OmniAct 数据集上达到了 58.3%,甚至超越了更大的多模态模型(如 GPT-4V),同时保持了高效率。其多任务训练和基于多模态大模型(MLLM)的数据增强技术,能够精确定位 UI 元素,适用于低资源环境,并有效解决 UI 定位和动作执行中的延迟及资源限制问题。

除了轻量化模型,multi-agent 架构在提升跨平台 GUI 交互方面也发挥了关键作用。 OSCAR 是这一领域的典范,它引入了一种通用型 GUI agent,能够自主导航和控制桌面及移动应用。OSCAR 采用状态机架构,根据实时反馈动态处理错误并调整操作,使其适用于自然语言引导的复杂工作流自动化。通过整合标准化的操作系统控制(如键盘和鼠标输入),OSCAR 能够以通用方式与应用程序交互,从而提升在各种 GUI 环境中的生产力。其开源设计促进了广泛的应用与无缝集成,为跨平台任务自动化和效率提升提供了灵活的工具。

在multi-agent系统的概念上, AgentStore 提供了一个灵活且可扩展的框架,用于集成多种异构 agent,实现跨操作系统的任务自动化。AgentStore的核心特性是 MetaAgent,它通过创新的 AgentToken 策略动态管理不断扩展的专业化 agent 集群。通过支持动态的 agent 注册,AgentStore 具有极高的适应性和可扩展性,能够让专业化和通用化的能力共存。该multi-agent 架构支持桌面和移动平台等多种环境,并利用多模态感知(如 GUI 结构和系统状态)增强交互能力。AgentStore 的贡献表明,将专业化与通用化能力结合起来,是突破以往系统局限性的关键。

进一步推动跨平台 GUI 交互发展的是 MMAC-Copilot ,它采用multi-agent 和多模态方法,无需依赖 API 即可处理 3D 游戏、办公和移动应用中的任务。通过使用 Planner、Viewer 和 Programmer 等专业化 agent,MMAC-Copilot 能够协作应对视觉复杂环境中的挑战。借助 GPT-4V 进行视觉识别,以及 OCR 用于文本分析,MMAC-Copilot 在视觉复杂环境中实现了高任务完成率。其与 VIBench(一个针对非 API 应用的基准测试工具)的集成,进一步凸显了其在真实场景中的适用性和适应能力。MMAC-Copilot 为跨平台动态交互奠定了坚实基础,其应用领域扩展到游戏、医疗和生产力等行业。

AGUVIS 利用纯视觉方法实现了 GUI 自动化,克服了基于文本系统(如 HTML 或辅助功能树)的局限性。 其平台无关的设计支持网页、桌面和移动应用,同时有效降低了推理成本。AGUVIS 采用两阶段训练过程:第一阶段专注于 GUI 定位(grounding),第二阶段将规划(planning)与推理(reasoning)整合到一个统一的模型中。该方法在离线和在线场景下均表现出色,显著简化了决策和执行的过程。

总之,跨平台 GUI agent 体现了未来自动化的多样化发展趋势,从轻量化模型(如 TinyClick)到复杂的multi-agent 系统(如 MMAC-Copilot),各框架均带来了独特的创新。这些进步共同构建了一个丰富多样的 GUI 自动化工具生态系统,显著提升了在不同平台间的交互能力,标志着跨平台 GUI 自动化领域的重大突破。

6.5 关键要点

GUI agent 框架领域取得了显著进展,尤其是在多agent架构、多模态输入和增强的动作集方面。这些发展为更通用、更强大的agent奠定了基础,使其能够处理复杂、动态的环境。近期进展的关键要点包括:

  1. 多Agent协同: 多agent系统,例如UFO 和 MMAC-Copilot 中的系统,代表了GUI agent开发的一个重要趋势。通过在框架内为不同的agent分配专门的角色,多agent系统可以提高任务效率、适应性和整体性能。随着agent在不同平台上承担更复杂的任务,多个agent的协同使用被证明是一种强大的方法,使agent能够以更高的精度和速度处理复杂的流程。
  2. 多模态输入优势: 虽然一些agent仍然只依赖基于文本的输入(例如,DOM结构或HTML),但结合视觉输入(如屏幕截图)已显示出明显的性能优势。像 WebVoyager 和 SeeAct 这样的agent突显了视觉数据与文本输入相结合如何提供更丰富的环境状态表示,帮助agent做出更明智的决策。这种多模态输入的集成对于在视觉复杂或动态环境中进行准确解释至关重要,在这些环境中,仅靠文本可能无法捕捉到所有必要的上下文。
  3. 将动作集扩展到UI操作之外: 最近的agent已将其动作集扩展到标准UI操作之外,包括API调用和AI驱动的动作,如 Hybrid Agent 和 AutoWebGLM 中所示。整合多样化的动作使agent能够实现更高水平的交互和任务完成,特别是在可以通过API调用直接检索或操作数据的环境中。这种灵活性增强了agent的能力,使其在更广泛的应用中更高效、更具适应性。
  4. 改进决策的新兴技术: 诸如 WMA 中的世界模型和 Search-Agent 中的基于搜索的策略等新方法,代表了更高级决策的有希望的方向。世界模型允许agent模拟动作结果,减少不必要的交互并提高效率,尤其是在长时程任务中。类似地,像最佳优先和MCTS这样的基于搜索的算法可以帮助agent更有效地探索动作路径,增强其在复杂、实时环境中的适应性。
  5. 迈向跨平台泛化: 诸如 AutoGLM 和 OSCAR 等跨平台框架,突显了GUI agent设计中泛化性的价值。这些agent正在率先努力创建可以在移动、桌面和Web平台上无缝工作的解决方案,从而更接近于实现可以在多个生态系统中运行的一站式GUI agent的目标。跨平台灵活性对于旨在帮助用户在其数字交互中保持一致的agent至关重要。
  6. 纯视觉Agent: 为了实现通用的GUI控制,纯视觉框架已成为一种突出的解决方案。这些agent仅依赖屏幕截图进行决策,无需访问诸如小部件树或元素属性之类的元数据。像 AGUVIS 这样的杰出工作就体现了这种方法。虽然纯视觉方法提供了更大的泛化性并绕过了系统API限制,但它们需要强大的“基础”能力来精确定位UI元素并与之交互——许多基础模型通常缺乏这种能力。专门针对视觉基础和GUI理解微调模型,或整合像 OmniParser 这样的GUI解析技术,可以解决这一挑战,并增强agent执行精确交互的能力。

GUI agent 领域正朝着多agent架构、多模态能力、多样化的动作集和新颖的决策策略发展。这些创新标志着在创建智能、适应性强的agent方面迈出了重要一步,这些agent能够在各种动态环境中实现高性能。GUI agent 的未来在于不断完善这些趋势,推动agent在更广泛的适用性和跨平台更复杂、更像人类的交互方面发展。

0
0
0
0
相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论