人生如逆旅,我亦是行人。小伙伴们好,我是微信公众号"小窗幽记机器学习"的小编卖乳胶垫的刘皇叔。
延续前文:
GUI Agent综述-4:深度解读GUI Agent的核心组件及其最新进展
GUI Agent综述-6:汇总GUI Agent训练数据集
今天这篇小作文主要介绍 如何利用收集到的数据 训练GUI Agent专用的LLM及其升级版的大型动作模型(LAM),此外还介绍该领域当前主流模型。后续还有以下2个章节,感兴趣的小伙伴可以留意下:
- GUI Agent综述:8-GUI Agent的评测
- GUI Agent综述:9-GUI Agent应用与未来
更多智能体(Agent)相关可以订阅此专题: 智能体(Agent) 专题
LLM 充当 GUI agent 的“大脑”,使它们能够解释用户意图、理解 GUI 屏幕并执行直接影响其环境的动作。虽然一些现有的基础模型足够强大,可以作为这个核心大脑,但可以进一步微调和优化,以升级为大型动作模型(LAM)——专门为提高 GUI agent 的性能和效率而定制的模型。这些 LAM 弥合了通用能力与基于 GUI交互的特定需求之间的差距。
在本节中,首先介绍目前构成 GUI agent 主干的基础模型,重点介绍它们的优势和局限性。然后,深入探讨 LAM 的概念,讨论如何使用特定于 GUI 的数据集对这些模型进行微调,以增强它们在 GUI 环境中的适应性、准确性和面向动作的能力。通过这种探索,阐述了从通用 LLM 到专门构建的 LAM 的演变过程,为先进的智能 GUI agent 奠定了基础。
8.1 基础模型
基础模型是基于 LLM 的 GUI agent 的核心,为理解和与图形用户界面交互提供基本能力。最近在闭源和开源多模态大型语言模型 (MLLM) 方面的进展显著增强了 GUI agent 的潜力,改进了效率、可扩展性和多模态推理等方面。本小节探讨了这些基础模型,重点介绍它们的创新、贡献以及对 GUI agent 应用的适用性。为了快速参考,表13 概述了关键模型及其特性。
8.1.1 闭源模型
虽然专有的闭源模型不公开而无法定制,但它们提供了强大的功能,可以直接用作 GUI agent 的“大脑”。
其中,GPT-4V 和 GPT-4o 由于其强大的能力,在现有的 GUI agent 框架中使用最为广泛,如 第 6 节所述 。GPT-4V 代表了多模态 AI 的重大进步,它结合了文本和图像分析,扩展了传统 LLM 的功能。它基于文本和视觉输入理解和生成响应的能力使其非常适合需要深度多模态推理的 GUI agent 任务。尽管由于安全和伦理方面的考虑,其部署受到限制,但需要强调的是 GPT-4V 作为基础模型通过增强效率和灵活性彻底改变 GUI agent 开发的潜力。
同样,GPT-4o 提供了一个统一的多模态自回归架构,能够处理文本、音频、图像和视频。该模型擅长高效生成多样化的输出,与之前的模型相比,以更低的成本实现了更快的响应。其严格的安全和对齐实践使其对于敏感任务依然可靠,使其成为需要全面多模态理解的智能 GUI agent 的强大工具。
Gemini 模型系列 通过提供针对高复杂度任务、可扩展性能和设备端效率量身定制的版本,推进了多模态 AI 建模。值得注意的是,Nano 模型尽管体积小巧,但在推理和编码任务中表现出显著的能力,使其适用于资源受限的设备。Gemini 的多功能性和效率使其成为为需要性能和适应性的 GUI agent 提供动力的一个引人注目的选择。
此外,需要强调一下工业界对 GUI 自动化的投入,如Claude 3.5 Sonnet (Computer Use,计算机使用) 开创性地利用仅视觉范例进行桌面任务自动化。它利用实时屏幕截图来观察 GUI 状态并生成动作,无需元数据或底层 GUI 结构。 该模型通过解释屏幕、移动光标、单击按钮和键入文本来有效地自动化 GUI 任务。其独特的架构将基于 ReAct 的推理范例与选择性观察相结合,通过仅在必要时观察环境来减少计算开销。此外,Claude 3.5 维护 GUI 屏幕截图的历史记录,增强了任务适应性,并实现了与软件环境的类人动态交互。尽管在处理动态界面和错误恢复方面存在挑战,但该模型代表了创建通用 GUI agent 的重要一步。它的开发突显了业界对该领域的大量投入,表明人们越来越关注利用 LLM 进行高级 GUI 自动化。
8.1.2 开源模型
开源模型为定制和优化提供了灵活性,使开发者能够利用上下文数据调整GUI agent,并将其部署在资源有限的设备上。
Qwen-VL 系列以其精细的视觉理解和多模态能力而著称。它采用基于 Vision Transformer 的视觉编码器和 Qwen-7B 语言模型,在视觉-语言基准测试中取得了最先进的成果,同时支持多语言交互。其高效性和开源特性,以及为提高资源效率而提供的量化版本,使其非常适合开发需要精确视觉理解的GUI agent。
在此基础上, Qwen2-VL 引入了诸如朴素动态分辨率和多模态旋转位置嵌入等创新技术,能够高效处理包括长视频在内的各种模态。Qwen2-VL 的可扩展版本平衡了计算效率和性能,使其能够适应设备端应用和GUI环境中复杂的的多模态任务。
InternVL-2 将 Vision Transformer 与大型语言模型相结合, 以处理文本、图像、视频和医疗数据输入。其渐进式对齐策略和各种尺寸版本的可用性使其在部署方面具有灵活性。通过在复杂的多模态任务中取得最先进的性能,InternVL-2 展示了强大的能力,这对于需要全面多模态理解的GUI agent来说非常有价值。
CogVLM 在视觉和语言信息的有效集成方面取得了进展,它在跨模态任务中表现出色,且可训练参数相对较少。它能够在保留大型语言模型全部功能的同时,深度整合视觉和语言特征,使其成为GUI agent开发的基础,尤其是在资源效率至关重要的应用中。
Ferret 增强了空间理解和定位能力,为GUI agent提供了一种量身定制的创新方法。通过在单个框架内统一指代和定位任务,并采用混合区域表示,它提供了与图形界面的精确交互。其针对对象幻觉的鲁棒性和高效的架构使其成为在实时GUI应用中进行设备端部署的理想选择。
LLaVA 模型将视觉编码器与语言解码器集成,促进了模态之间的有效对齐。其轻量级的投影层和模块化设计实现了快速实验和调整,使其适用于需要快速开发周期和强大的多模态推理能力的GUI agent。在此基础上,LLaVA-1.5 引入了一种新型的基于MLP的跨模态连接器,并扩展到高分辨率图像输入,以最少的训练数据实现了令人印象深刻的性能。其数据效率和开源特性为在需要详细视觉推理的GUI应用中的广泛使用铺平了道路。
BLIP-2 通过利用冻结的预训练模型并引入轻量级的查询 Transformer, 采用了一种计算高效的策略。这种设计允许在可训练参数较少的情况下,在视觉-语言任务上实现最先进的性能。BLIP-2 的模块化和高效性使其适用于资源受限的环境,突显了其在设备端GUI agent中的潜力。
最后,Phi-3.5-Vision 在紧凑的模型尺寸内实现了多模态推理方面的竞争性性能。其创新的训练方法以及图像和文本理解的有效集成,使其成为需要多模态推理和设备端推理的GUI agent的有力候选者,而无需大型模型的计算开销。
总而言之,闭源和开源的基础模型都显著提高了由LLM驱动的GUI agent的能力。虽然专有模型提供了强大的开箱即用性能,但开源模型为定制和优化提供了灵活性,从而为各种GUI agent应用提供了量身定制的解决方案。这些模型在多模态推理、效率和可扩展性方面的创新突显了基础模型不断发展的态势,为更智能、更易于访问的GUI agent铺平了道路。
8.2 大型动作模型
虽然通用基础LLM在多模态理解、任务规划和工具利用等能力方面表现出色,但它们通常缺乏GUI导向型任务所需的专门优化。为了解决这个问题,研究人员引入了大型动作模型(LAM),这些模型是使用上下文的、 GUI特定的数据集(如第7节所述) 进行微调的基础LLM,以增强其动作驱动能力。这些模型代表了在改进GUI agent的“大脑”以获得卓越性能方面迈出的重要一步。
在GUI agent领域,LAM提供了几个变革性的优势:
- 增强的动作导向性: 通过专注于动作导向型任务,LAM能够准确解释用户意图并生成精确的动作序列。这种微调确保了LAM能够将其输出与GUI操作无缝对齐,从而提供为用户请求量身定制的可操作步骤。
- 针对长期复杂任务的专业规划: LAM擅长制定和执行复杂的、多步骤的工作流程。无论任务跨越多个应用程序还是涉及相互依赖的操作,LAM都会利用其在广泛的动作序列数据集上的训练,来创建连贯的长期计划。这使得它们非常适合需要跨各种工具进行复杂规划的以生产力为中心的工作。
- 改进的GUI理解和视觉定位: 通过在包含GUI屏幕截图的数据集上进行训练,LAM能够提高其检测、定位和解释UI组件(如按钮、菜单和表单)的能力。通过利用视觉线索而不是仅仅依赖结构化的UI元数据,LAM变得高度适应,可以在各种软件环境中有效地执行操作。
- 通过减小模型尺寸提高效率: 许多LAM都建立在较小的基础模型之上——通常约为70亿参数——这些模型针对GUI特定任务进行了优化。这种紧凑的、目标驱动的设计减少了计算开销,即使在资源受限的环境中(如设备端推理)也能实现高效运行。
如图23所示,为GUI agent开发专用LAM的过程始于一个强大的通用基础模型,理想情况下应具有VLM能力。在全面、专业的GUI数据集(包括用户指令、控件树、UI属性、动作序列和带注释的屏幕截图)上对这些模型进行微调,将其转化为优化的LAM,从而有效地使其成为GUI agent的“大脑”。
这种优化 弥合了规划和执行之间的差距 。通用LLM可能仅提供文本计划或抽象指令来响应用户查询,这些指令可能缺乏精确性。相比之下,由LAM赋能的GUI agent超越了规划,能够积极且智能地在GUI上执行任务。通过直接与应用程序界面交互,这些agent能够以卓越的精度和适应性执行任务。这种范式转变标志着GUI agent从被动的任务规划者向主动的、智能的执行者的演变。
在接下来的章节中,将对针对不同平台的GUI agent量身定制的LAM进行分析, 总结在表14、15和16中,并在随后的子章节中进行深入讨论。
8.3 面向网页GUI Agent的LAMs
在基于网页的GUI agent领域,研究人员开发了专门的LAMs,以增强在网页环境中的交互和导航。这些模型经过定制,能够理解网页GUI的复杂性,包括动态内容和多样的交互模式。
为了满足多模态理解的需求,WebGUM 通过时序和局部token将HTML理解与视觉感知相结合。它利用Flan-T5 进行指令微调,并使用 ViT 处理视觉输入, 从而能够高效地处理文本和视觉信息。这种多模态基础使得 WebGUM 能够有效地泛化任务,在 MiniWoB++ 和 WebShop 等基准测试中显著优于先前的模型。凭借其数据高效的设计和多步骤推理能力,WebGUM强调了结合多模态输入在增强GUI agent性能方面的重要性。
针对GUI环境中多步骤推理和规划的挑战,研究人员引入了包含高级搜索和学习机制的框架。例如,Agent Q 采用MCTS结合自我批判机制和直接偏好优化(DPO),以提高产品搜索和预订等复杂任务的成功率。通过微调LLaMA-3 70B模型来处理HTML DOM表示并生成结构化的行动计划、思考过程和特定于环境的命令,该框架展示了整合推理、搜索和迭代微调在自主agent开发中的强大作用。
GLAINTEL 利用较小的模型进行高效的网页交互,表明无需大量计算资源即可实现高性能。该模型使用具有7.8亿参数的Flan-T5模型,专注于模拟电子商务平台等动态网页环境。该模型结合了强化学习来优化查询制定和导航等操作,有效地整合了人类演示和无监督学习。GLAINTEL 以远低于基于GPT-4的方法的计算成本实现了可比的结果,突显了强化学习在增强基于网页的GUI agent以进行特定任务优化方面的潜力。
为了实现跨不同网页领域的持续改进和泛化,OpenWebVoyager 将模仿学习与迭代探索-反馈-优化循环相结合。它利用Idefics2-8B 等大型多模态模型执行自主网页导航任务。通过在多样化的数据集上进行训练,并使用GPT-4反馈验证的轨迹进行微调,该agent解决了现实世界的复杂性,而无需依赖合成环境。这种方法通过展示跨不同网页领域和任务进行泛化的能力,显著推进了GUI agent框架的发展。
此外,为了应对稀疏训练数据和策略分布漂移等挑战,WebRL 引入了自我演化的课程和强大的奖励机制,用于训练LLM作为熟练的网页agent。通过根据agent的性能动态生成任务,WebRL微调了Llama-3.1 和GLM-4 等模型,在WebArena环境中的网页任务中取得了显著的成功率。该框架的性能优于专有API和其他开源模型,突显了自适应任务生成和持续学习改进在开发高级GUI agent方面的有效性。
这些在面向网页GUI agent的LAMs方面的进展,说明了整合多模态输入、高效的模型设计和创新的训练框架对于增强agent在复杂网页环境中的能力的重要性。
8.4 面向移动GUI Agent的LAMs
移动平台为GUI agent带来了独特的挑战,包括不同的屏幕尺寸、触摸交互和资源限制。研究人员开发了专门的LAMs来应对这些挑战,从而增强了在移动环境中的交互和导航。
MobileVLM 专注于详细的UI理解,引入了一种专门为移动UI操作任务设计的高级视觉语言模型。它基于Qwen-VL-Chat,结合了针对UI内部和UI之间理解的移动特定预训练任务。通过利用Mobile3M数据集——一个包含300万个UI页面和交互轨迹的综合语料库,这些数据被组织成有向图——该模型在动作预测和导航任务中表现出色。MobileVLM的新颖的两阶段预训练框架显著增强了其对移动UI的适应性,在ScreenQA 和Auto-UI 等基准测试中优于现有的VLM。这项工作突出了定制预训练在提高移动GUI agent性能方面的有效性。
为了解决动态环境中鲁棒交互的需求,DigiRL提出了一个基于强化学习的框架,该框架专为在Android环境中训练GUI agent而定制。
通过利用离线到在线的强化学习,DigiRL 能够适应真实世界的随机性, 使其适用于多样化的多步骤任务。与先前依赖于模仿学习的模型不同,DigiRL 从交互数据中自主学习,不断改进自身以从错误中恢复并适应新的场景。使用具有13亿参数的预训练视觉语言模型能够高效地处理GUI截图和导航命令。其在AITW数据集上的表现表明,它比基线方法有了显著的改进,这使得DigiRL成为开发针对复杂GUI交互进行优化的智能agent的基准。
为了增强GUI理解并减少对文本数据的依赖,VGA 采用了微调的视觉语言模型,该模型优先考虑基于图像的线索,如形状、颜色和位置。VGA 使用 RICO 数据集进行训练,专为Android GUI定制,并采用两阶段微调过程,使响应与视觉数据和人类意图保持一致。该模型擅长理解GUI布局、预测设计意图并促进精确的用户交互。通过在GUI理解基准测试中优于GPT-4V等现有模型,VGA 为移动GUI agent的准确性和效率设定了新标准。
在轻量级和高效模型的背景下,UINav 展示了一个实用的系统, 用于训练神经agent以自动化移动设备上的UI任务。它通过宏操作和错误驱动的演示收集过程,平衡了准确性、泛化性和计算效率。UINav 使用紧凑的编码器-解码器架构和 SmallBERT 进行文本和屏幕元素编码,使其适用于设备上的推理。一个关键的创新之处在于,它能够通过最少的演示在不同的任务和应用程序中进行泛化,从而通过一个通用的框架解决了UI自动化中的关键挑战。
这些模型通过创新的训练方法、高效的模型架构和专门的数据集,共同推动了移动GUI agent领域的发展,从而应对了特定于平台的挑战。
8.5 计算机 GUI Agent 的 LAMs
在桌面和笔记本电脑环境中,GUI agent 必须处理复杂的应用程序、多任务以及各种交互模式。专为计算机 GUI agent 设计的 LAMs 增强了在这些环境中的能力,从而实现更复杂的任务执行。
ScreenAgent 集成了规划、执行和反思阶段,旨在实现与计算机屏幕的自主交互。它基于 CogAgent ,并使用 ScreenAgent 数据集进行微调,该数据集提供了跨各种任务的全面 GUI 交互数据。ScreenAgent 以屏幕截图作为输入,并以 JSON 格式输出鼠标和键盘操作,实现了精确的 UI 元素定位,并能处理连续的多步骤任务。它利用基础模型处理实时 GUI 交互的能力,为 LLM 驱动的 GUI agent 树立了新的基准,使其成为未来研究构建更通用的智能 agent 的理想参考。
Octopus(Octopus: Embodied vision-language programmer from environmental feedback) 将高层规划与现实世界的操作相结合, 代表了具身视觉语言编程的开创性一步。Octopus 利用 MPT-7B 和 CLIP ViT-L/14 ,整合了以自我为中心的视角和鸟瞰视角进行视觉理解,并生成可执行的操作代码。它使用 OctoVerse 套件进行训练,其数据集涵盖了像 OmniGibson、Minecraft 和 GTA-V 这样具有丰富注释的环境,涵盖了常规任务和需要推理的任务。值得注意的是,Octopus 通过环境反馈的强化学习进行创新,确保了自适应的规划和执行。其依赖视觉的功能在未见场景中提供了无缝的任务泛化,突显了其作为在复杂 GUI 环境中运行的具身 agent 的统一模型的能力。
Wang 等人(Large action models:From inception to implementation)对 LAMs 进行了全面的概述,这是一种旨在在 GUI 环境中执行实际操作的新型 AI 范式,并以 Windows 操作系统上的 UFO 作为案例研究平台。LAMs 基于 Mistral-7B 基础模型构建,通过将任务规划与可操作的输出相结合,超越了传统的 LLM。LAMs 利用来自 UI 自动化 (UIA) API 等工具的结构化输入,生成用于动态规划和自适应响应的可执行步骤。多阶段训练策略——包括任务计划预训练、模仿学习、自我增强探索和强化学习——确保了其稳健性和准确性。在真实 GUI 任务上的评估突显了 LAMs 相较于标准模型具有更高的任务成功率。这项创新为能够将用户请求转化为实际操作的智能 GUI agent 奠定了基础,推动了生产力和自动化方面的重大进展。
计算机 GUI agent 的这些发展突显了高级视觉理解、规划和动作执行的集成,为更复杂和功能强大的桌面 agent 铺平了道路。
8.6 跨平台大型动作模型
为了实现跨各种平台的通用性,开发了跨平台 LAMs,使 GUI agent 能够在移动设备、桌面和 Web 界面等多种环境中无缝运行。
CogAgent 是一款先进的视觉语言模型,专门用于理解和导航 PC、Web 和 Android 平台上的 GUI。它基于 CogVLM 构建,并集成了一个新的高分辨率跨模块,以高效处理 GUI 屏幕截图,从而能够详细理解 GUI 元素及其空间关系。CogAgent 在需要 OCR 和 GUI 接地的任务中表现出色,并在 Mind2Web 和 AITW 等基准测试中取得了最先进的性能。它生成准确的行动规划并与 GUI 交互的能力,使其成为开发针对 GUI 环境优化的智能 agent 的关键一步。CogAgent 进一步发展成为其 beta 版本 GLM-PC,提供了增强的控制能力。
苹果公司的 Ferret-UI 2( Ferret-UI 2解读:简介版 , Ferret-UI 2解读:详解版 ) 专注于通用 GUI 理解,是一款最先进的多模态大型语言模型,旨在掌握包括 iPhone、Android 设备、iPad、Web 和 AppleTV 在内的各种平台上的 UI 理解。通过采用动态高分辨率图像编码、自适应网格划分以及通过 GPT-4 生成的高质量多模态训练数据,它在 UI 指代、接地和交互任务中优于其前身和其他竞争模型。Ferret-UI 2 的高级数据集和创新训练技术确保了在空间理解和以用户为中心的交互方面的高精度,为跨平台 UI 适应性和性能树立了新的基准。
ShowUI 推进了 GUI 自动化,引入了一种开创性的视觉-语言-动作模型,该模型将高分辨率视觉输入与文本理解相结合,以执行接地、导航和任务规划。 ShowUI 针对 Web、桌面和移动环境进行了优化,利用 Phi-3.5-vision-instruct 主干和全面的数据集,在 ScreenSpot 和 GUI-Odyssey 等基准测试中取得了稳健的结果。它处理多帧和动态视觉输入以及 JSON 结构化输出操作的能力突显了其多功能性。凭借交错的图像-文本处理和函数调用功能的创新, ShowUI 为 LLM 驱动的 GUI agent 设定了新标准。
为了满足统一动作空间的需求,OS-ATLAS 引入了一种基础动作模型,专门为 Windows、macOS、Linux、Android 和 Web 等平台上的 GUI agent 设计。通过利用大规模多平台数据集并实施统一的动作空间,OS-ATLAS 在 GUI 接地和分布外泛化任务中取得了最先进的性能。其可扩展的配置可适应不同的计算需求,同时保持在处理自然语言指令和 GUI 元素方面的多功能性。作为商业解决方案的强大开源替代方案,OS-ATLAS 标志着在普及高级 GUI agent 方面迈出了重要一步。
这些跨平台 LAMs 展示了统一模型适应不同环境的潜力,从而增强了 GUI agent 在各种环境中的可扩展性和适用性。
8.7 总结
对 GUI agent 的 LAMs 的探索揭示了一些关键见解,这些见解正在塑造与图形用户界面进行智能交互的未来:
- 用于设备端推理的较小模型: 许多优化的 LAMs 都是基于较小的基础模型构建的,通常参数范围在 10 亿到 70 亿之间。这种模型尺寸的缩小提高了计算效率,使得在移动电话和边缘设备等资源受限的设备上部署这些模型成为可能。在不依赖云服务的情况下执行设备端推理的能力解决了隐私问题并减少了延迟,从而带来了更快速的用户体验。
- 增强的 GUI 理解减少了对结构化数据的依赖: 像 VGA 和 OmniParser 这样的模型强调了视觉接地和以图像为中心的微调的重要性,以减少对结构化 UI 元数据的依赖。通过直接从视觉输入改进 GUI 理解,agent 变得更适应不同的软件环境,包括那些可能无法访问或不一致的结构化数据的环境。
- 强化学习弥合了静态和动态环境之间的差距: 在 DigiRL 等模型中应用强化学习证明了将静态训练数据与动态真实世界环境联系起来的有效性。这种方法允许 agent 从交互中学习、从错误中恢复并适应变化,从而增强了其在实际应用中的稳健性和可靠性。
- 统一的函数调用增强了互操作性: 如 xLAM 等模型所示,标准化数据格式和函数调用机制的努力有助于跨不同平台进行多轮交互和推理。这种统一解决了兼容性问题,并增强了 agent 执行涉及多个 API 和服务的复杂任务的能力。
GUI agent 的 LAMs 的进步突显了向专业化、高效和适应性强的模型发展的趋势,这些模型能够在各种平台上执行复杂的任务。通过专注于专业化、多模态集成和创新训练方法,研究人员正在克服通用 LLM 的局限性。这些见解为更智能、更快速响应且用户友好的 GUI agent 铺平了道路,这些 agent 可以改变与软件应用程序的交互方式。