GUI Agent综述 : 3-GUI Agent的发展历程 - 文章 - 开发者社区

前言

冰雪林中著此身，不同桃李混芳尘。小伙伴们好，我是微信公众号"小窗幽记机器学习"的小编卖龙椅的汉室宗亲。

picture.image

延续前文：

GUI Agent综述:9部曲揭秘下一代人机交互的前世今生-1:总览

GUI Agent综述:9部曲揭秘下一代人机交互的前世今生-2:三大技术基石

今天这篇小作文主要追溯 LLM 驱动 GUI Agent的演进历程。后续还有以下6个章回，感兴趣的小伙伴可以留意下：

GUI Agent综述：4-GUI Agent关键组件及其最新进展
GUI Agent综述：5-细说GUI Agent主流框架-百家争鸣
GUI Agent综述：6-GUI Agent训练数据收集
GUI Agent综述：7-基于 LLM 的 GUI Agent 模型优化
GUI Agent综述：8-GUI Agent的评测
GUI Agent综述：9-GUI Agent应用与未来

更多智能体(Agent)相关可以订阅此专题：智能体(Agent) 专题

LLM 驱动的 GUI Agent 的发展历程 =============================

古人云"冰冻三尺，非一日之寒"。LLM 驱动的 GUI Agent 的发展也是一个循序渐进的过程，其根基深植于数十年的研究和技术积累。从最初的简易 GUI 测试脚本和基于规则的自动化框架起步，该领域通过融合机器学习技术取得了长足进步，进而催生了更智能、适应性更强的系统。LLM 模型，尤其是多模态模型的引入，使得自然语言交互成为可能，从根本上革新了用户与软件应用程序的交互方式，从而彻底改变了 GUI 自动化领域。

picture.image

如图 3 所示，在 2023 年 LLM 模型出现之前，GUI Agent 的工作范围和能力均受到较大限制。自那时起，基于 LLM 的方法在网络、移动和桌面环境等不同平台上蓬勃发展，推动了该领域众多创新成果的诞生。这一趋势方兴未艾，持续推动着该领域的创新。本节将回溯 GUI Agent 的演进历程，重点介绍推动该领域发展至今的关键里程碑。

4.1 早期自动化系统

在 GUI 自动化的早期阶段，研究人员主要依赖基于随机、规则和脚本的策略。尽管这些方法奠定了基础，但在灵活性和可适应性方面存在明显的局限性。

4.1.1 基于随机的自动化

基于随机的自动化在 GUI 中使用随机动作序列，不依赖于特定算法或结构化模型，例如 Monkey Test。这种方法被广泛应用于 GUI 测试，通过探索不可预测的输入序列来发现潜在问题。尽管能有效识别边缘情况和 bug，但基于随机的方法由于存在大量冗余或无关试验，往往效率较低。

4.1.2 基于规则的自动化

基于规则的自动化运用预定义的规则和逻辑来实现任务自动化。2001 年，Memon 等人提出了一种规划方法，通过一系列预定义的运算符将初始状态转换为目标状态，从而生成 GUI 测试用例。Hellmann 等人在 2011 年证明了基于规则方法在探索性测试中的潜力，增强了错误检测能力。在 RPA 领域，诞生于 2020 年的 SmartRPA 使用基于规则的处理来自动化例行任务，展示了规则在简化结构化流程方面的实用性。

4.1.3 基于脚本的自动化

基于脚本的自动化依赖于详细的脚本来管理 GUI 交互。jRapture 等工具使用 Java 二进制文件和 JVM 记录和重放Java-based的 GUI 序列，通过精确重现输入序列实现一致执行。类似地，DART（2003 年）自动化了 GUI 测试的整个生命周期，从结构分析到测试用例生成和执行，提供了一个全面的回归测试框架。

4.1.4 工具和软件

在此期间，一系列软件工具被开发出来，用于 GUI 测试和业务流程自动化。Microsoft Power Automate（2019 年）提供了一个低代码/无代码环境，用于在 Microsoft 应用程序中创建自动化工作流。Selenium（2004 年）支持跨浏览器 Web 测试，而 Appium（2012 年）则实现了移动 UI 自动化。TestComplete（1999 年）、Katalon Studio（2015 年）和 Ranorex（2007 年）等商业工具允许用户创建具有跨平台能力的自动化测试。

尽管这些早期系统能够有效地自动化特定的预定义工作流程，但它们缺乏灵活性，需要手动编写脚本或基于规则的逻辑。然而，它们为 GUI 自动化奠定了基础，为后续更智能的系统构建提供了支撑。

4.2 向智能 Agent 的转变

机器学习的融入标志着 GUI Agent 向更具适应性和更强大方向转变的一个重要转折点。这一阶段的早期里程碑包括将机器学习、自然语言处理、计算机视觉和强化学习应用于 GUI 任务的进展。

4.2.1 机器学习和计算机视觉

RoScript（2020 年）是一个开创性系统，引入了非侵入式机器人测试系统，将 GUI 自动化扩展到了多种平台。AppFlow（2018 年）使用机器学习识别常见的屏幕和 UI 组件，从而实现了针对广泛应用类别的模块化测试。计算机视觉的进步也推动了 GUI 测试的重大进展，例如 2010 年提出的 frameworks 自动化了视觉交互任务。Humanoid（2019 年）使用在 Android 系统中训练用户交互轨迹的深度神经网络模型，学习用户如何根据应用程序的 GUI 选择操作。然后，该模型被用于指导测试输入生成，从而提高了覆盖率，并在测试期间产生了更加贴近人类的交互模式。类似地，DeepGUI（2021 年）应用深度学习技术过滤掉屏幕上无关的部分，从而增强了 GUI 测试中的黑盒测试有效性，只关注重要元素。这些方法展示了深度学习使 GUI 测试更加高效和直观的潜力，通过紧密契合实际用户行为来实现。

White 等人（2019 年）展示的利用计算机视觉检测 Widget 来准确识别 UI 元素，作为支持技术使 GUI 自动化能够以更智能和响应式的方式与复杂动态 GUI 进行交互。通过检测和分类界面组件，该方法增强了 Agent 与复杂动态 GUI 有效交互的能力。

4.2.2 自然语言处理

自然语言处理功能为 GUI 自动化带来了新的维度。RUSS（2021 年）和 FLIN（2020 年）等系统允许用户通过自然语言命令控制 GUI，架起了人类语言与机器动作之间的桥梁。在数据集方面，部分学者（2020 年）将自然语言指令映射到移动 UI 操作，为 GUI 控制开辟了更广泛的应用。然而，这些方法仅限于处理简单的自然语言命令，无法管理长期任务。

4.2.3 强化学习

World of Bits (WoB)（2017 年）等环境的开发使得能够使用强化学习 (RL) 训练基于网络的 Agent。工作流引导探索（2018 年）提高了 RL 的效率和任务性能。DQT（2024 年）将深度强化学习应用于 Android GUI 测试，同时保留小部件结构和语义，而 AndroidEnv（2021 年）则提供了 Agent 在 Android 上训练的真实模拟环境。WebShop（2022 年）展示了大规模网络交互的潜力，凸显了 RL 驱动的 GUI 自动化日益增长的复杂性。

尽管这些基于机器学习的方法比早期的基于规则的系统更具适应性，但它们仍然难以推广到多样化的、未知的任务。它们依赖于预定义的工作流程，适应性有限，需要针对新环境进行重新训练或定制，而自然语言控制也仍然受限。

4.3 LLM 驱动的 GUI Agent 的兴起

LLM 模型的引入，尤其是像 GPT-4o（2023 年）这样的多模态模型，通过支持自然语言交互，从根本上改变了 GUI 自动化。与以前需要整合单独模块的方法不同，LLM 提供了 GUI 自动化的端到端解决方案，在自然语言理解、视觉识别和推理等方面具有先进的能力。

LLM 为 GUI Agent 带来了独特的优势，包括自然语言理解、多模态处理、规划和泛化能力。这些特性使 LLM 和 GUI Agent 成为强大的组合。尽管早期有一些尝试，但 2023 年是标志着 LLM 驱动的 GUI Agent 在网络、移动和桌面应用等各种平台上取得重大进展的关键一年。

4.3.1 Web 领域

最初，LLM 在图形用户界面自动化领域的应用始于 Web 领域，早期研究建立了基准数据集和环境。WebAgent 是一个关键里程碑，它与 WebGUM 一起，开创了使用 LLM 进行实际 Web 导航的先河。这些进展为后续发展铺平了道路，利用更专门的 LLM 来增强基于 Web 的交互。

4.3.2 移动设备

LLM 与移动设备的集成始于 AutoDroid，它将 LLM 与特定领域知识相结合，用于智能手机自动化。其他贡献如 MM-Navigator、AppAgent 、 Mobile-Agent 和 AutoGLM 实现了对智能手机应用程序的精细控制。研究持续改进模型微调，以提高移动 GUI 自动化的准确性。

4.3.3 计算机系统

对于桌面应用程序，UFO 是最早利用具有视觉功能的 GPT-4 在 Windows 环境中执行用户命令的系统之一。Cradle 扩展了这些能力，适用于软件应用程序和游戏，而吴等人则实现了跨不同桌面应用程序的交互，包括 Web 浏览器、代码终端和多媒体工具。

4.3.4 工业界模型

在工业界，Claude 3.5 Sonnet 模型推出了“电脑使用”功能，能够通过 UI 操作与桌面环境交互。这标志着业界对 LLM 驱动的 GUI Agent 价值的认可日益加深，相关利益方也越来越多地投资于这项技术。

毫无疑问，LLM 为 GUI Agent 引入了新的范式，提升了以往无法企及的智能水平。随着该领域不断发展，可以预见，一波商业化浪潮即将到来，从而带来用户与 GUI 应用程序交互方式的变革。