GUI Agent综述 : 8-如何评测GUI Agent？有哪些评测基准？ - 文章 - 开发者社区

前言

时人不识凌云木，直待凌云始道高。小伙伴们好，我是微信公众号"小窗幽记机器学习"的小编卖席梦思的刘皇叔。

picture.image

延续前文：

GUI Agent综述-1:总览

GUI Agent综述-2:三大技术基石

GUI Agent综述-3:发展历程

GUI Agent综述-4:GUI Agent核心组件

GUI Agent综述-5:GUI Agent框架百家争鸣

GUI Agent综述-6:汇总GUI Agent训练数据集

GUI Agent综述-7:GUI Agent 模型优化

今天这篇小作文概述GUI Agent的评估指标和测试基准。后续还有以下最后一个章节，感兴趣的小伙伴可以留意下：

GUI Agent综述：9-GUI Agent应用与未来

更多智能体(Agent)相关可以订阅此专题：智能体(Agent) 专题

LLM驱动的GUI Agent的评估 ========================

在GUI agent领域，评估对于提升功能和用户体验至关重要，并且应该从多个方面进行。通过系统地评估这些agent在各种任务中的有效性，评估不仅衡量了它们在不同维度上的表现，还为它们的持续改进提供了框架。此外，它通过识别潜在的开发领域来鼓励创新，确保GUI agent与LLM的进步同步发展，并符合用户期望。

如图24所示，当一个GUI agent完成一项任务时，它会生成一个动作序列，捕获屏幕截图，提取UI结构，并记录由此产生的环境状态。这些输出是评估agent在不同平台上通过各种指标和测量来衡量其性能的基础。在接下来的章节中，将深入探讨这些评估方法，讨论用于全面评估GUI agent的指标和测量方法。还将概述针对不同平台上GUI agent的现有基准，突出它们的主要特征以及它们所解决的挑战。

picture.image

9.1 评估指标

评估GUI agent需要强大且多维的指标，以评估它们在各个维度上的性能，包括准确性、效率和合规性（例如，安全性）。在一个典型的基准测试设置中，GUI agent会收到自然语言指令作为输入，并期望自主执行动作直到任务完成。在此过程中，可以收集各种资产，例如agent采取的动作序列、逐步观察（例如，DOM或HTML结构）、屏幕截图、运行时日志、最终状态和执行时间。这些资产使评估人员能够确定任务是否已成功完成，并分析agent的性能。在本节中，总结了常用于基准测试GUI agent的关键评估指标。请注意，不同的研究工作可能会使用不同的名称来表示这些指标，但计算方式相似。在本节中，将统一它们的名称。

步骤成功率（Step Success Rate） : 完成一项任务可能需要多个步骤。此指标衡量的是成功步骤数与任务中总步骤数的比率。较高的步骤成功率表明对细粒度步骤的精确和准确执行，这对于涉及多个步骤的任务的可靠性能至关重要。
回合成功率（Turn Success Rate） : 一个回合表示用户和agent之间的一次交互。一个回合可能包含多个步骤，而完成一项任务可能包含多个回合。此指标衡量的是在交互中成功解决请求的回合数与所有回合数的比例。它侧重于agent在交互式或基于对话的任务中理解和满足用户期望的能力，确保agent在迭代交互中的响应性和可靠性，尤其是在需要动态用户-agent通信的任务中。
任务成功率（Task Success Rate） : 任务成功率衡量的是在基准测试中设置的所有任务中成功完成的任务数。它评估是否达到了最终的任务完成状态，而忽略了中间步骤。此指标提供了端到端任务完成的整体衡量标准，反映了agent整体处理复杂工作流程的能力。
效率得分（Efficiency Score） : 效率得分评估agent在完成任务时的效率，同时考虑资源消耗、执行时间或agent可能采取的总步骤数。此指标可以细分为以下子指标：

根据使用的具体指标，效率得分在不同的论文中可能有不同的解释。

时间成本（Time Cost） : 衡量完成任务所花费的时间。
资源成本（Resource Cost） : 衡量完成任务所使用的内存/CPU/GPU使用率。
LLM成本（LLM Cost） : 评估任务执行期间使用的LLM调用的计算或货币成本。
步骤成本（Step Cost） : 衡量完成任务所需的总步骤数。

策略下的完成率（Completion under Policy） : 此指标衡量在遵守策略约束的情况下成功完成任务的比率。它确保agent在任务执行期间遵守用户定义或组织规则，例如安全、道德、安全、隐私或业务指南。此指标对于合规性与任务成功同等重要的应用尤其相关。
风险比率（Risk Ratio） : 与前一个指标类似，风险比率评估agent在任务执行期间的行为相关的潜在风险。它识别在任务处理过程中可能出现的漏洞、错误或安全问题。较低的风险比率表示较高的可信度和可靠性，而较高的比率可能表明需要改进的领域，以最大限度地降低风险并增强鲁棒性。

每个GUI agent基准中指标的实现可能会因平台和任务制定而异。在表17至表21中，将基准测试中使用的原始指标（可能具有不同的名称）映射到上面定义的类别。

9.2 评估指标

为了有效地评估GUI agent，采用了各种测量技术来评估它们的准确性以及与预期输出的一致性。这些测量使用代码、模型，甚至agent作为评估器，验证了agent性能的不同方面，从文本和视觉正确性到交互准确性和系统状态感知。下面总结了在基准测试GUI agent中使用的关键测量方法。基于这些测量，可以相应地计算先前定义的评估指标。

文本匹配（Text Match） : 此测量评估agent的基于文本的输出是否与预期结果匹配。例如，当agent浏览电子商务网站时，是否达到了目标产品名称。它可以涉及不同级别的严格性，包括：

文本匹配广泛应用于涉及文本选择、数据输入或自然语言响应的任务中。

精确匹配（Exact Match） : 确保输出与预期结果完全匹配。
部分或模糊匹配（Partial or Fuzzy Match） : 允许近似匹配，这对于处理诸如拼写错误或同义词之类的细微变化很有用。
语义相似性（Semantic Similarity） : 使用文本嵌入的余弦相似性或其他语义相似性度量等技术来衡量语义意义上的更深层次的一致性。

图像匹配（Image Match） : 图像匹配侧重于验证agent是否在预期的页面（例如，网页、应用程序UI）上执行操作或停止，或者是否选择了正确的图像。它涉及使用图像相似性指标或视觉问答（VQA）方法将屏幕截图、选定的图形元素或视觉结果与真实图像进行比较。此测量对于需要精确视觉识别的任务至关重要。
元素匹配（Element Match） : 此测量检查agent交互的特定小部件元素（例如，HTML、DOM或应用程序UI层次结构中的元素）是否与预期元素一致。这些可能包括：

元素匹配确保在任务执行期间与不同平台上的用户界面组件进行稳健的交互。

HTML标签和属性（HTML Tags and Attributes） : 确保agent识别并与正确的结构元素交互。
URL和链接（URLs and Links） : 验证与导航相关的元素。
DOM层次结构（DOM Hierarchies） : 确认与动态或复杂Web界面中预期DOM结构的一致性。
UI控件和小部件（UI Controls and Widgets） : 验证与平台特定控件的交互，例如桌面和移动应用程序中的按钮、滑块、复选框、下拉菜单或其他GUI组件。
辅助功能标识符（Accessibility Identifiers） : 在Android和iOS等移动平台中利用辅助功能标识符或资源ID来确保正确选择元素。
视图层次结构（View Hierarchies） : 评估与移动应用程序中预期视图层次结构的一致性，类似于Web应用程序中的DOM层次结构。
系统控件和API（System Controls and APIs） : 确保与操作系统控件或API的正确交互，例如桌面环境中的文件对话框、系统菜单或通知。

动作匹配（Action Match） : 此测量通过将agent的动作（例如，点击、滚动或按键）与预期序列进行比较来评估其准确性。它涉及：

动作匹配对于评估任务完成中的逐步正确性至关重要。

动作准确性（Action Accuracy） : 验证每个动作（包括动作类型及其参数）是否正确执行（例如，点击正确的按钮，输入正确的输入）。
动作序列对齐（Action Sequence Alignment） : 确保动作以正确的顺序发生以满足任务要求。
位置预测（Location Prediction） : 检查空间动作（例如，鼠标点击或触摸手势）是否针对界面的预期区域。

状态信息（State Information） : 状态信息捕获任务执行期间与系统环境相关的运行时数据。它提供了对可能影响agent行为的上下文因素的见解，例如：

此测量对于调试、性能分析以及确保在各种条件下可靠性非常有用。

应用程序状态（Application State） : 有关正在交互的应用程序状态的信息（例如，打开的文件、活动窗口、保存在给定位置的文件）。
系统日志（System Logs） : 记录agent决策和交互的详细日志。
环境变量（Environment Variables） : 关于操作系统或运行时环境的上下文数据。

每种测量技术都有助于建立一个全面的评估框架，确保agent不仅能够完成任务，而且能够以精确、高效和适应性强的方式完成任务。它们共同帮助建立对agent在真实场景中可靠执行任务能力，同时保持对策略约束的遵守的信任。

9.3 评估平台

评估图形用户界面(GUI) agent 需要多样化的平台，以捕捉这些 agent 运行的各种环境。这些平台涵盖了网页、移动和桌面环境，每个环境都有其独特的特点、挑战和评估工具。本节总结了这些平台的关键方面及其在 GUI agent 基准测试中的作用。

网页 (Web): 网页平台是 GUI agent 最常见的环境之一，反映了它们在日常任务中的普及，例如浏览、填写表单和数据抓取。用于评估的网页平台的关键特征包括：

动态内容: 网页应用程序通常涉及通过 JavaScript、AJAX 或类似技术生成的动态元素，这要求 agent 有效处理异步更新。
多样化的框架: 各种网页技术（例如，HTML、CSS、JavaScript 框架）要求 agent 能够与各种界面设计和结构进行交互。
工具和库: 评估通常使用诸如 Selenium、Puppeteer 或 Playwright 之类的工具来模拟浏览器交互、收集运行时信息以及将结果与预期结果进行比较。
可访问性合规性: 还可以评估诸如 WCAG（Web 内容可访问性指南）遵守情况之类的指标，以确保包容性。

移动 (Mobile): 移动平台，特别是 Android 和 iOS，由于其受限的界面和基于触摸的交互，给 GUI agent 带来了独特的挑战。在移动平台上评估 agent 包括：

屏幕尺寸限制: Agent 必须适应有限的屏幕空间，确保交互保持准确和高效。
触摸手势: 评估 agent 模拟诸如点击、滑动和捏合等手势的能力至关重要。
平台多样性: Android 设备在屏幕尺寸、分辨率和系统版本方面差异很大，而 iOS 则提供更标准化的条件。
评估工具: 诸如 Appium 和 Espresso（用于 Android）或 XCTest（用于 iOS）之类的工具以及模拟器通常用于测试和评估。

桌面 (Desktop): 桌面平台为 GUI agent 提供了更丰富和更复杂的环境，涵盖了诸如 Windows、macOS 和 Linux 之类的多种操作系统。在桌面平台上进行的评估通常强调：

应用程序多样性: Agent 必须处理各种桌面应用程序，包括生产力工具、网页浏览器和自定义企业软件。
交互复杂性: 桌面界面通常包含诸如键盘快捷键、拖放和上下文菜单之类的高级功能，agent 必须正确处理这些功能。
跨平台兼容性: 评估可能涉及确保 agent 可以在多种操作系统和版本上运行。
自动化框架: 诸如 Windows UI Automation、macOS Accessibility APIs 和 Linux 的 AT-SPI 之类的工具用于自动化和监视 agent 交互。
资源使用: 内存和 CPU 使用率是重要的指标，特别是对于长时间运行的任务或资源密集型应用程序。

每个平台都为评估 GUI agent 提出了不同的挑战和机遇。网页平台强调可扩展性和动态交互，移动平台侧重于触摸界面和性能，而桌面平台则需要处理复杂的工作流程和跨应用程序任务。一些基准测试是跨平台的，要求 agent 具有稳健性、适应性并且能够跨不同环境进行泛化。

所有讨论的指标、测量和平台对于全面评估 GUI agent 的多个方面至关重要。大多数现有的基准测试都依赖它们进行评估。接下来，首先在表17 到表21 中概述这些 GUI agent 的基准测试，然后在以下小节中选择性地详细介绍它们。

picture.image

9.4 网页 Agent 测试基准

在网页环境中评估 GUI agent 需要能够捕捉基于网页的任务的复杂性和细微差别的基准测试。多年来，已经开发了几个基准测试，每个基准测试都为推进该领域做出了独特的贡献和挑战。

该领域的一项开创性工作是 MiniWoB++ ，它专注于评估基于网页的 GUI 任务上的强化学习 agent。它引入了真实的交互场景，包括单击、键入和导航网页元素，并利用工作流引导探索 (WGE) 来提高稀疏奖励环境中的效率。Agent 基于成功率进行评估，成功率由它们实现最终目标状态的能力决定，突出了各种复杂性中的适应性和稳健性。

为了满足对更真实环境的需求，Mind2Web 代表了一项重大进步，它使 agent 能够处理真实的 HTML 环境，而不是简化的模拟。在大型语言模型 (LLM) 出现后建立，它提供了超过 2000 个跨多个领域的任务的大型数据集，提出了从基本操作到复杂的多页面工作流程的挑战。该基准测试通过诸如元素准确率和任务成功率之类的指标来强调端到端任务性能，鼓励对 agent 进行严格的评估。

MT-Mind2Web 扩展了 Mind2Web 的功能，引入了对话式网页导航，需要与用户和环境进行多次交互。这个高级基准测试包括 720 个网页导航对话会话，包含 3525 个指令和操作序列对，每个会话平均有五次用户-agent 交互，从而测试了 agent 的对话能力和适应性。

为了进一步提高真实感，WebArena 通过其模拟真实人类交互的真实网页环境设定了新标准。它包含 812 个跨多个领域的任务，要求 agent 在多标签网页界面上执行复杂的、长期的交互。通过关注功能正确性而不是表面匹配，WebArena 促进了对 agent 实际能力的全面评估。

认识到多模态能力的重要性，VisualWebArena 是 WebArena 的扩展，旨在评估 agent 在真实的视觉基础网页任务上的表现。它包含 910 个分类广告、购物和 Reddit 等领域中的各种任务，并添加了新的视觉功能，用于测量开放式任务，例如视觉问答和模糊图像匹配，从而在多模态理解方面挑战 agent。

类似地，VideoWebArena 专注于评估 agent 理解和与网页上的视频内容交互的能力。它提供了 74 个视频，包含 2021 个任务，在基于视频的信息检索、上下文推理和技能应用方面挑战 agent。该基准测试突出了当前模型的关键缺陷，强调需要改进 agent 的推理和视频理解能力。

作为补充，VisualWebBench 提供了一个多模态基准测试，评估网站、元素和操作级别的理解、OCR、基础和推理。它涵盖了来自真实网站的 1.5K 个样本，识别了诸如基础差和低分辨率输入导致 OCR 不佳等挑战，提供了与一般多模态基准测试不同的关键评估视角。

除了多模态的挑战之外，了解 agent 对环境干扰的弹性至关重要。EnvDistraction 引入了一个基准测试，评估多模态 GUI agent 在非恶意干扰（例如弹出窗口和推荐）下的可信度。研究表明，即使是高级 agent 也容易受到此类干扰，这揭示了需要强大的多模态感知来实现可靠自动化的漏洞。

ST-WebAgentBench 专注于安全性和可信度，通过强调企业环境中不安全行为的管理采取了一种独特的方法。它具有人机回路系统和策略驱动的层次结构，引入了策略下完成 (CuP) 指标来评估 agent 对组织、用户和特定于任务的策略的遵守情况。该基准测试使用 BrowserGym 在网页环境中运行，并包括 235 个任务，这些任务的策略涉及各种安全维度，为评估企业场景中的 agent 提供了全面的框架。

为了解决企业软件任务的自动化问题，WorkArena 提供了一个基准测试，强调在 ServiceNow 平台内执行的常见任务。它在 33 个任务中包含 19912 个独特的实例，突出了当前最先进的 agent 与企业 UI 自动化中的人类能力之间的显著性能差距，为未来的创新设定了方向。

在与实时网站交互领域，WebOlympus 引入了一个开放平台，使网页 agent 能够通过基于 Chrome 扩展的界面与实时网站进行交互。它支持各种任务并集成了一个安全监视器以防止有害操作，从而促进了基于网页的任务的更安全自动化，并为评估 agent 在真实场景中的性能提供了关键工具。

总而言之，这些基准测试为推进基于网页的 GUI agent 的评估做出了重大贡献，每个基准测试都解决了不同的方面，例如真实性、多模态、安全性和企业适用性。它们的发展反映了创建能够进行复杂网页交互的复杂 agent 的不断变化的挑战和要求。

9.5 移动端 Agent 测试基准

在移动平台上评估 GUI agent 具有独特的挑战，这源于交互的多样性和移动应用程序的复杂性。为了应对这些挑战，人们开发了几种基准测试，每种测试都为移动端 agent 评估的进步做出了贡献。

PIXELHELP 是该领域早期的一项工作，它专注于将自然语言指令与移动用户界面上的操作进行关联。为了解决解释和执行复杂、多步骤任务的重大挑战，PIXELHELP 提供了一个全面的数据集，将英语指令与人类在移动 UI 模拟器上执行的操作配对。它包含四个任务类别中的 187 个多步骤指令，通过诸如完全匹配和部分匹配等指标，为评估模型在任务准确性方面的表现提供了可靠的资源。

基于系统评估的需求，ANDROIDLAB 为基于 Android 的自主 agent 建立了一个全面的框架。它引入了操作空间和操作模式，支持对纯文本和多模态模型进行一致的评估。通过提供 XML 和 SoM 操作模式，ANDROIDLAB 允许 LLM 和 LMM 在等效环境中模拟真实世界的交互。该基准测试包括 9 个应用程序中的 138 个任务，涵盖了典型的 Android 功能，并使用诸如成功率和反向冗余等指标来评估 agent。

为了进一步挑战 agent 处理 API 和 UI 操作的能力，Mobile-Bench 提出了一种创新的方法，将这些元素整合到真实的 Android 环境中。其多应用程序设置和三个不同的任务类别测试了 agent 处理简单和复杂移动交互的能力，突破了传统的单应用程序场景。评估利用 CheckPoint 指标，在每个关键操作步骤评估 agent，从而深入了解规划和决策能力。

MobileSafetyBench 强调移动设备控制的安全性，提供了一个结构化的评估框架，优先考虑有用性和安全性。它在 Android 模拟器中严格测试 agent 在常见移动任务中的表现，重点关注分层风险评估，包括法律合规性和隐私。一个独特的特点是其间接提示注入测试，用于探测 agent 的稳健性。评估确保 agent 在管理风险的同时，在实际成功方面获得评分，从而推动 LLM 可靠性和安全自主设备控制的研究。

SPA-BENCH 将范围扩展到多种语言和应用场景，为智能手机 agent 引入了一个广泛的基准测试。它在一个支持无缝 agent 集成的即插即用框架中评估单应用程序和跨应用程序任务。SPA-BENCH 拥有涵盖 Android 应用程序（包括系统和第三方应用程序）的各种任务集合，提供了一个真实的测试环境，通过诸如成功率、效率和资源使用等指标来衡量 agent 理解 UI 和处理应用程序导航的能力。

MobileAgentBench 专注于高效且用户友好的评估，提出了一个为 Android 设备上的 agent 量身定制的基准测试。它提供了一个完全自主的测试过程，利用最终 UI 状态匹配和实时应用程序事件跟踪。它在 10 个开源 Android 应用程序中提供了 100 个按难度分类的任务，可适应多种成功路径，从而提高了可靠性和适用性。全面的指标，包括任务成功率、效率、延迟和 token 成本，提供了对 agent 性能的深入了解。

LlamaTouch 对这些工作进行了补充，它为真实 Android 环境中的移动 UI 任务自动化引入了一个基准测试和测试平台。它强调必要的状态注释，使任务的精确评估成为可能，而无需考虑执行路径的可变性或动态 UI 元素。LlamaTouch 拥有 57 个独特应用程序中的 496 个任务，通过先进的匹配技术，集成了像素级屏幕截图和文本屏幕层次结构，减少了误报，并支持各种任务复杂性，从而展示了可扩展性和保真度。

总的来说，这些基准测试显著推动了基于移动端的 GUI agent 的评估，解决了任务复杂性、安全性、效率和可扩展性方面的挑战。它们的贡献对于开发更强大、更可靠的移动平台 agent 至关重要。

9.6 计算机 Agent 测试基准

在桌面计算机上评估 GUI agent 涉及各种应用程序和复杂的工作流程。人们开发了几种基准测试来评估 agent 在这些环境中的能力，每种测试都针对特定的挑战并推动了该领域的发展。

Act2Cap 是该领域早期的基准测试，它专注于使用光标作为关键视觉引导，以视频格式捕获和叙述 GUI 操作。Act2Cap 强调 GUI 交互的详细细微差别，特别是基于光标的操作，如点击和拖动，这对于提高 GUI 密集型任务的自动化能力至关重要。它包括一个涵盖各种 Windows GUI 环境的 4，189 个样本的大型数据集，采用基于元素级交并比的指标来评估语义准确性以及时间和空间精度。

为了为多模态 agent 提供可扩展且真实的计算机环境，OSWorld 引入了一个开创性的框架，该框架支持跨多个操作系统（包括 Ubuntu、Windows 和 macOS）的任务设置、基于执行的评估和交互式学习。OSWorld 作为一个统一的环境，反映了真实世界计算机使用的复杂性和多样性，可适应任意应用程序和开放式计算机任务。它包括 Ubuntu 上的 369 个任务和 Windows 上的 43 个任务的综合套件，利用基于执行的评估指标（如成功率）进行严格评估。

基于 OSWorld，WindowsArena 调整了该框架，专门为 Windows 操作系统创建了 150 多个不同的任务。它专注于多模态、多步骤任务，要求 agent 在真实的 Windows 环境中展示规划、屏幕理解和工具使用的能力。为了解决评估时间缓慢的挑战，WindowsArena 允许在 Azure 云中进行并行部署，从而大大缩短了评估时间，并允许对各种应用程序和 Web 域进行全面测试。

OFFICEBENCH 专注于办公自动化任务，为在真实办公工作流程中对 LLM agent 进行基准测试引入了一个开创性的框架。它模拟了 Linux Docker 环境中跨多个办公应用程序（如 Word、Excel 和电子邮件）的复杂工作流程，评估 agent 在跨应用程序自动化方面的熟练程度。该基准测试通过不同难度级别的复杂任务来挑战 agent，要求其适应不同的复杂性和用例。自定义指标评估操作准确性和决策能力，从而深入了解 agent 在管理多应用程序办公场景中的能力。

Spider2-V 针对数据科学和工程工作流程的自动化，提供了一个独特的基准测试。它包含 20 个企业级应用程序中的 494 个真实世界任务，涵盖从数据仓库到可视化的整个数据科学工作流程。它评估 agent 在 Ubuntu 上真实企业软件环境中处理代码生成和复杂 GUI 交互的能力，采用多方面的评估方法，包括基于信息的验证、基于文件的比较和基于执行的验证。

在生产力软件领域，AssistGUI 提供了一个开创性的框架，用于评估 agent 的能力。它引入了一个 Actor-Critic 具身 Agent 框架，该框架能够进行复杂的分层任务规划、GUI 解析和操作生成。该数据集包括跨设计、办公工作和系统设置的各种任务，并由项目文件支持以实现可重复性。通过强调以像素级精度和程序遵守为基础的结果驱动型评估，AssistGUI 突出了当前基于 LLM 的 agent 在管理复杂桌面软件工作流程方面的潜力和局限性。

总的来说，这些基准测试为桌面平台上的 GUI agent 提供了全面的评估框架，解决了任务复杂性、跨应用程序自动化、可扩展性和保真度方面的挑战。它们的贡献对于推进能够在桌面环境中进行复杂交互的复杂 agent 的开发至关重要。

9.7 跨平台 Agent 测试基准

为了开发能够在多个平台上运行的 GUI agent，跨平台基准测试至关重要。这些基准测试旨在挑战 agent 适应不同环境和界面的能力，从而评估其通用性和稳健性。

为了满足这一需求，VisualAgentBench (VAB) 成为了评估 GUI 和多模态 agent 在各种真实交互任务中的先驱基准。VAB 涵盖了 Web (WebArena-Lite)、Android (VAB-Mobile) 和游戏环境等平台，专注于基于视觉的交互和高层次决策任务。该基准测试采用多层次数据收集策略，包括人类演示、基于程序的求解器和模型引导。评估指标侧重于成功率，确保在导航和内容修改等任务中进行全面的性能评估，从而填补了基于 GUI 的 LLM agent 基准测试标准的重大空白。

作为补充，CRAB 引入了一种创新的基准测试，通过评估多模态语言模型 agent 在跨环境交互中的表现。它独特地支持无缝的多设备任务执行，在任务跨越 Ubuntu Linux 和 Android 环境的场景中评估 agent。通过引入基于图的评估方法，将任务分解为子目标，并适应多种正确的完成路径，CRAB 对规划、决策和适应性进行了细致的评估。完成率、执行效率、成本效率和成功率等指标提供了对 agent 性能的全面见解。

ScreenSpot 专注于跨平台视觉 agent 的 GUI 定位，提供了一个全面的基准测试，强调依赖于解释屏幕截图而不是结构化数据的任务。ScreenSpot 包含 600 多个屏幕截图和 1200 多条涵盖移动（iOS、Android）、桌面（macOS、Windows）和 Web 平台的各种指令。它通过衡量 agent 仅通过视觉线索识别和与 GUI 元素交互的有效性来评估点击准确性和定位精度。通过用各种 UI 元素挑战模型，ScreenSpot 解决了现实世界的复杂性，使其成为评估各种环境中视觉 GUI agent 的重要资源。

这些跨平台基准测试共同推动了能够在多个平台上无缝运行的 GUI agent 的发展。通过提供全面的评估框架，它们有助于评估和增强 agent 在不同环境中的通用性和适应性。

9.8 要点总结

GUI agent 基准测试的演变反映了向更真实、交互式和全面的评估环境的广泛转变。本节重点介绍了 LLM 驱动的 GUI agent 基准测试中的关键趋势和未来方向。

迈向更具交互性和真实性的环境： GUI agent 基准测试的最新进展强调了从合成场景向更具交互性和真实性的环境的过渡。这种转变在模拟器、Docker 容器和真实应用程序的使用中显而易见，这些工具创建了更好地模拟真实用户交互的“实时”环境。这些环境不仅能更准确地评估 agent 的能力，而且在性能和稳健性方面也提出了新的挑战。
跨平台基准测试： 涵盖移动、Web 和桌面环境的跨平台基准测试的出现，代表着评估 GUI agent 通用性方面的重要一步。然而，这些基准测试引入了每个平台独有的基本挑战。用于访问特定于平台的信息（如 HTML 和 DOM 结构）的统一接口可以大大简化基准测试过程并减少实现工作。未来的工作应侧重于标准化这些接口，以促进在不同环境中进行无缝的 agent 评估。
增强人机交互和真实性： 越来越多的趋势是在基准测试中融入更像人类的交互，如多轮和对话场景。这些设置更密切地反映了现实世界的使用案例，从而对 agent 处理动态、迭代交互的能力进行了严格的测试。随着 GUI agent 变得越来越复杂，基准测试必须不断发展，以包含这些细致的交互模式，确保 agent 能够在复杂、以人为中心的环境中有效运行。
可扩展性和自动化挑战： 可扩展性仍然是 GUI agent 基准测试中的一个重要问题。创建真实的任务和开发针对个别案例的评估方法通常需要大量的人力。这些过程的自动化可以缓解一些可扩展性问题，从而实现更广泛和更高效的基准测试。未来的研究应探索自动化任务生成和评估技术，以提高可扩展性。
强调安全性、隐私性和合规性： 评估 GUI agent 在安全性、隐私性和合规性指标方面的表现已成为一种显著趋势。随着 agent 被集成到敏感和受监管的领域，这些考虑因素变得越来越重要。鼓励这种趋势将有助于确保 agent 不仅能有效地执行任务，而且还能遵守必要的法律和道德标准。未来的基准测试应继续扩展这些维度，纳入反映真实世界合规性和数据安全要求的评估。

GUI agent 基准测试的格局正在迅速发展，以满足日益复杂和交互式环境的需求。通过采用跨平台评估、培养类人交互、应对可扩展性挑战以及优先考虑安全性和合规性，该领域可以为下一代复杂的 GUI agent 铺平道路。持续的创新和协作对于改进基准测试至关重要，以确保它们准确捕捉现代 agent 的多方面能力，最终实现更直观和有效的人机交互。