GUI Agent新纪元！微软开源纯视觉方案GUI-Actor让AI真正看懂屏幕 - 文章 - 开发者社区

引言 =====

人生到处知何似，应似飞鸿踏雪泥。小伙伴们好，我是微信公众号"小窗幽记机器学习"的小编卖铁观音的小男孩。继续Agent智能体专题，今天的主角是微软最新开源的GUI智能体：GUI-Actor——一个彻底改变游戏规则的GUI视觉定位方案。它的核心理念极其简单却充满智慧：让AI不再计算坐标，而是直接"看到"要点击的位置。真大道至简！

论文地址： https://www.arxiv.org/abs/2506.03143

源代码地址： https://github.com/microsoft/GUI-Actor

更多AI相关欢迎关注微信公众号："小窗幽记机器学习"

简介 =====

这篇论文提出了GUI-Actor，一种新颖的基于视觉语言模型(VLM)的GUI智能体视觉定位方法。该方法通过引入基于注意力的动作头和专用的<ACTOR> token，实现了无坐标的GUI元素定位，从根本上改变了现有基于坐标生成的定位范式。

Q1: 这篇文章想要解决什么问题？ A1: 文章主要解决基于VLM的GUI智能体中的视觉定位问题，即如何根据视觉内容和文本指令准确定位屏幕上适合执行操作的区域。现有基于坐标生成的方法存在三个关键局限：(1)空间-语义对齐较弱，缺乏显式的空间监督；(2)单点预测无法处理模糊的监督目标，会惩罚合理的位置变化；(3)屏幕像素的连续精细性与视觉模型的粗粒度特征提取之间存在精度不匹配。

Q2: 这篇文章如何解决这些问题？ A2: GUI-Actor提出了一种无坐标的定位方法，核心创新包括：

引入专用的 <ACTOR> token作为上下文锚点，通过基于注意力的动作头学习将其与相关视觉patch对齐
采用空间感知的多区域监督策略，将所有与真实边界框重叠的视觉patch标记为正样本
设计轻量级定位验证器，从多个候选区域中选择最合理的动作位置
直接在视觉主干的原生空间分辨率上进行定位，避免了粒度不匹配问题

Q3: 文章所提出方法的效果如何？ A3: GUI-Actor在多个基准测试中取得了优异表现：

在ScreenSpot-Pro上，GUI-Actor-7B达到44.6分，超过了参数量更大的UI-TARS-72B（38.1分）
2B版本的模型甚至超过了多个7B竞争模型
在分布外泛化能力上表现突出，对未见过的屏幕分辨率和布局具有更强的鲁棒性
仅使用60%的训练数据就达到了最终准确率，展现出更高的样本效率
通过轻量级训练（仅微调约100M参数）就能达到与完全微调模型相当的性能

Q4: 文章所提方法还有哪些不足？ A4: 基于论文内容和技术分析，主要不足包括：

依赖于视觉编码器的patch级别特征，对于极小的GUI元素可能存在定位精度限制。这是因为GUI-Actor 依赖的视觉模型（例如 Qwen2-VL）在处理图像时，会把图像分割成一个个固定大小的patc块(文章这里是28x28 pixel)。
验证器需要额外的推理步骤，虽然提升了准确性但增加了计算开销
在实际多步骤任务中（如OS-World-W），成功率仍然较低（12.2%），表明在复杂交互场景中还有提升空间
方法主要针对点击操作优化，对于拖拽、滑动等复杂交互的支持可能需要进一步研究

方法 =====

GUI-Actor概览如下：

picture.image

GUI-Actor的核心架构包含三个主要组件：

2.1

Token作为上下文锚点

传统方法生成坐标序列如pyautogui.click(x=0.123, y=0.234)，GUI-Actor将坐标部分替换为三个特殊token：

  
VLM(I, q) = {x\_{1:i-1}, <ACTOR\_START>, <ACTOR>, <ACTOR\_END>, x\_{i+3:N}}

其中<ACTOR> token的最终层隐藏状态作为计算视觉区域注意力的上下文锚点。

2.2 基于注意力的动作头

动作头通过以下步骤实现定位：

对视觉区域特征应用自注意力层，聚合空间相关区域的语义
通过独立的MLP将 <ACTOR> token表示和视觉特征投影到共享嵌入空间
计算 <ACTOR> token与每个视觉区域的注意力分数，形成屏幕注意力图

2.3 空间感知的多区域监督

将所有与真实边界框重叠的图像区域标记为正例
使用KL散度作为动作注意力损失，结合下一个token预测损失进行训练
这种策略允许模型容忍空间模糊性，提供密集的空间结构化监督信号

2.4 定位验证器

轻量级VLM模块，评估在建议位置放置视觉标记的截图
从注意力图生成的多个候选中选择语义上最合适的目标
使用置信度阈值进行筛选，提高定位准确性

实验结果 =======

3.1 主要性能对比

在三个基准测试上的表现：

ScreenSpot-Pro : GUI-Actor-7B达到44.6，显著超越同规模模型
ScreenSpot : 在标准测试集上保持领先优势
ScreenSpot-v2 : 展现出稳定的性能提升

3.2 关键实验发现

分布外泛化能力 ：在高分辨率和领域偏移的ScreenSpot-Pro上，GUI-Actor展现出比基线方法更强的鲁棒性
样本效率 ：仅使用60%训练数据即可达到最终准确率
轻量级训练 ：冻结主干网络仅训练动作头（约100M参数）即可获得竞争性性能
多区域预测 ：单次前向传播生成多个候选区域，Hit@3相比Hit@1有显著提升

3.3 消融研究

对比实验表明：

基于注意力的方法显著优于坐标生成方法
边界框监督并未比点监督带来明显优势（在坐标生成范式下）
验证器在所有设置下都能带来性能提升，特别是在分布外测试中

总结 =====

GUI-Actor通过引入基于注意力的无坐标定位机制，从根本上改变了GUI视觉定位的范式。该方法不仅在多个基准测试中取得了最先进的性能，还展现出更强的泛化能力和样本效率。

未来改进方向：

多模态交互支持 ：扩展到支持拖拽、滑动等复杂交互模式，而不仅限于点击操作
细粒度定位优化 ：研究如何提高对极小GUI元素的定位精度，可能通过多尺度特征融合或高分辨率视觉编码器
端到端任务优化 ：将定位能力与任务规划更紧密结合，提高在复杂多步骤任务中的成功率
计算效率提升 ：优化验证器架构，减少额外的推理开销，实现更高效的实时交互
跨平台泛化 ：进一步提升在不同操作系统、设备类型和应用程序间的泛化能力

更多AI相关欢迎关注微信公众号："小窗幽记机器学习"

picture.image