微软亚洲研究院打造最强视觉元素定位模型

发布时间：2025 年 04 月 15 日

picture.image

添加请注明Agent

如遇无法添加，请+ vx: iamxxn886

为什么需要 GUI 视觉定位技术？

1.1 数字时代的效率革命

图形用户界面(Graphical User Interface, GUI)智能体正在重塑人机交互方式。这类智能体通过模仿人类的视觉感知能力，可以直接"看懂"屏幕内容并执行操作指令。微软亚洲研究院团队的研究表明，相比依赖 HTML 等 GUI 元数据的传统方法（存在平台依赖性和实现差异问题），基于视觉的方法具有更广泛的适用性。例如，在跨平台操作场景中，视觉智能体可以统一处理 Windows、Web 和移动端界面，而无需针对每个平台开发特定解析器。

1.2 现有技术的三大瓶颈

picture.image

研究团队在分析现有 GUI 视觉定位技术时发现了三个关键挑战：

• 1.元素屏幕比失衡：现有基准测试中的按钮等元素尺寸通常占据屏幕的 1%-5%，而真实桌面环境（如 1080p/1440p 分辨率）中元素占比往往小于 0.5%。这种差异导致模型在测试环境表现良好，但在实际应用中定位小元素时准确率骤降。例如，在 1440p 分辨率下，"保存"按钮可能仅占屏幕面积的 0.2%。
• 2.元素类型不平衡：现有数据集过度集中于文本按钮（占比超过 60%），而复选框、单选框等长尾元素占比不足 5%。这种不平衡导致模型难以识别功能性图标，如 Photoshop 工具栏中的"魔棒工具"图标，尽管这些图标在专业软件中至关重要。
• 3.隐含指令理解困难：用户常基于元素功能而非可见文本发出指令。例如说"保存文档"而非"点击左上角第三个图标"，现有模型对此类指令的理解准确率不足 40%。这种认知鸿沟严重限制了 GUI 智能体的实际应用价值。

1.3 数据标注的成本困局

构建高质量的 GUI 定位数据集面临双重挑战：

• 1.标注人员需要同时理解界面元素功能（如区分"提交"按钮和"保存"按钮）
• 2.用户操作意图（如理解"完成注册"对应的具体操作）。

这种复合型标注任务使得单个样本标注成本高达 2-3 美元，而训练一个实用模型通常需要百万级样本量。例如，标注一个电商结账页面可能需要识别 10-15 个交互元素，并生成 20 种以上的自然语言指令变体。

二、UI-E2I-Synth 技术解析

2.1 三步合成流水线

picture.image

UI-E2I-Synth（User Interface Element-to-Instruction Synthesis，用户界面元素到指令合成）采用分阶段处理策略，将复杂的指令生成任务分解为三个关键步骤：

2.1.1. 原始数据收集与解析

系统从网页、Windows 和 Android 平台采集截图-元数据对，通过启发式解析器提取元素的三个核心属性：类型（如按钮/输入框）、内容（如文本标签）和边界框坐标。这种结构化处理为后续步骤提供了可靠的基础数据，例如从网页 DOM（Document Object Model）中解析出的搜索框元素会被标记为"Inputfield"类型。

2.1.2. 指代表达生成

利用 GPT-4o 生成两种元素描述方式：

• 显式表达：直接描述可见特征（如"蓝色搜索按钮"）
• 隐含表达：通过功能或上下文关系间接描述（如"页面顶部的返回箭头"）

2.1.3. 指令合成

将用户操作分解为动作类型（点击/输入）、动作内容（输入文本）和元素对象三个参数。通过参数化组合生成自然的第一人称指令，如"在用户名输入框填写'admin'"。相比直接生成，这种方法使指令准确率显著提高。

效果评估

3.1 新基准测试 UI-I2E-Bench

研究团队构建的 UI-I2E-Bench 基准测试包含 1,477 条指令，具有三大创新特性。

picture.image

• 首先，该基准采用更接近真实场景的元素屏幕比（element-to-screen ratio），平均比现有基准小 37%。测试元素在屏幕中的占比更接近实际使用场景，如上图所示，现有基准中的元素比例明显大于常见的 1080p 和 1440p 桌面显示器标准。这种设计能更准确地评估模型在真实环境中的表现。
• 其次，基准实现了元素类型的平衡分布，非文本元素（如图标、输入框等）占比达到 23%。如上图右侧所示，现有基准中文本按钮占据主导地位，而 UI-I2E-Bench 通过精心设计的数据采样策略，确保了各类 GUI 元素的均衡覆盖。例如，对于复选框这类依赖周边元素定义功能的组件，基准中给予了合理权重。
• 第三项创新是显式/隐含指令分类标注，其中隐含指令占比达 42%。比如，当用户说"返回顶部"时，这属于需要理解功能语义的隐含指令；而"点击蓝色返回按钮"则是直接描述视觉特征的显式指令。这种区分有助于评估模型不同层次的认知能力。