微软亚洲研究院打造最强视觉元素定位模型

大模型向量数据库机器学习
微软亚洲研究院打造最强视觉元素定位模型

发布时间:2025 年 04 月 15 日

picture.image

添加请注明Agent

如遇无法添加,请+ vx: iamxxn886


为什么需要 GUI 视觉定位技术?

1.1 数字时代的效率革命

图形用户界面(Graphical User Interface, GUI)智能体正在重塑人机交互方式。这类智能体通过模仿人类的视觉感知能力,可以直接"看懂"屏幕内容并执行操作指令。微软亚洲研究院团队的研究表明,相比依赖 HTML 等 GUI 元数据的传统方法(存在平台依赖性和实现差异问题),基于视觉的方法具有更广泛的适用性。例如,在跨平台操作场景中,视觉智能体可以统一处理 Windows、Web 和移动端界面,而无需针对每个平台开发特定解析器。

1.2 现有技术的三大瓶颈

picture.image

研究团队在分析现有 GUI 视觉定位技术时发现了三个关键挑战:

  • • 1.元素屏幕比失衡 :现有基准测试中的按钮等元素尺寸通常占据屏幕的 1%-5%,而真实桌面环境(如 1080p/1440p 分辨率)中元素占比往往小于 0.5%。这种差异导致模型在测试环境表现良好,但在实际应用中定位小元素时准确率骤降。例如,在 1440p 分辨率下,"保存"按钮可能仅占屏幕面积的 0.2%。
  • • 2.元素类型不平衡 :现有数据集过度集中于文本按钮(占比超过 60%),而复选框、单选框等长尾元素占比不足 5%。这种不平衡导致模型难以识别功能性图标,如 Photoshop 工具栏中的"魔棒工具"图标,尽管这些图标在专业软件中至关重要。
  • • 3.隐含指令理解困难 :用户常基于元素功能而非可见文本发出指令。例如说"保存文档"而非"点击左上角第三个图标",现有模型对此类指令的理解准确率不足 40%。这种认知鸿沟严重限制了 GUI 智能体的实际应用价值。

1.3 数据标注的成本困局

构建高质量的 GUI 定位数据集面临双重挑战:

  • • 1.标注人员需要同时理解界面元素功能(如区分"提交"按钮和"保存"按钮)
  • • 2.用户操作意图(如理解"完成注册"对应的具体操作)。

这种复合型标注任务使得单个样本标注成本高达 2-3 美元,而训练一个实用模型通常需要百万级样本量。例如,标注一个电商结账页面可能需要识别 10-15 个交互元素,并生成 20 种以上的自然语言指令变体。

二、UI-E2I-Synth 技术解析

2.1 三步合成流水线

picture.image

UI-E2I-Synth(User Interface Element-to-Instruction Synthesis,用户界面元素到指令合成)采用分阶段处理策略,将复杂的指令生成任务分解为三个关键步骤:

2.1.1. 原始数据收集与解析

系统从网页、Windows 和 Android 平台采集截图-元数据对,通过启发式解析器提取元素的三个核心属性:类型(如按钮/输入框)、内容(如文本标签)和边界框坐标。这种结构化处理为后续步骤提供了可靠的基础数据,例如从网页 DOM(Document Object Model)中解析出的搜索框元素会被标记为"Inputfield"类型。

2.1.2. 指代表达生成

利用 GPT-4o 生成两种元素描述方式:

  • • 显式表达:直接描述可见特征(如"蓝色搜索按钮")
  • • 隐含表达:通过功能或上下文关系间接描述(如"页面顶部的返回箭头")

2.1.3. 指令合成

将用户操作分解为动作类型(点击/输入)、动作内容(输入文本)和元素对象三个参数。通过参数化组合生成自然的第一人称指令,如"在用户名输入框填写'admin'"。相比直接生成,这种方法使指令准确率显著提高。

  1. 效果评估

3.1 新基准测试 UI-I2E-Bench

研究团队构建的 UI-I2E-Bench 基准测试包含 1,477 条指令,具有三大创新特性。

picture.image

  • • 首先,该基准采用更接近真实场景的元素屏幕比(element-to-screen ratio),平均比现有基准小 37%。测试元素在屏幕中的占比更接近实际使用场景,如上图所示,现有基准中的元素比例明显大于常见的 1080p 和 1440p 桌面显示器标准。这种设计能更准确地评估模型在真实环境中的表现。
  • • 其次,基准实现了元素类型的平衡分布,非文本元素(如图标、输入框等)占比达到 23%。如上图右侧所示,现有基准中文本按钮占据主导地位,而 UI-I2E-Bench 通过精心设计的数据采样策略,确保了各类 GUI 元素的均衡覆盖。例如,对于复选框这类依赖周边元素定义功能的组件,基准中给予了合理权重。
  • • 第三项创新是显式/隐含指令分类标注,其中隐含指令占比达 42%。比如,当用户说"返回顶部"时,这属于需要理解功能语义的隐含指令;而"点击蓝色返回按钮"则是直接描述视觉特征的显式指令。这种区分有助于评估模型不同层次的认知能力。

3.2 模型性能对比

在跨平台测试中,使用合成数据训练的 UI-I2E-VLM-7B 模型展现出显著优势。UI-I2E-VLM-7B 在所有基准测试中均表现出色,超越了之前的最先进模型 OS-Atlas-7B,平均性能提高了9.7%。

picture.image

模型对隐含指令的理解准确率提升 12.1%,这得益于合成数据中对功能语义的强化训练。

picture.image

模型在资源效率方面表现突出,仅使用 OS-Atlas 72%的训练数据量就取得更好效果。如上表所示,这种优势在长尾元素识别上尤为明显:图标识别准确率提升 18.3%,输入框定位精度提升 14.6%。

picture.image

如上图,随着元素屏幕比减小(即元素更小),模型性能优势逐渐扩大,在最小比例区间(<0.03)仍保持 65%以上的准确率。

3.3 实际应用验证

picture.image

将模型集成到 OSWorld 实时 GUI 智能体测试环境后,任务成功率比纯 GPT-4o 方案提升 23.4%。

这种提升源于两方面:

  • • 一是合成数据包含各类专业软件的界面样本
  • • 二是指令生成时模拟了真实用户的操作逻辑。

例如在"登录邮箱"任务中,模型会先定位登录模块再寻找输入框,展现出层级理解能力。

3.4 失败案例分析

研究团队对典型错误进行了系统归类(如下图所示):

picture.image

上图展示了UI-I2E-VLM在UI-I2E-Bench上的常见错误,包括:

  • • 1.由于知识有限而未能识别无文本的图标。
  • • 2.行或列内元素的错误定位。
  • • 3.空间关系的误解。
  • • 4.层级关系的误解。
  • • 5.错误分类元素类型,例如将复选框与相邻文本混淆。

3.5 测评榜单

作者已经公开发布了测评榜单:https://colmon46.github.io/i2e-bench-leaderboard/

picture.image


picture.image

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论