- 引言
- 简介
- 方法
- 实验结果
- 总结
- 实战
- 引言 =======
在数字设备日益普及的今天,用户界面(UI)已经成为人机交互的核心桥梁。近期,苹果公司发布的Ferret-UI 2 凭借其多平台兼容性和自适应编码等创新特性,在通用UI理解能力方面取得了显著突破。本文将简要介绍其核心技术与应用效果等要点 。如果小伙伴们想深入了解技术细节 ,欢迎关注下一篇文章:《全面解读Ferret-UI 2屏幕多模态大模型(详解版)》。
- 简介 =======
这篇论文介绍了Ferret-UI 2,这是一个针对多平台用户界面(UI)理解和交互的大型多模态语言模型(MLLM)。
Q1: 这篇文章想要解决什么问题?
A1: 论文旨在构建一个通用的UI理解模型,能够支持跨多种平台(包括iPhone、Android、iPad、网页和AppleTV)的UI理解和用户交互。之前的方法局限于单一平台,无法很好地处理不同平台UI的差异。
Q2: 这篇文章如何解决这些问题?
A2: Ferret-UI 2提出了三大创新:
- 支持多种平台类型;
- 通过自适应分块编码实现高分辨率感知;
- 利用GPT-4o生成高质量的任务训练数据,包括综合描述、多轮感知和交互问答等。
这些创新使得Ferret-UI 2具有更强的通用性和适应性,能够应对不同平台UI的复杂多样性。
Q3: 文章所提出方法的效果如何?
A3: 在多种基准测试中,Ferret-UI 2取得了显著的性能提升。在包括指示、定位等基础任务以及综合描述、多轮感知和交互问答等高级任务的测试中,Ferret-UI 2均优于之前的Ferret-UI模型和GPT-4o。在GUIDE基准测试中,Ferret-UI 2也取得了最高的IoU得分,体现了其出色的定位能力。此外,Ferret-UI 2在GUI-World跨平台评测中也展现了强大的泛化能力。
Q4: 文章所提方法还有哪些不足?
A4: 文章指出,尽管Ferret-UI 2在多种基准测试中表现优秀,但仍存在一些局限性。比如iPad和AppleTV平台的数据相对较少,未来需要进一步扩大这些平台的训练数据覆盖。另外,作者也提到想要构建一个真正的通用UI导航agent,还需要进一步研究。另外,不支持中文,差评!
- 方法 =======
Ferret-UI 2的模型架构在Ferret-UI的基础上进行了改进。主要包括以下三个创新点:
-
多平台支持: 除了之前的iPhone和Android平台,Ferret-UI 2新增了对iPad、网页和AppleTV等其他平台的支持。这使得模型能够处理更广泛的UI界面。
-
自适应高分辨率编码: 相比Ferret-UI采用固定分辨率的方法,Ferret-UI 2提出了自适应N-gridding技术,可根据输入图像动态调整最优的分块数,在保持感知精度的同时提高推理效率。
-
高质量训练数据生成: Ferret-UI 2利用GPT-4o结合Set-of-Mark视觉提示生成更丰富的训练数据,覆盖综合描述、多轮感知和交互问答等多种任务,相比之前的基于纯文本描述的方法质量更高。
-
实验结果 =========
-
自建基准测试 (包含45个测试任务)
- 基础任务(Elementary Tasks):
- 表现最好的Ferret-UI 2 (Llama3-8B版本)在Referring达到80.28分(Vicuna-13B版最高,81.34),在Grounding达到82.79分
- 显著超越原版Ferret-UI (分别是64.15和57.22分)
- 高级任务(Advanced Tasks,综合描述、多轮感知和交互问答):
- GPT-4o评分: Ferret-UI 2 (Llama3-8B)达到89.73分,超越原版Ferret-UI近44分
- Multi-IoU指标: Ferret-UI 2 (Vicuna-13B)达到41.71,表现最佳
- GUIDE基准测试
- 评估模型在网页界面上的下一步动作预测能力
- Ferret-UI 2表现:
- BertScore: 91.37 (Llama3-8B版本)
- IoU: 55.78 (Llama3-8B版本)
- 显著超越原版Ferret-UI (BertScore: 41.15, IoU: 26.91)
- GUI-World基准测试
- 评估模型在iOS、Android和网页三个平台的零样本性能
- Ferret-UI 2平均得分2.948,具体表现:
- iOS: 2.881
- Android: 2.954
- 网页: 3.013
- 超越了多个基线模型,包括:
- GUI-Vid (2.767)
- QWen-VL-MAX (2.580)
- 原版Ferret-UI (2.638)
- 但略低于:
- Gemini-Pro 1.5 (3.295)
- GPT-4o (3.619)
总体来看,Ferret-UI 2在所有测试基准上都取得了显著的进步,特别是在基础任务和高级任务上的表现大幅超越了原版模型。虽然在GUI-World基准上略逊于最新的Gemini-Pro 1.5和GPT-4o,但仍然优于其他多个基线模型。
- 总结 =======
总的来说,Ferret-UI 2通过多平台支持、高分辨率感知和高质量训练数据生成等创新,显著提升了通用UI理解的性能,在多种基准测试中取得了优异的成绩。未来可以考虑进一步扩大训练数据覆盖,尤其是针对iPad和AppleTV等平台,并继续探索构建真正通用的UI导航agent。
- 实战 =======
以下分别用中文截图和英文截图分别测试。
英文截图:
中文截图:
可以看出,英文效果不错,但是确实不支持中文场景,再次差评3连。