苹果发布Ferret-UI 2: 跨平台UI理解多模态大模型(精炼版) - 文章 - 开发者社区

引言
简介
方法
实验结果
总结
实战

引言 =======

在数字设备日益普及的今天，用户界面(UI)已经成为人机交互的核心桥梁。近期，苹果公司发布的Ferret-UI 2 凭借其多平台兼容性和自适应编码等创新特性，在通用UI理解能力方面取得了显著突破。本文将简要介绍其核心技术与应用效果等要点 。如果小伙伴们想深入了解技术细节 ，欢迎关注下一篇文章：《全面解读Ferret-UI 2屏幕多模态大模型（详解版）》。

简介 =======

这篇论文介绍了Ferret-UI 2，这是一个针对多平台用户界面(UI)理解和交互的大型多模态语言模型(MLLM)。

Q1: 这篇文章想要解决什么问题？

A1: 论文旨在构建一个通用的UI理解模型，能够支持跨多种平台(包括iPhone、Android、iPad、网页和AppleTV)的UI理解和用户交互。之前的方法局限于单一平台，无法很好地处理不同平台UI的差异。

Q2: 这篇文章如何解决这些问题？

A2: Ferret-UI 2提出了三大创新:

支持多种平台类型;
通过自适应分块编码实现高分辨率感知;
利用GPT-4o生成高质量的任务训练数据，包括综合描述、多轮感知和交互问答等。

这些创新使得Ferret-UI 2具有更强的通用性和适应性，能够应对不同平台UI的复杂多样性。

Q3: 文章所提出方法的效果如何？

A3: 在多种基准测试中，Ferret-UI 2取得了显著的性能提升。在包括指示、定位等基础任务以及综合描述、多轮感知和交互问答等高级任务的测试中，Ferret-UI 2均优于之前的Ferret-UI模型和GPT-4o。在GUIDE基准测试中，Ferret-UI 2也取得了最高的IoU得分，体现了其出色的定位能力。此外，Ferret-UI 2在GUI-World跨平台评测中也展现了强大的泛化能力。

Q4: 文章所提方法还有哪些不足？

A4: 文章指出，尽管Ferret-UI 2在多种基准测试中表现优秀，但仍存在一些局限性。比如iPad和AppleTV平台的数据相对较少，未来需要进一步扩大这些平台的训练数据覆盖。另外，作者也提到想要构建一个真正的通用UI导航agent，还需要进一步研究。另外，不支持中文，差评！

方法 =======

Ferret-UI 2的模型架构在Ferret-UI的基础上进行了改进。主要包括以下三个创新点:

多平台支持: 除了之前的iPhone和Android平台，Ferret-UI 2新增了对iPad、网页和AppleTV等其他平台的支持。这使得模型能够处理更广泛的UI界面。
自适应高分辨率编码: 相比Ferret-UI采用固定分辨率的方法，Ferret-UI 2提出了自适应N-gridding技术，可根据输入图像动态调整最优的分块数，在保持感知精度的同时提高推理效率。
高质量训练数据生成: Ferret-UI 2利用GPT-4o结合Set-of-Mark视觉提示生成更丰富的训练数据，覆盖综合描述、多轮感知和交互问答等多种任务，相比之前的基于纯文本描述的方法质量更高。
实验结果 =========
自建基准测试 (包含45个测试任务)

基础任务(Elementary Tasks):

表现最好的Ferret-UI 2 (Llama3-8B版本)在Referring达到80.28分（Vicuna-13B版最高，81.34），在Grounding达到82.79分
显著超越原版Ferret-UI (分别是64.15和57.22分)

高级任务(Advanced Tasks，综合描述、多轮感知和交互问答):

GPT-4o评分: Ferret-UI 2 (Llama3-8B)达到89.73分，超越原版Ferret-UI近44分
Multi-IoU指标: Ferret-UI 2 (Vicuna-13B)达到41.71，表现最佳

GUIDE基准测试

评估模型在网页界面上的下一步动作预测能力
Ferret-UI 2表现:

BertScore: 91.37 (Llama3-8B版本)
IoU: 55.78 (Llama3-8B版本)
显著超越原版Ferret-UI (BertScore: 41.15， IoU: 26.91)

GUI-World基准测试

评估模型在iOS、Android和网页三个平台的零样本性能
Ferret-UI 2平均得分2.948，具体表现:

iOS: 2.881
Android: 2.954
网页: 3.013

超越了多个基线模型，包括:

GUI-Vid (2.767)
QWen-VL-MAX (2.580)
原版Ferret-UI (2.638)

但略低于:

Gemini-Pro 1.5 (3.295)
GPT-4o (3.619)

总体来看，Ferret-UI 2在所有测试基准上都取得了显著的进步，特别是在基础任务和高级任务上的表现大幅超越了原版模型。虽然在GUI-World基准上略逊于最新的Gemini-Pro 1.5和GPT-4o，但仍然优于其他多个基线模型。

总结 =======

总的来说，Ferret-UI 2通过多平台支持、高分辨率感知和高质量训练数据生成等创新，显著提升了通用UI理解的性能，在多种基准测试中取得了优异的成绩。未来可以考虑进一步扩大训练数据覆盖，尤其是针对iPad和AppleTV等平台，并继续探索构建真正通用的UI导航agent。

实战 =======

以下分别用中文截图和英文截图分别测试。

英文截图：

picture.image

中文截图：

picture.image

可以看出，英文效果不错，但是确实不支持中文场景，再次差评3连。