苹果发布Ferret-UI 2: 跨平台UI理解多模态大模型(精炼版)

大模型向量数据库云通信
  • 引言
  • 简介
  • 方法
  • 实验结果
  • 总结
  • 实战
  1. 引言 =======

在数字设备日益普及的今天,用户界面(UI)已经成为人机交互的核心桥梁。近期,苹果公司发布的Ferret-UI 2 凭借其多平台兼容性和自适应编码等创新特性,在通用UI理解能力方面取得了显著突破。本文将简要介绍其核心技术与应用效果等要点 。如果小伙伴们想深入了解技术细节 ,欢迎关注下一篇文章:《全面解读Ferret-UI 2屏幕多模态大模型(详解版)》。

  1. 简介 =======

这篇论文介绍了Ferret-UI 2,这是一个针对多平台用户界面(UI)理解和交互的大型多模态语言模型(MLLM)。

Q1: 这篇文章想要解决什么问题?

A1: 论文旨在构建一个通用的UI理解模型,能够支持跨多种平台(包括iPhone、Android、iPad、网页和AppleTV)的UI理解和用户交互。之前的方法局限于单一平台,无法很好地处理不同平台UI的差异。

Q2: 这篇文章如何解决这些问题?

A2: Ferret-UI 2提出了三大创新:

  • 支持多种平台类型;
  • 通过自适应分块编码实现高分辨率感知;
  • 利用GPT-4o生成高质量的任务训练数据,包括综合描述、多轮感知和交互问答等。

这些创新使得Ferret-UI 2具有更强的通用性和适应性,能够应对不同平台UI的复杂多样性。

Q3: 文章所提出方法的效果如何?

A3: 在多种基准测试中,Ferret-UI 2取得了显著的性能提升。在包括指示、定位等基础任务以及综合描述、多轮感知和交互问答等高级任务的测试中,Ferret-UI 2均优于之前的Ferret-UI模型和GPT-4o。在GUIDE基准测试中,Ferret-UI 2也取得了最高的IoU得分,体现了其出色的定位能力。此外,Ferret-UI 2在GUI-World跨平台评测中也展现了强大的泛化能力。

Q4: 文章所提方法还有哪些不足?

A4: 文章指出,尽管Ferret-UI 2在多种基准测试中表现优秀,但仍存在一些局限性。比如iPad和AppleTV平台的数据相对较少,未来需要进一步扩大这些平台的训练数据覆盖。另外,作者也提到想要构建一个真正的通用UI导航agent,还需要进一步研究。另外,不支持中文,差评!

  1. 方法 =======

Ferret-UI 2的模型架构在Ferret-UI的基础上进行了改进。主要包括以下三个创新点:

  1. 多平台支持: 除了之前的iPhone和Android平台,Ferret-UI 2新增了对iPad、网页和AppleTV等其他平台的支持。这使得模型能够处理更广泛的UI界面。

  2. 自适应高分辨率编码: 相比Ferret-UI采用固定分辨率的方法,Ferret-UI 2提出了自适应N-gridding技术,可根据输入图像动态调整最优的分块数,在保持感知精度的同时提高推理效率。

  3. 高质量训练数据生成: Ferret-UI 2利用GPT-4o结合Set-of-Mark视觉提示生成更丰富的训练数据,覆盖综合描述、多轮感知和交互问答等多种任务,相比之前的基于纯文本描述的方法质量更高。

  4. 实验结果 =========

  5. 自建基准测试 (包含45个测试任务)

  • 基础任务(Elementary Tasks):
  • 表现最好的Ferret-UI 2 (Llama3-8B版本)在Referring达到80.28分(Vicuna-13B版最高,81.34),在Grounding达到82.79分
  • 显著超越原版Ferret-UI (分别是64.15和57.22分)
  • 高级任务(Advanced Tasks,综合描述、多轮感知和交互问答):
  • GPT-4o评分: Ferret-UI 2 (Llama3-8B)达到89.73分,超越原版Ferret-UI近44分
  • Multi-IoU指标: Ferret-UI 2 (Vicuna-13B)达到41.71,表现最佳
  1. GUIDE基准测试
  • 评估模型在网页界面上的下一步动作预测能力
  • Ferret-UI 2表现:
  • BertScore: 91.37 (Llama3-8B版本)
  • IoU: 55.78 (Llama3-8B版本)
  • 显著超越原版Ferret-UI (BertScore: 41.15, IoU: 26.91)
  1. GUI-World基准测试
  • 评估模型在iOS、Android和网页三个平台的零样本性能
  • Ferret-UI 2平均得分2.948,具体表现:
  • iOS: 2.881
  • Android: 2.954
  • 网页: 3.013
  • 超越了多个基线模型,包括:
  • GUI-Vid (2.767)
  • QWen-VL-MAX (2.580)
  • 原版Ferret-UI (2.638)
  • 但略低于:
  • Gemini-Pro 1.5 (3.295)
  • GPT-4o (3.619)

总体来看,Ferret-UI 2在所有测试基准上都取得了显著的进步,特别是在基础任务和高级任务上的表现大幅超越了原版模型。虽然在GUI-World基准上略逊于最新的Gemini-Pro 1.5和GPT-4o,但仍然优于其他多个基线模型。

  1. 总结 =======

总的来说,Ferret-UI 2通过多平台支持、高分辨率感知和高质量训练数据生成等创新,显著提升了通用UI理解的性能,在多种基准测试中取得了优异的成绩。未来可以考虑进一步扩大训练数据覆盖,尤其是针对iPad和AppleTV等平台,并继续探索构建真正通用的UI导航agent。

  1. 实战 =======

以下分别用中文截图和英文截图分别测试。

英文截图:

picture.image

中文截图:

picture.image

picture.image

可以看出,英文效果不错,但是确实不支持中文场景,再次差评3连。

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论