ComputerUse再来重磅玩家,字节跳动开源 纯视觉驱动GUI 智能体模型 UI-TARS,桌面浏览器全支持

大模型向量数据库机器学习

Eko:电脑、浏览器都能操作的前端Agent框架,自然语言就能操控

OpenAI 发布 Operator 智能体,“hybrid Internet”升级拉开帷幕

字节跳动也加入了ComputerUse大战,近日开源了一款重量级 GUI 智能代理模型 UI-TARS,这是一款专为图形界面自动化交互设计的原生Agent模型。该模型能像人类一样通过观察屏幕进行操作,具备出色的感知、推理和交互能力。

picture.image

UI-TARS 的核心优势在于其强大的感知、推理和交互能力,能够有效解决传统 GUI 自动化工具在复杂场景下的局限性。区别于以往需要预定义工作流或手动规则的方法,UI-TARS 采用纯视觉驱动的端到端架构,仅通过观察屏幕即可执行任务。

这款模型具备极强的跨平台支持能力,无论是桌面应用、移动端App还是网页,都能流畅运行。同时,UI-TARS 创新地结合了双重推理系统,既能快速做出直觉反应,也能进行深度思考,确保任务执行的高效性和准确性。此外,UI-TARS 还具备持续学习能力,可以通过反馈不断优化自身,提升任务执行效果。

在技术实现上,UI-TARS 采用创新的三阶段学习方法:首先通过大量界面数据训练基础理解能力,再学习具体操作方式,最后通过不断试错提升性能。这种方法使其在复杂任务处理上展现出优秀表现。

在实际评测中,UI-TARS 展现出强大实力:

  • 在 ScreenSpot 测试中,7B 版本达到 89.5% 的平均准确率
  • 在 AndroidControl 测试中,72B 版本实现 74.7% 的任务成功率
  • 在在线测试场景中,DPO 优化版本取得 24.6% 的完成率

有业内资深专家评价:"UI-TARS 的纯视觉驱动方式和端到端架构,为 GUI 自动化带来了全新思路。这种方法不仅简化了开发流程,还大大提升了模型在复杂场景下的适应能力。"

目前,字节跳动已在 GitHub 上开源了 UI-TARS 的完整代码,并提供了包括 2B 、7B 和 72B 在内的多个版本供开发者选择,同时提供桌面版本和浏览器版本供试用体验。

浏览器(来自小互翻译)

桌面版

论文:https://github.com/bytedance/UI-TARS

桌面版:https://github.com/bytedance/UI-TARS-desktop

浏览器版:https://github.com/web-infra-dev/midscene

后台回复“进群”入群讨论。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论