ComputerUse再来重磅玩家，字节跳动开源纯视觉驱动GUI 智能体模型 UI-TARS，桌面浏览器全支持

字节跳动也加入了ComputerUse大战，近日开源了一款重量级 GUI 智能代理模型 UI-TARS，这是一款专为图形界面自动化交互设计的原生Agent模型。该模型能像人类一样通过观察屏幕进行操作，具备出色的感知、推理和交互能力。

picture.image

UI-TARS 的核心优势在于其强大的感知、推理和交互能力，能够有效解决传统 GUI 自动化工具在复杂场景下的局限性。区别于以往需要预定义工作流或手动规则的方法，UI-TARS 采用纯视觉驱动的端到端架构，仅通过观察屏幕即可执行任务。

这款模型具备极强的跨平台支持能力，无论是桌面应用、移动端App还是网页，都能流畅运行。同时，UI-TARS 创新地结合了双重推理系统，既能快速做出直觉反应，也能进行深度思考，确保任务执行的高效性和准确性。此外，UI-TARS 还具备持续学习能力，可以通过反馈不断优化自身，提升任务执行效果。

在技术实现上，UI-TARS 采用创新的三阶段学习方法：首先通过大量界面数据训练基础理解能力，再学习具体操作方式，最后通过不断试错提升性能。这种方法使其在复杂任务处理上展现出优秀表现。

在实际评测中，UI-TARS 展现出强大实力：

有业内资深专家评价："UI-TARS 的纯视觉驱动方式和端到端架构，为 GUI 自动化带来了全新思路。这种方法不仅简化了开发流程，还大大提升了模型在复杂场景下的适应能力。"

目前，字节跳动已在 GitHub 上开源了 UI-TARS 的完整代码，并提供了包括 2B 、7B 和 72B 在内的多个版本供开发者选择，同时提供桌面版本和浏览器版本供试用体验。

浏览器（来自小互翻译）

桌面版

后台回复“进群”入群讨论。

ComputerUse再来重磅玩家，字节跳动开源 纯视觉驱动GUI 智能体模型 UI-TARS，桌面浏览器全支持