字节开源 UI-TARS 模型! 2B & 7B & 72B 3个尺寸的模型。
- Arxiv: https:// arxiv.org/abs/2501.12326
- GitHub: https:// github.com/bytedance/UI-TARS
一次性开源了3个SOTA模型(2B、7B和72B),加一个PC/MacOS应用程序,用于用vLMS控制你的电脑。在 10 个基准测试中击败了 GPT-4o 和 Claude、SOTA。
功能
- 由VLM驱动的自然语言控制
- 屏幕截图和视觉识别支持
- 精准鼠标和键盘控制
- 跨平台支持(Windows/MacOS)
- 实时反馈和状态显示
支持PC和移动端
最后提供了,中文部署教程:https://bytedance.sg.larkoffice.com/docx/TCcudYwyIox5vyxiSDLlgIsTgWf#U94rdCxzBoJMLex38NPlHL21gNb