“computer use”赛道战火将起，哪个模型最强，这个评估平台可以了解一下 - 文章 - 开发者社区

随着 anthropics 最新模型的发布，在“computer use” 领域的产品一下子变得多了起来，那如果想要上手体验，哪个最方便使用且能代表当前最佳体验呢，笔者推荐 open-interpreter，它可以说是这一领域的探路者，笔者也曾多次介绍过这一工具（Open Interpreter迎来更新，更炫能力上线！），当前 star 量也高达 54k，随着这一赛道被大众所关注，它也将会是最为受益的项目之一。

未来将会有更多模型进入这一领域，那么将如何判断哪种模型更适合在 “computer use”场景使用呢？

这里介绍一个专门用于评估这一领域表现的工具——OSWorld（https://os-world.github.io/）。

OSWorld 是论文“OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments”提出的，它是一个专为多模态代理设计的真实计算机环境，支持在多种操作系统（如 Ubuntu 、Windows 和macOS）上进行开放任务的评估。其核心目的是提供一个可复现、可扩展的平台，以全面测试多模态代理在真实世界任务中的表现。

picture.image

它涵盖了 369 个真实世界计算机任务，每个任务都配有详细的初始状态设置和自定义评估脚本，其中最新的claude模型也在它的榜单之中，不出意外拔得头筹，比第二名openAI优势明显。

picture.image

参考资料

[1] 示例: https://github.com/anthropics/anthropic-quickstarts/tree/main/computer-use-demo

后台回复“进群”入群讨论。