“computer use”赛道战火将起,哪个模型最强,这个评估平台可以了解一下

操作系统关系型数据库数据安全

随着 anthropics 最新模型的发布,在“computer use” 领域的产品一下子变得多了起来,那如果想要上手体验,哪个最方便使用且能代表当前最佳体验呢 ,笔者推荐 open-interpreter,它可以说是这一领域的探路者,笔者也曾多次介绍过这一工具(Open Interpreter迎来更新,更炫能力上线!),当前 star 量也高达 54k,随着这一赛道被大众所关注,它也将会是最为受益的项目之一。

未来将会有更多模型进入这一领域,那么将如何判断哪种模型更适合在 “computer use”场景使用呢?

这里介绍一个专门用于评估这一领域表现的工具——OSWorld(https://os-world.github.io/)。

OSWorld 是论文“OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments”提出的,它是一个专为多模态代理设计的真实计算机环境,支持在多种操作系统(如 Ubuntu 、Windows 和macOS)上进行开放任务的评估。其核心目的是提供一个可复现、可扩展的平台,以全面测试多模态代理在真实世界任务中的表现。

picture.image

它涵盖了 369 个真实世界计算机任务,每个任务都配有详细的初始状态设置和自定义评估脚本,其中最新的claude模型也在它的榜单之中,不出意外拔得头筹,比第二名openAI优势明显。

picture.image

picture.image

参考资料

[1] 示例: https://github.com/anthropics/anthropic-quickstarts/tree/main/computer-use-demo

后台回复“进群”入群讨论。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论