重磅消息:Claude 3.5 系列模型大更新及革命性增加计算机使用能力

Anthropic 公司今日震撼发布了两款全新 AI 模型:Claude 3.5 Sonnet 和Claude 3.5 Haiku,同时推出了具有里程碑意义的计算机使用能力(beta 版)。这一系列创新不仅展示了 AI 技术的飞速进步,更预示着人机交互方式的重大变革。

picture.image

Claude 3.5 Sonnet 作为升级版模型,在多个领域展现出显著的性能提升。特别是在编码能力方面,它在 SWE-bench Verified 基准测试中的表现从 33.4%跃升至 49.0%,远超其他公开可用模型,包括 OpenAI 的o1-preview 和专门设计用于代码生成的系统。 GitLab 在测试中发现,新模型在 DevSecOps 任务中的推理能力提升了 10%,且无额外延迟,使其成为驱动多步软件开发过程的理想选择。

picture.image

作为 Anthropic 最快模型的下一代产品,Claude 3.5 Haiku 在保持原有成本和速度的基础上,全面提升了各项技能。它在 SWE-bench Verified 测试中得分 40.6%,超越了许多使用公开可用顶尖模型的代理,包括原版 Claude 3.5 Sonnet 和GPT-4o 。凭借低延迟、更准确的指令遵循能力和更精确的工具使用,Claude 3.5 Haiku 特别适合面向用户的产品、专门的子代理任务,以及从海量数据中生成个性化体验。

然而,最引人注目的是 Anthropic 此次推出的计算机使用能力(beta 版)。这项突破性技术允许开发者指导 Claude 像人类一样操作电脑,包括查看屏幕、移动光标、点击按钮和输入文本。为实现这一通用技能,Anthropic 开发了一个创新的 API,使 Claude 能够感知和交互计算机界面。开发者可以利用这一 API,将指令转换为一系列计算机命令,从而实现复杂任务的自动化。在 OSWorld 评估中,Claude 3.5 Sonnet 在仅查看截图的情况下得分 14.9%,明显优于下一个最佳 AI 系统的 7.8%。当允许更多步骤完成任务时,Claude 的得分提高到 22.0%。这些数据充分展示了新模型在模拟人类计算机操作方面的卓越能力。

多家合作伙伴已开始探索这项新技术的可能性。例如,Replit 正在利用 Claude 3.5 Sonnet 的计算机使用能力和 UI 导航功能,为其 Replit Agent 产品开发关键功能,用于评估正在构建的应用程序。 The Browser Company 在使用该模型自动化网络工作流程时发现,Claude 3.5 Sonnet 的表现超越了他们之前测试过的所有模型。这些早期反馈表明,新一代 Claude 模型在 AI 驱动的编码和自动化任务方面代表了一个重大飞跃。

picture.image

尽管这项技术充满前景,Anthropic 也认识到它可能带来的风险。为此,公司开发了新的分类器,可以识别计算机使用能力的应用场景并评估潜在危害。同时,Anthropic 还与美国 AI 安全研究所(US AISI)和英国安全研究所(UK AISI)合作,对新模型进行了部署前测试,以确保其安全性和可靠性。

随着这项技术的进一步发展和完善,我们可以期待看到更多创新应用的出现。 AI 操作电脑的能力无疑将为各行各业带来革命性的变化,从提高工作效率到创造全新的服务模式。这一突破性进展标志着人工智能向着更加智能、更加实用的方向迈出了重要一步,为未来人机协作开辟了广阔的可能性。

来自:https://www.anthropic.com/news/3-5-models-and-computer-use

0
0
0
0
评论
未登录
暂无评论