重磅消息：Claude 3.5 系列模型大更新及革命性增加计算机使用能力 - 文章 - 开发者社区

Anthropic 公司今日震撼发布了两款全新 AI 模型：Claude 3.5 Sonnet 和Claude 3.5 Haiku，同时推出了具有里程碑意义的计算机使用能力（beta 版）。这一系列创新不仅展示了 AI 技术的飞速进步，更预示着人机交互方式的重大变革。

picture.image

Claude 3.5 Sonnet 作为升级版模型，在多个领域展现出显著的性能提升。特别是在编码能力方面，它在 SWE-bench Verified 基准测试中的表现从 33.4%跃升至 49.0%，远超其他公开可用模型，包括 OpenAI 的o1-preview 和专门设计用于代码生成的系统。 GitLab 在测试中发现，新模型在 DevSecOps 任务中的推理能力提升了 10%，且无额外延迟，使其成为驱动多步软件开发过程的理想选择。

picture.image

作为 Anthropic 最快模型的下一代产品，Claude 3.5 Haiku 在保持原有成本和速度的基础上，全面提升了各项技能。它在 SWE-bench Verified 测试中得分 40.6%，超越了许多使用公开可用顶尖模型的代理，包括原版 Claude 3.5 Sonnet 和GPT-4o 。凭借低延迟、更准确的指令遵循能力和更精确的工具使用，Claude 3.5 Haiku 特别适合面向用户的产品、专门的子代理任务，以及从海量数据中生成个性化体验。

然而，最引人注目的是 Anthropic 此次推出的计算机使用能力（beta 版）。这项突破性技术允许开发者指导 Claude 像人类一样操作电脑，包括查看屏幕、移动光标、点击按钮和输入文本。为实现这一通用技能，Anthropic 开发了一个创新的 API，使 Claude 能够感知和交互计算机界面。开发者可以利用这一 API，将指令转换为一系列计算机命令，从而实现复杂任务的自动化。在 OSWorld 评估中，Claude 3.5 Sonnet 在仅查看截图的情况下得分 14.9%，明显优于下一个最佳 AI 系统的 7.8%。当允许更多步骤完成任务时，Claude 的得分提高到 22.0%。这些数据充分展示了新模型在模拟人类计算机操作方面的卓越能力。

多家合作伙伴已开始探索这项新技术的可能性。例如，Replit 正在利用 Claude 3.5 Sonnet 的计算机使用能力和 UI 导航功能，为其 Replit Agent 产品开发关键功能，用于评估正在构建的应用程序。 The Browser Company 在使用该模型自动化网络工作流程时发现，Claude 3.5 Sonnet 的表现超越了他们之前测试过的所有模型。这些早期反馈表明，新一代 Claude 模型在 AI 驱动的编码和自动化任务方面代表了一个重大飞跃。

picture.image

尽管这项技术充满前景，Anthropic 也认识到它可能带来的风险。为此，公司开发了新的分类器，可以识别计算机使用能力的应用场景并评估潜在危害。同时，Anthropic 还与美国 AI 安全研究所（US AISI）和英国安全研究所（UK AISI）合作，对新模型进行了部署前测试，以确保其安全性和可靠性。

随着这项技术的进一步发展和完善，我们可以期待看到更多创新应用的出现。 AI 操作电脑的能力无疑将为各行各业带来革命性的变化，从提高工作效率到创造全新的服务模式。这一突破性进展标志着人工智能向着更加智能、更加实用的方向迈出了重要一步，为未来人机协作开辟了广阔的可能性。

来自：https://www.anthropic.com/news/3-5-models-and-computer-use