2025年5月23日凌晨,美国大模型独角兽Anthropic在其首届开发者大会上正式发布了下一代Claude模型:Claude Opus 4和Claude Sonnet 4。这是自2024年6月以来Claude的首次重大版本更新。
Anthropic联合创始人Amodei表示,Opus模型是公司旗下的高端产品,而Sonnet则是过去一年用户广泛使用的中端模型。尽管Claude Opus 4在基准测试中的表现未明显优于Claude Sonnet 4,甚至在某些测试中略逊一筹,但Amodei强调,对于像Claude Opus 4这样的大型模型,基准测试并不能全面反映其实际能力。
在Anthropic内部预览中,Claude Opus 4展现了惊人的生产力,能够独立完成通常需要人类6至7小时的任务,连公司内部资深工程师都对其表现感到震惊。Claude Sonnet 4在多项编程基准测试中的表现与Claude Opus 4相当,但更为精简,专注于编程等特定任务。此外,Claude Sonnet 4还解决了Claude Sonnet 3.7在实际应用中出现的问题,如过度热情和奖励机制问题。Amodei承诺,Anthropic将继续改进Claude系列模型,并提高更新频率。
Anthropic宣称Claude Opus 4为“全球顶尖编程模型”,在长时间复杂任务和智能体工作流中表现出色。Claude Sonnet 4作为Claude Sonnet 3.7的重大升级,以编程和推理能力为核心,同时能更精准地响应用户提示。这两款模型均为混合模型,提供即时回复和扩展思考两种模式。在权威编程基准测试SWE-bench Verified上,开启扩展思考的Claude Opus 4与Claude Sonnet 4分别取得了79.4%和80.2%的高分,超越了多个知名模型。
在编程、工具使用、视觉推理和数学等领域的基准测试中,Claude 4系列超越了OpenAI o3。在多语言问答和高级推理任务上,Claude Opus 4与OpenAI o3得分相当。新模型的智能体能力显著提升,最高可独立运行7小时,并推出了文件API和提示词缓存等新功能。
Pro、Max、Team和Enterprise Claude订阅用户可使用Claude Opus 4和Claude Sonnet 4及其扩展思考模式,而Sonnet 4对免费用户开放。这两款模型可通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI调用,定价与之前的Opus和Sonnet模型一致:Claude Opus 4为每百万个token 15美元/75美元(输入/输出),Claude Sonnet 4为3美元/15美元。
Anthropic同期推出了AI编程助手Claude Code,该工具集成了Claude Opus 4模型,能够实时映射和解释大规模代码库。Claude Code与GitHub、GitLab、VS Code、JetBrains IDE和命令行工具集成,可直接嵌入开发终端。Claude Code提供按量计费、每月100美元和每月200美元三种订阅方案。
技术革新方面,Claude 4系列在编程和推理能力上取得重大突破。Claude Opus 4在SWE-bench编程基准测试中得分72.5%,在Terminal-bench测试中完成率43.2%,创下新纪录。在Rakuten的开源项目重构任务中,Opus 4连续稳定运行7小时23分钟,完成317次代码修改,正确率高达89%。Claude 4系列首次引入“动态推理循环”机制,简单问题即时响应,复杂任务支持64K token的连续思考过程。
Anthropic首席产品官、Instagram联合创始人Mike Krieger分享了Claude 4系列的更多细节。Claude Opus 4在理解代码库和规划内容方面表现出色,适用于迁移、代码重构和复杂智能体工作流。Claude Sonnet 4则在日常编码任务、应用程序开发和配对编程中表现出色,是“全天候”编码伙伴。Claude 4系列模型升级了关键功能,能够并行处理多种工具,并在会话间保持记忆。
Krieger还提出了Anthropic认为的理想智能体三大核心能力:情境智能、长期执行和深度协作。为实现这些能力,Anthropic推出了多项新功能。Claude现在可以通过Anthropic API的新代码执行工具运行代码,而不仅仅是编写代码。Claude 4系列模型的自主性提升,最高可独立运行7小时。新模型通过管理待办事项列表保持记忆,并引入了架构安全检查点和控制措施,确保生产环境中的可靠性。
Anthropic还推出了多项新功能,包括MCP协议链接、网络搜索、文件API和升级的提示缓存功能。Claude模型使用快捷方式或漏洞完成任务的行为减少了65%。Claude 4模型还推出了思维链总结功能,使用较小模型浓缩冗长的思维过程。
Claude Opus 4被譽为全球顶尖的编码模型,专为复杂、长时间任务设计。其优势包括卓越的编码能力、稳定的长期任务能力、深度推理与工具集成以及增强的内存能力。Claude Sonnet 4则是Sonnet 3.7的重大升级,具备高效的编码能力、平衡的性能与实用性、强大的推理能力和AI代理能力。
在实际应用场景中,Claude 4系列表现出色。开发者分享了Claude 4在实际编程中的卓越表现,如快速完成CRM仪表盘开发、通关游戏和生成3D空间作品。Claude 4在记忆系统和长期任务能力方面也实现了突破,可自动生成“记忆文件”,实现跨会话信息继承。
Claude Code在IDE深度集成方面取得进展,支持VS Code和JetBrains全家桶。开发者可在编辑器中实时查看Claude Code建议的代码改动。Claude Code还实现了与云平台的无缝衔接,通过GitHub Actions集成实现PR自动审查。Claude Code SDK的发布让开发者能够将Claude Code融入自己的应用和工作流。
Anthropic强调了AI安全的重要性。Claude Opus 4和Claude Sonnet 4在部署前经过了严格的安全评估,分别在ASL-3和ASL-2标准下运行。Claude 4系列模型在“奖励作弊”方面的可能性比Claude Sonnet 3.7降低了65%。
Claude 4系列的发布为AI编程和智能体应用带来了新的机遇和挑战。随着其广泛应用,软件开发效率将显著提升,开发者需学习与AI智能体协作。长远来看,Claude 4可能预示着编程方式的重大变革,降低定制化软件的成本,重塑开发者、企业和初创公司的角色。Amodei认为,未来一年将见证编程领域的革命,进入“智能体舰队”时代。