LLM（十八）| Anthropic发布史上最强编程模型：Claude 4 - 文章 - 开发者社区

  2025年5月23日凌晨，美国大模型独角兽Anthropic在其首届开发者大会上正式发布了下一代Claude模型：Claude Opus 4和Claude Sonnet 4。这是自2024年6月以来Claude的首次重大版本更新。


 Anthropic联合创始人Amodei表示，Opus模型是公司旗下的高端产品，而Sonnet则是过去一年用户广泛使用的中端模型。尽管Claude Opus 4在基准测试中的表现未明显优于Claude Sonnet 4，甚至在某些测试中略逊一筹，但Amodei强调，对于像Claude Opus 4这样的大型模型，基准测试并不能全面反映其实际能力。


 在Anthropic内部预览中，Claude Opus 4展现了惊人的生产力，能够独立完成通常需要人类6至7小时的任务，连公司内部资深工程师都对其表现感到震惊。Claude Sonnet 4在多项编程基准测试中的表现与Claude Opus 4相当，但更为精简，专注于编程等特定任务。此外，Claude Sonnet 4还解决了Claude Sonnet 3.7在实际应用中出现的问题，如过度热情和奖励机制问题。Amodei承诺，Anthropic将继续改进Claude系列模型，并提高更新频率。


 Anthropic宣称Claude Opus 4为“全球顶尖编程模型”，在长时间复杂任务和智能体工作流中表现出色。Claude Sonnet 4作为Claude Sonnet 3.7的重大升级，以编程和推理能力为核心，同时能更精准地响应用户提示。这两款模型均为混合模型，提供即时回复和扩展思考两种模式。在权威编程基准测试SWE-bench Verified上，开启扩展思考的Claude Opus 4与Claude Sonnet 4分别取得了79.4%和80.2%的高分，超越了多个知名模型。

picture.image

 在编程、工具使用、视觉推理和数学等领域的基准测试中，Claude 4系列超越了OpenAI o3。在多语言问答和高级推理任务上，Claude Opus 4与OpenAI o3得分相当。新模型的智能体能力显著提升，最高可独立运行7小时，并推出了文件API和提示词缓存等新功能。

picture.image

  Pro、Max、Team和Enterprise Claude订阅用户可使用Claude Opus 4和Claude Sonnet 4及其扩展思考模式，而Sonnet 4对免费用户开放。这两款模型可通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI调用，定价与之前的Opus和Sonnet模型一致：Claude Opus 4为每百万个token 15美元/75美元（输入/输出），Claude Sonnet 4为3美元/15美元。

picture.image

  Anthropic同期推出了AI编程助手Claude Code，该工具集成了Claude Opus 4模型，能够实时映射和解释大规模代码库。Claude Code与GitHub、GitLab、VS Code、JetBrains IDE和命令行工具集成，可直接嵌入开发终端。Claude Code提供按量计费、每月100美元和每月200美元三种订阅方案。

picture.image

  技术革新方面，Claude 4系列在编程和推理能力上取得重大突破。Claude Opus 4在SWE-bench编程基准测试中得分72.5%，在Terminal-bench测试中完成率43.2%，创下新纪录。在Rakuten的开源项目重构任务中，Opus 4连续稳定运行7小时23分钟，完成317次代码修改，正确率高达89%。Claude 4系列首次引入“动态推理循环”机制，简单问题即时响应，复杂任务支持64K token的连续思考过程。


 Anthropic首席产品官、Instagram联合创始人Mike Krieger分享了Claude 4系列的更多细节。Claude Opus 4在理解代码库和规划内容方面表现出色，适用于迁移、代码重构和复杂智能体工作流。Claude Sonnet 4则在日常编码任务、应用程序开发和配对编程中表现出色，是“全天候”编码伙伴。Claude 4系列模型升级了关键功能，能够并行处理多种工具，并在会话间保持记忆。


  Krieger还提出了Anthropic认为的理想智能体三大核心能力：情境智能、长期执行和深度协作。为实现这些能力，Anthropic推出了多项新功能。Claude现在可以通过Anthropic API的新代码执行工具运行代码，而不仅仅是编写代码。Claude 4系列模型的自主性提升，最高可独立运行7小时。新模型通过管理待办事项列表保持记忆，并引入了架构安全检查点和控制措施，确保生产环境中的可靠性。


  Anthropic还推出了多项新功能，包括MCP协议链接、网络搜索、文件API和升级的提示缓存功能。Claude模型使用快捷方式或漏洞完成任务的行为减少了65%。Claude 4模型还推出了思维链总结功能，使用较小模型浓缩冗长的思维过程。


  Claude Opus 4被譽为全球顶尖的编码模型，专为复杂、长时间任务设计。其优势包括卓越的编码能力、稳定的长期任务能力、深度推理与工具集成以及增强的内存能力。Claude Sonnet 4则是Sonnet 3.7的重大升级，具备高效的编码能力、平衡的性能与实用性、强大的推理能力和AI代理能力。


 在实际应用场景中，Claude 4系列表现出色。开发者分享了Claude 4在实际编程中的卓越表现，如快速完成CRM仪表盘开发、通关游戏和生成3D空间作品。Claude 4在记忆系统和长期任务能力方面也实现了突破，可自动生成“记忆文件”，实现跨会话信息继承。


Claude Code在IDE深度集成方面取得进展，支持VS Code和JetBrains全家桶。开发者可在编辑器中实时查看Claude Code建议的代码改动。Claude Code还实现了与云平台的无缝衔接，通过GitHub Actions集成实现PR自动审查。Claude Code SDK的发布让开发者能够将Claude Code融入自己的应用和工作流。

picture.image

  Anthropic强调了AI安全的重要性。Claude Opus 4和Claude Sonnet 4在部署前经过了严格的安全评估，分别在ASL-3和ASL-2标准下运行。Claude 4系列模型在“奖励作弊”方面的可能性比Claude Sonnet 3.7降低了65%。

Claude 4系列的发布为AI编程和智能体应用带来了新的机遇和挑战。随着其广泛应用，软件开发效率将显著提升，开发者需学习与AI智能体协作。长远来看，Claude 4可能预示着编程方式的重大变革，降低定制化软件的成本，重塑开发者、企业和初创公司的角色。Amodei认为，未来一年将见证编程领域的革命，进入“智能体舰队”时代。