Anthropic 放大招：Claude 4 来了！Opus 4 全球最强编码模型，Cursor/Replit 狂赞！ - 文章 - 开发者社区

🍹 Insight Daily 🪺

Aitrainee | 公众号：AI进修生

Hi，这里是Aitrainee，欢迎阅读本期新文章。

AI 圈又迎来重磅发布，

没有任何铺垫或炒作，Anthropic 正式推出了下一代 Claude 模型：

Claude Opus 4 和 Claude Sonnet 4 。

这俩货在编码、高级推理和 AI Agent (智能体) 方面，都立下了新标杆。

Claude Opus 4 ：直接被冠以“全球最佳编码模型”的称号，能搞定复杂、耗时长的任务和 Agent 工作流，性能持久稳定。

picture.image

Claude Sonnet 4 ：比之前的 Sonnet 3.7 有了大幅升级，编码和推理能力更强，对指令的理解也更精准。而且对它执行修改的“积极程度”也有了更好的控制。

picture.image

除了模型本身，这次还带了几个新东西：

工具使用 + 深度思考 (测试版) ：俩模型都能在深度思考时用上工具 (比如网页搜索)，让 Claude 能在“思考”和“用工具”之间来回切换，输出更好的结果。
模型新能力 ：俩模型都能并行使用工具，更听话 (指令遵循能力增强)，而且如果开发者给它们访问本地文件的权限，记忆力会大幅提升，能提取和保存关键信息，保持对话连贯性，慢慢积累“隐性知识”。
Claude Code 正式上线 ：之前内测反响不错，现在全面开放。开发者能用 Claude Code 通过 GitHub Actions 跑后台任务，还能原生集成到 VS Code 和 JetBrains IDE 里，修改直接显示在文件里，结对编程体验更顺滑。
API 新功能 ：Anthropic API 也放了四个新大招，帮开发者构建更强的 AI Agent：代码执行工具、MCP 连接器、文件 API、以及提示词缓存一小时的功能。

Claude Opus 4 和 Sonnet 4 都是混合模型，提供两种模式： 近乎即时响应 和 深度思考 (用于更复杂的推理)。这两种模型还可以在推理和工具使用（如 Web 搜索）之间交替，以改善响应。

picture.image

Pro、Max、Team 和 Enterprise 版的 Claude 套餐都包含了这俩模型和深度思考功能，Sonnet 4 免费用户也能用。

这俩模型现在都能在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上找到。价格跟以前的 Opus 和 Sonnet 模型保持一致：Opus 4 每百万 token 输入/输出分别是 15/75 美元，Sonnet 4 是 3/15 美元。

Claude 4 到底有多猛？

Claude Opus 4 ：Anthropic 目前最强的模型，也是全球最好的编码模型。在 SWE-bench (72.5%) 和 Terminal-bench (43.2%) 这俩硬核编码基准上都排第一。能持续处理需要高度专注、跑好几千步、连续工作好几个小时的长任务，性能远超所有 Sonnet 模型，大大扩展了 AI Agent 的能力边界。

picture.image ▲ Claude 4 模型在 SWE-bench Verified 上领先，SWE-bench Verified 是实际软件工程任务性能的基准。

Claude 4 直接干碎 OpenAI Codex-1，刚出来没多久就。。

72.5% 的 Swe-Bench 实在是太疯狂了。

Opus 4 特别擅长编码和解决复杂问题，很多前沿的 Agent 产品都在用它。

Cursor 说它是编码领域的 SOTA (最先进水平)，在理解复杂代码库方面是个飞跃。
Replit 反馈说它精度更高，在跨多个文件的复杂修改上进步巨大。
Block 表示，这是第一个能在其 Agent (代号 goose) 编辑和调试代码时提升代码质量，同时保持完整性能和可靠性的模型。
Rakuten (乐天) 用一个要求很高的开源重构项目验证了它的能力，独立运行 7 小时，性能稳定。
Cognition 指出，Opus 4 能解决其他模型搞不定的复杂挑战，成功处理了以前模型会错过的关键操作。

Claude Sonnet 4 ：是其前身的重大升级，在 Sonnet 3.7 行业领先的基础上又有了显著提升，编码能力也很强，在 SWE-bench 上也达到了 SOTA 水平 (72.7%)。

这模型在性能和效率之间取得了很好的平衡，适合内外各种场景，可控性也增强了，能更好地控制实现细节。虽然在大多数领域比不上 Opus 4，但它在能力和实用性之间做到了最佳结合。

GitHub 表示，Claude Sonnet 4 在 Agent 场景下表现出色，会把它作为 GitHub Copilot 新编码 Agent 的基础模型。
Manus 强调了它在遵循复杂指令、清晰推理和输出美观方面的进步。
iGent 反馈说，Sonnet 4 特别擅长自主开发多功能应用，解决问题和代码库导航能力也大幅提升，导航错误率从 20% 降到了几乎为零。
Sourcegraph 认为，这模型在软件开发领域有潜力实现重大飞跃——能更长时间保持专注，更深入地理解问题，并提供更优雅的代码。
Augment Code 反馈说，成功率更高，代码修改更精准，处理复杂任务时更细致，已经把它作为首选模型。

总的来说，这俩模型全面提升了客户的 AI 策略：Opus 4 在编码、研究、写作和科学发现方面不断突破极限，而 Sonnet 4 则把前沿性能带到了日常应用中，是 Sonnet 3.7 的直接升级版。

而且不光是编码牛逼，Claude 4 这俩模型还能通过深度集成，实现“持续专注”和“完整上下文”的流畅工作体验。

**Claude 4 模型在 SWE-bench Verified (真实软件工程任务基准) 上领先。

在编码、推理、多模态能力和 Agent 任务上表现强劲。**

picture.image

Claude 4 有自我保护意识：

picture.image

使用 Claude 4 Opus 将 AI 模型训练速度提高 >2 倍

picture.image

与 Claude 3.7 Sonnet 相比，Claude 4 在编写 AI R&D 内核方面要好得多。

picture.image

Claude 4 Opus 是唯一一个解决这个被误导的注意力问题的非推理模型

picture.image

claude4 关于如何计算草莓中的 R 的有趣结果

picture.image

模型改进细节

除了工具使用、并行工具执行和记忆力提升，Anthropic 还大幅减少了模型在完成任务时“走捷径”或“钻空子”的行为。在那些特别容易让模型耍小聪明的 Agent 任务上，这俩模型出现这种行为的概率比 Sonnet 3.7 低了 65%。

Claude Opus 4 的记忆力也远超以前所有模型。如果开发者构建的应用允许 Claude 访问本地文件，Opus 4 就能熟练地创建和维护“记忆文件”来存储关键信息。这让它在长时任务中能更好地保持专注、连贯性和性能——比如 Opus 4 在玩《精灵宝可梦》时自己创建了个“导航指南”。

picture.image ▲ 内存：当获得对本地文件的访问权限时，Claude Opus 4 会记录关键信息以帮助改进其游戏玩法。上面描述的笔记是 Opus 4 在玩 Pokémon 时记下的真实笔记。

记忆力展示：当允许访问本地文件时，Claude Opus 4 会记录关键信息来帮助提升游戏表现。上图是 Opus 4 在玩《精灵宝可梦》时自己做的真实笔记。

最后，Anthropic 还给 Claude 4 模型引入了“思考总结”功能，用一个小模型来浓缩冗长的思考过程。不过这功能大概只有 5% 的时间会用到，因为大部分思考过程都足够短，可以直接完整显示。如果用户需要原始的思考链条来进行高级提示词工程，可以联系销售了解新的“开发者模式”。

Claude Code

Claude Code 现在正式上线了，把 Claude 的能力带到了更多开发工作流中——终端、你喜欢的 IDE、以及用 Claude Code SDK 在后台运行。

新的 VS Code 和 JetBrains 测试版插件，能把 Claude Code 直接集成到你的 IDE 里。Claude 建议的修改会以内联方式显示在文件里，在熟悉的编辑器界面就能方便地审查和追踪。在 IDE 终端里运行 Claude Code 就能安装。

除了 IDE，Anthropic 还发布了一个可扩展的 Claude Code SDK，让你可以用和 Claude Code 一样的核心 Agent 来构建自己的 Agent 和应用。他们还放了个用 SDK 能做出啥的例子：Claude Code on GitHub (测试版)。在 PR 里标记 Claude Code，就能让它回应审查反馈、修复 CI 错误或修改代码。在 Claude Code 里运行 /install-github-app 就能安装。

开始使用

这些模型向着“虚拟协作者”迈出了一大步——能保持完整上下文、在更长项目上保持专注，并带来变革性的影响。它们都经过了广泛的测试和评估，以最大限度地降低风险、提高安全性，包括实施了像 ASL-3 这样的更高级别 AI 安全措施。

Anthropic 表示，很期待看到大家能用这些模型创造出什么。现在就可以在 Claude、Claude Code 或者你选择的平台上开始体验了。—— 如Cursor：

picture.image

🌟 知音难求，自我修 炼亦艰，抓住前沿技术的机遇，与我们一起成为创新的超级个体（把握AIGC时代的个人力量）。

参考链接：
[1] https://www.anthropic.com/news/claude-4

点这里👇关注我，记得标星哦～