Anthropic 放大招:Claude 4 来了!Opus 4 全球最强编码模型,Cursor/Replit 狂赞!

大模型向量数据库云通信

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

AI 圈又迎来重磅发布,

没有任何铺垫或炒作,Anthropic 正式推出了下一代 Claude 模型:

Claude Opus 4Claude Sonnet 4

这俩货在编码、高级推理和 AI Agent (智能体) 方面,都立下了新标杆。

  • Claude Opus 4 :直接被冠以“全球最佳编码模型”的称号,能搞定复杂、耗时长的任务和 Agent 工作流,性能持 久稳定。

picture.image

  • Claude Sonnet 4 :比之前的 Sonnet 3.7 有了大幅升级,编码和推理能力更强,对指令的理解也更精准。而且对它执行修改的“积极程度”也有了更好的控制。

picture.image

picture.image

除了模型本身,这次还带了几个新东西:

  • 工具使用 + 深度思考 (测试版) :俩模型都能在深度思考时用上工具 (比如网页搜索),让 Claude 能在“思考”和“用工具”之间来回切换,输出更好的结果。
  • 模型新能力 :俩模型都能并行使用工具,更听话 (指令遵循能力增强),而且如果开发者给它们访问本地文件的权限,记忆力会大幅提升,能提取和保存关键信息,保持对话连贯性,慢慢积累“隐性知识”。
  • Claude Code 正式上线 :之前内测反响不错,现在全面开放。开发者能用 Claude Code 通过 GitHub Actions 跑后台任务,还能原生集成到 VS Code 和 JetBrains IDE 里,修改直接显示在文件里,结对编程体验更顺滑。
  • API 新功能 :Anthropic API 也放了四个新大招,帮开发者构建更强的 AI Agent:代码执行工具、MCP 连接器、文件 API、以及提示词缓存一小时的功能。

Claude Opus 4 和 Sonnet 4 都是混合模型,提供两种模式: 近乎即时响应深度思考 (用于 更复杂的推理)。 这两种模型还可以在推理和工具使用(如 Web 搜索)之间交替,以改善响应。

picture.image

Pro、Max、Team 和 Enterprise 版的 Claude 套餐都包含了这俩模型和深度思考功能,Sonnet 4 免费用户也能用。

这俩模型现在都能在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上找到。价格跟以前的 Opus 和 Sonnet 模型保持一致:Opus 4 每百万 token 输入/输出分别是 15/75 美元,Sonnet 4 是 3/15 美元。

Claude 4 到底有多猛?

Claude Opus 4 :Anthropic 目前最强的模型,也是全球最好的编码模型。在 SWE-bench (72.5%) 和 Terminal-bench (43.2%) 这俩硬核编码基准上都排第一。能持续处理需要高度专注、跑好几千步、连续工作好几个小时的长任务,性能远超所有 Sonnet 模型,大大扩展了 AI Agent 的能力边界。

picture.image ▲ Claude 4 模型在 SWE-bench Verified 上领先,SWE-bench Verified 是实际软件工程任务性能的基准。

Claude 4 直接干碎 OpenAI Codex-1,刚出来没多久就。。

72.5% 的 Swe-Bench 实在是太疯狂了。

Opus 4 特别擅长编码和解决复杂问题,很多前沿的 Agent 产品都在用它。

  • Cursor 说它是编码领域的 SOTA (最先进水平),在理解复杂代码库方面是个飞跃。
  • Replit 反馈说它精度更高,在跨多个文件的复杂修改上进步巨大。
  • Block 表示,这是第一个能在其 Agent (代号 goose) 编辑和调试代码时提升代码质量,同时保持完整性能和可靠性的模型。
  • Rakuten (乐天) 用一个要求很高的开源重构项目验证了它的能力,独立运行 7 小时,性能稳定。
  • Cognition 指出,Opus 4 能解决其他模型搞不定的复杂挑战,成功处理了以前模型会错过的关键操作。

Claude Sonnet 4 :是其前身的重大升级,在 Sonnet 3.7 行业领先的基础上又有了显著提升,编码能力也很强,在 SWE-bench 上也达到了 SOTA 水平 (72.7%)。

这模型在性能和效率之间取得了很好的平衡,适合内外各种场景,可控性也增强了,能更好地控制实现细节。虽然在大多数领域比不上 Opus 4,但它在能力和实用性之间做到了最佳结合。

  • GitHub 表示,Claude Sonnet 4 在 Agent 场景下表现出色,会把它作为 GitHub Copilot 新编码 Agent 的基础模型。
  • Manus 强调了它在遵循复杂指令、清晰推理和输出美观方面的进步。
  • iGent 反馈说,Sonnet 4 特别擅长自主开发多功能应用,解决问题和代码库导航能力也大幅提升,导航错误率从 20% 降到了几乎为零。
  • Sourcegraph 认为,这模型在软件开发领域有潜力实现重大飞跃——能更长时间保持专注,更深入地理解问题,并提供更优雅的代码。
  • Augment Code 反馈说,成功率更高,代码修改更精准,处理复杂任务时更细致,已经把它作为首选模型。

总的来说,这俩模型全面提升了客户的 AI 策略:Opus 4 在编码、研究、写作和科学发现方面不断突破极限,而 Sonnet 4 则把前沿性能带到了日常应用中,是 Sonnet 3.7 的直接升级版。

而且不光是编码牛逼,Claude 4 这俩模型还能通过深度集成,实现“持续专注”和“完整上下文”的流畅工作体验。

**Claude 4 模型在 SWE-bench Verified (真实软件工程任务基准) 上领先。

在编码、推理、多模态能力和 Agent 任务上表现强劲。**

picture.image

Claude 4 有自我保护意识:

picture.image

使用 Claude 4 Opus 将 AI 模型训练速度提高 >2 倍

picture.image

与 Claude 3.7 Sonnet 相比,Claude 4 在编写 AI R&D 内核方面要好得多。

picture.image

Claude 4 Opus 是唯一一个解决这个被误导的注意力问题的非推理模型

picture.image

claude4 关于如何计算草莓中的 R 的 有趣结果

picture.image

模型改进细节

除了工具使用、并行工具执行和记忆力提升,Anthropic 还大幅减少了模型在完成任务时“走捷径”或“钻空子”的行为。在那些特别容易让模型耍小聪明的 Agent 任务上,这俩模型出现这种行为的概率比 Sonnet 3.7 低了 65%。

Claude Opus 4 的记忆力也远超以前所有模型。如果开发者构建的应用允许 Claude 访问本地文件,Opus 4 就能熟练地创建和维护“记忆文件”来存储关键信息。这让它在长时任务中能更好地保持专注、连贯性和性能——比如 Opus 4 在玩《精灵宝可梦》时自己创建了个“导航指南”。

picture.image ▲ 内存:当获得对本地文件的访问权限时,Claude Opus 4 会记录关键信息以帮助改进其游戏玩法。上面描述的笔记是 Opus 4 在玩 Pokémon 时记下的真实笔记。

记忆力展示:当允许访问本地文件时,Claude Opus 4 会记录关键信息来帮助提升游戏表现。上图是 Opus 4 在玩《精灵宝可梦》时自己做的真实笔记。

最后,Anthropic 还给 Claude 4 模型引入了“思考总结”功能,用一个小模型来浓缩冗长的思考过程。不过这功能大概只有 5% 的时间会用到,因为大部分思考过程都足够短,可以直接完整显示。如果用户需要原始的思考链条来进行高级提示词工程,可以联系销售了解新的“开发者模式”。

Claude Code

Claude Code 现在正式上线了,把 Claude 的能力带到了更多开发工作流中——终端、你喜欢的 IDE、以及用 Claude Code SDK 在后台运行。

新的 VS Code 和 JetBrains 测试版插件,能把 Claude Code 直接集成到你的 IDE 里。Claude 建议的修改会以内联方式显示在文件里,在熟悉的编辑器界面就能方便地审查和追踪。在 IDE 终端里运行 Claude Code 就能安装。

除了 IDE,Anthropic 还发布了一个可扩展的 Claude Code SDK,让你可以用和 Claude Code 一样的核心 Agent 来构建自己的 Agent 和应用。他们还放了个用 SDK 能做出啥的例子:Claude Code on GitHub (测试版)。在 PR 里标记 Claude Code,就能让它回应审查反馈、修复 CI 错误或修改代码。在 Claude Code 里运行 /install-github-app 就能安装。

开始使用

这些模型向着“虚拟协作者”迈出了一大步——能保持完整上下文、在更长项目上保持专注,并带来变革性的影响。它们都经过了广泛的测试和评估,以最大限度地降低风险、提高安全性,包括实施了像 ASL-3 这样的更高级别 AI 安全措施。

Anthropic 表示,很期待看到大家能用这些模型创造出什么。现在就可以在 Claude、Claude Code 或者你选择的平台上开始体验了。—— 如Cursor:

picture.image

🌟 知音难求,自我修 炼亦艰,抓住前沿技术的机遇,与我们一起成为创新的超级个体(把握AIGC时代的个人力量)。

参考链接:
[1] https://www.anthropic.com/news/claude-4

点这里👇关注我,记得标星哦~

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论