降价升级！Opus 4.5 发布：依旧最强编码，超大杯现在只比 Sonnet 贵一点。 - 文章 - 开发者社区

🍹 Insight Daily 🪺

Aitrainee | 公众号：AI进修生

Hi，这里是Aitrainee，欢迎阅读本期新文章。

AI 模型的‘最强’像一个短暂的轮回——

每当一家宣布推出史上最强模型，很快另一家又会刷新纪录。

picture.image

“ 最强，是只在它被发布的那一刻属于它吗 ”。

picture.image

前脚 Gemini 3 Pro 大秀，后脚Claude Opus 4.5 ：世界上编码、代理和计算机使用的最佳模型。

picture.image

在真实场景的软件工程测试 SWE-Bench Verified 里，Opus4.5已经达到了80.9%。它应该是首个达到80%的模型。。

picture.image

他这个图做的有点意思了，像是截取放大的操作。Opus4.1是74.5%，而Opus4.5 看起来有提升了一倍的视觉效果。。

在 SWE bench 多语言上的8种编程语言中有7种是领先的。

picture.image

Anthropic 把 Opus 4.5 扔进公司用于招聘性能工程师的高难度测试中，结果它在两小时内拿到的分数超过了所有人类候选人。

随着模型智能的提升，Opus 4.5 能用更少的步骤解决问题

picture.image

Claude Opus 4.5 与前代相比，在实现同等甚至更好结果时所使用的 token 数量大幅减少。

但不同的任务需要不同的权衡。有时开发者希望模型对问题持续深入思考；有时则需要更灵活迅速的表现。通过 Claude API 中全新的 effort（努力）参数 ，你可以自行选择是最小化时间与成本，还是最大化模型能力。

picture.image

在中等努力水平下，Opus 4.5 能够匹配 Sonnet 4.5 在 SWE-bench Verified 上的最佳成绩，但输出 token 数减少了 76% 。在最高努力水平下，Opus 4.5 的表现超越 Sonnet 4.5 4.3 个百分点 ——同时输出 token 数减少 48% 。

凭借 effort 控制、上下文压缩以及更高级的工具使用，Claude Opus 4.5 能运行更久、完成更多任务，并且需要更少的人工干预。

此外，还有管理多代理系统的性能提升：

picture.image