Claude Opus 4.5重夺编程榜首背后的代价… - 文章 - 开发者社区

Claude Opus 4.5刚在SWE-bench测试中重夺榜首，以74.4%的解决率险胜Gemini 3。但这个胜利优势很小，仅以0.2个百分点的优势领先，SWE-bench团队成员直言，这相当于在500个验证任务中只多解决了一个任务。

picture.image

背后的代价是成本：尽管 Opus 4.5比前代便宜36%，但"明显比其他得分相近的模型更贵"。为了这微乎其微的性能提升，你得承担显著更高的成本。

有趣的是，Opus 4.5在步骤数上比Sonnet 4.5更少，与Gemini 3 Pro相当，但远多于GPT-5系列。这种中等步数的策略在特定场景下反而更有优势。

picture.image

SWE-bench团队发现了一个反常识现象：当限制最大步骤数时，Opus 4.5在成本效率上能超越Sonnet 4.5。在较低步数限制下，它能以更低成本达到相同性能水平。不过，如果要获得最佳性能，步数限制应该设为至少100步。

picture.image

就有人提问：顶级模型是否在相同任务上失败或成功？团队成员回应说，确实有些任务只能被一两个模型解决，但也存在统计波动。他们的建议很实用：当AI卡住时，与其不断迭代，不如重置所有更改重新开始，因为模型很不擅长解决根本问题，它只会不断叠加变通方案，进而离解决问题的正确方向越来越越远。

还有不少用户反馈在实际使用中Sonnet比Opus表现更好，这与基准测试结果形成了有趣对比。

这种微小的领先优势再次说明一个事实：顶级模型间的差距正在缩小，选择哪个模型越来越取决于具体场景和成本考量，技术垄断是最脆弱的垄断。

关注公众号回复“进群”入群讨论。