Claude Opus 4.5刚在SWE-bench测试中重夺榜首,以74.4%的解决率险胜Gemini 3。但这个胜利优势很小,仅以0.2个百分点的优势领先,SWE-bench团队成员直言,这相当于在500个验证任务中只多解决了一个任务。
背后的代价是成本:尽管 Opus 4.5比前代便宜36%,但"明显比其他得分相近的模型更贵"。为了这微乎其微的性能提升,你得承担显著更高的成本。
有趣的是,Opus 4.5在步骤数上比Sonnet 4.5更少,与Gemini 3 Pro相当,但远多于GPT-5系列。这种中等步数的策略在特定场景下反而更有优势。
SWE-bench团队发现了一个反常识现象:当限制最大步骤数时,Opus 4.5在成本效率上能超越Sonnet 4.5。在较低步数限制下,它能以更低成本达到相同性能水平。不过,如果要获得最佳性能,步数限制应该设为至少100步。
这次测试基于mini-swe-agent (https://github.com/SWE-agent/mini-swe-agent),一个仅100行Python代码的极简框架。所有模型使用完全相同的代理和提示词,确保"苹果对苹果"的公平比较。开发者故意去除了传统AI代理的复杂工具链,仅保留bash交互。
就有人提问:顶级模型是否在相同任务上失败或成功?团队成员回应说,确实有些任务只能被一两个模型解决,但也存在统计波动。他们的建议很实用:当AI卡住时,与其不断迭代,不如重置所有更改重新开始,因为模型很不擅长解决根本问题,它只会不断叠加变通方案,进而离解决问题的正确方向越来越越远。
还有不少用户反馈在实际使用中Sonnet比Opus表现更好,这与基准测试结果形成了有趣对比。
这种微小的领先优势再次说明一个事实:顶级模型间的差距正在缩小,选择哪个模型越来越取决于具体场景和成本考量,技术垄断是最脆弱的垄断。
关注公众号回复“进群”入群讨论。
