大家好,我是子昕。
周日打球跟腱断了,真的断了那种,脚筋都摸不到了,软软的~
现在躺医院输液,右脚打石膏,明天早上手术。身边没电脑没法给你们做详细评测,但Anthropic昨晚发了Claude Opus 4.5,这消息我得先告诉你们。
顺便求助下,有没有懂跟腱修复手术的老哥,评论区给点术后恢复建议?听说要3-6个月才能正常走路,想想就头大。
好了说正事,虽然我没法测,但官方数据真的猛。
核心数据
编程能力SWE-bench Verified:80.9% 超过GPT-5.1-codex-max 的77.9%,也超过Gemini 3 Pro的76.2%,重新拿回第一
价格直接砍掉2/3 :输入从5,输出从25(每百万token)
Anthropic内部招聘考试: Opus 4.5的分数超过了公司历史上所有人类候选人
这个“考试超人类”有点吓人
Anthropic让Opus 4.5去考了他们内部的性能工程师招聘考试,就是真的招人用的那种,限时2小时,纯技术题。
结果呢? 比他们公司历史上所有来面试的人类候选人分数都高。
你细品,这不是benchmark刷榜,,是真实的招聘场景。
如果你是技术leader,现在会不会有点慌?一个AI考赢了所有人类候选人,这意味着啥?
SWE-bench Verified测的是真实的软件工程能力——给你一个GitHub issue,你去修bug、加功能、改代码。
OpenAI五天前刚发GPT-5.1,昨天就被反超了。Google的Gemini 3上周才刷屏,直接被按下去。
官方说内测的开发者反馈是:Opus 4.5“就是懂你想要啥”。
需求模糊也能理解,技术方案自己能权衡,跨系统的bug也能定位,不用你手把手教。
价格真的香
老实说之前Opus系列最大的问题就是贵得离谱。性能确实封顶,但价格也封顶,很多人宁愿用Sonnet凑合,也不敢日常用Opus。
这次Anthropic直接把价格砍掉2/3:
-
输入: 5 (每百万token)
-
输出:25 (每百万token)
你算算,之前跑一个大项目可能要几十刀,现在只要十几刀。
更绝的是 Token消耗大幅降低:
- 中等强度:性能和Sonnet 4.5一样,但Token减少76%
- 高强度:性能超Sonnet 4.5,Token只用52%
性能更强,价格更低,效率更高。这波属实没话说。
Effort参数:自己控制投入多少
这次加了个Effort参数,挺实用的:
- Low: 快速响应,写个简单脚本、改个小bug
- Medium: 平衡性能和成本,日常开发
- High: 全力以赴,重构核心代码、解决复杂问题
以前你只能选模型,现在还能选强度。
写个工具脚本用Low档省钱,,架构重构用High档冲性能,挺灵活的。
我的判断
虽然我现在没法亲自测,但光看数据和用户反馈,有两个判断:
1. 编程AI的天花板又抬高了
之前Sonnet 4.5在很多场景下比Opus 4.1还好用,导致Opus存在感很弱。现在Opus 4.5终于重新证明了旗舰模型的价值。
内部考试超越所有人类候选人,这信号挺大的。不是说AI马上抢走程序员饭碗,但至少在写代码这件事上,它确实已经比绝大多数人靠谱了。
2. 价格战正式打响
从75直降到25,这不是小调整,是战略级降价。
Anthropic在用价格换市场份额,接下来OpenAI和Google肯定得跟进。
对咱们开发者来说是好事,以前用不起的能力现在能用上了。
最后
我现在躺医院右脚打石膏,左手打字。等出院恢复了看看给你们补详细实测和对比。
现在你们先用起来,有啥发现评论区见。
还有那个,懂跟腱修复手术的老哥们,真的麻烦评论区给点建议,感激不尽。
