躺病床发文:Claude Opus 4.5刚发布,数据真被震到了

大家好,我是子昕。

周日打球跟腱断了,真的断了那种,脚筋都摸不到了,软软的~

现在躺医院输液,右脚打石膏,明天早上手术。身边没电脑没法给你们做详细评测,但Anthropic昨晚发了Claude Opus 4.5,这消息我得先告诉你们。

顺便求助下,有没有懂跟腱修复手术的老哥,评论区给点术后恢复建议?听说要3-6个月才能正常走路,想想就头大。

好了说正事,虽然我没法测,但官方数据真的猛。

核心数据

编程能力SWE-bench Verified:80.9% 超过GPT-5.1-codex-max 的77.9%,也超过Gemini 3 Pro的76.2%,重新拿回第一

picture.image

价格直接砍掉2/3 :输入从15降到15降到5,输出从75降到75降到25(每百万token)

Anthropic内部招聘考试: Opus 4.5的分数超过了公司历史上所有人类候选人

picture.image

这个“考试超人类”有点吓人

Anthropic让Opus 4.5去考了他们内部的性能工程师招聘考试,就是真的招人用的那种,限时2小时,纯技术题。

结果呢? 比他们公司历史上所有来面试的人类候选人分数都高。

你细品,这不是benchmark刷榜,,是真实的招聘场景。

如果你是技术leader,现在会不会有点慌?一个AI考赢了所有人类候选人,这意味着啥?

SWE-bench Verified测的是真实的软件工程能力——给你一个GitHub issue,你去修bug、加功能、改代码。

OpenAI五天前刚发GPT-5.1,昨天就被反超了。Google的Gemini 3上周才刷屏,直接被按下去。

官方说内测的开发者反馈是:Opus 4.5“就是懂你想要啥”。

需求模糊也能理解,技术方案自己能权衡,跨系统的bug也能定位,不用你手把手教。

价格真的香

老实说之前Opus系列最大的问题就是贵得离谱。性能确实封顶,但价格也封顶,很多人宁愿用Sonnet凑合,也不敢日常用Opus。

这次Anthropic直接把价格砍掉2/3:

  • 输入: 1515 → 5 (每百万token)

  • 输出:7575 → 25 (每百万token)

你算算,之前跑一个大项目可能要几十刀,现在只要十几刀。

更绝的是 Token消耗大幅降低:

  • 中等强度:性能和Sonnet 4.5一样,但Token减少76%
  • 高强度:性能超Sonnet 4.5,Token只用52%

性能更强,价格更低,效率更高。这波属实没话说。

Effort参数:自己控制投入多少

这次加了个Effort参数,挺实用的:

  • Low: 快速响应,写个简单脚本、改个小bug
  • Medium: 平衡性能和成本,日常开发
  • High: 全力以赴,重构核心代码、解决复杂问题

以前你只能选模型,现在还能选强度。

写个工具脚本用Low档省钱,,架构重构用High档冲性能,挺灵活的。

我的判断

虽然我现在没法亲自测,但光看数据和用户反馈,有两个判断:

1. 编程AI的天花板又抬高了

之前Sonnet 4.5在很多场景下比Opus 4.1还好用,导致Opus存在感很弱。现在Opus 4.5终于重新证明了旗舰模型的价值。

内部考试超越所有人类候选人,这信号挺大的。不是说AI马上抢走程序员饭碗,但至少在写代码这件事上,它确实已经比绝大多数人靠谱了。

2. 价格战正式打响

15/15/75直降到5/5/25,这不是小调整,是战略级降价。

Anthropic在用价格换市场份额,接下来OpenAI和Google肯定得跟进。

对咱们开发者来说是好事,以前用不起的能力现在能用上了。

最后

我现在躺医院右脚打石膏,左手打字。等出院恢复了看看给你们补详细实测和对比。

现在你们先用起来,有啥发现评论区见。

还有那个,懂跟腱修复手术的老哥们,真的麻烦评论区给点建议,感激不尽。

0
0
0
0
评论
未登录
暂无评论