🍹 Insight Daily 🪺
Aitrainee | 公众号:AI进修生
Hi,这里是Aitrainee,欢迎阅读本期新文章。
AI 模型的‘最强’像一个短暂的轮回——
每当一家宣布推出史上最强模型,很快另一家又会刷新纪录。
“ 最强,是只在它被发布的那一刻属于它吗 ”。
前脚 Gemini 3 Pro 大秀,后脚Claude Opus 4.5 :世界上编码、代理和计算机使用的最佳模型。
在真实场景的软件工程测试 SWE-Bench Verified 里,Opus4.5已经达到了80.9%。它应该是首个达到80%的模型。。
他这个图做的有点意思了,像是截取放大的操作。Opus4.1是74.5%,而Opus4.5 看起来有提升了一倍的视觉效果。。
在 SWE bench 多语言上的8种编程语言中有7种是领先的。
Anthropic 把 Opus 4.5 扔进公司用于招聘性能工程师的高难度测试中,结果它在两小时内拿到的分数超过了所有人类候选人。
随着模型智能的提升,Opus 4.5 能用更少的步骤解决问题
Claude Opus 4.5 与前代相比,在实现同等甚至更好结果时所使用的 token 数量大幅减少。
但不同的任务需要不同的权衡。有时开发者希望模型对问题持续深入思考;有时则需要更灵活迅速的表现。通过 Claude API 中全新的 effort(努力)参数 ,你可以自行选择是最小化时间与成本,还是最大化模型能力。
在中等努力水平下,Opus 4.5 能够匹配 Sonnet 4.5 在 SWE-bench Verified 上的最佳成绩,但输出 token 数减少了 76% 。在最高努力水平下,Opus 4.5 的表现超越 Sonnet 4.5 4.3 个百分点 ——同时输出 token 数减少 48% 。
凭借 effort 控制、上下文压缩以及更高级的工具使用,Claude Opus 4.5 能运行更久、完成更多任务,并且需要更少的人工干预。
此外,还有管理多代理系统的性能提升:
以及Claude Code中更准确的计划、执行:
在软件工程之外,Claude Opus 4.5 整体性能都有了较大幅度的增强。— 在视觉、推理和数学方面都比前代更强,并且在许多领域都达到了业界最先进的水平。
Opus 4.5应该能更懂你了。更好的处理复杂任务,效率会提升。
Opus 4.5 在处理歧义、权衡取舍时不需要手把手指导。
面对复杂的多系统错误时,它能够自行找出解决方案。
总体来说,Opus 4.5 就是“懂了”。
Claude Code 现在也可以在Claude 桌面应用中使用,让你能够并行运行多个本地和远程会话:例如,一个代理负责修复错误,另一个负责在 GitHub 上进行研究,第三个则更新文档。
最后,他也更便宜,So,你可以放心切换到高级模型。
Opus4.1的价格相比Sonnet4.5贵了5倍,
而这次更新的Opus4.5相比Sonnet4.5也只贵了一倍多一点。感觉后面在使用Cursor这类工具时,大家可以放心的用超大杯了。。当然Opus系列会比Sonnet慢不少。
但是,Codex 的 GPT5系列才是 “ SOTA 慢 ”
另外,Opus4.1 最大输出只有32k。这次升级是拉回到原来的64k了。
Cursor 前两周做活动,用 Sonnet 的价格就能用
另外,V0在免费中。。
blog:https://www.anthropic.com/news/claude-opus-4-5
🌟 知音难求,自我修 炼亦艰,抓住前沿技术的机遇,与我们一起成为创新的超级个体(把握AIGC时代的个人力量)。
点这里👇关注我,记得标星哦~
