大家好,我是子昕。
昨天Gemini Pro 3发布,本来想第一时间给大家做评测。
结果手头项目太忙,加上Google新出的AI编程工具Antigravity各种登录问题、账号限制,折腾一天了连模型都选不上。
今天早上刚搞定这些破事,GPT-5.1-Codex-Max 的消息就出来了。
说实话,这对我的冲击比Gemini Pro 3更大。
因为我是Codex重度使用者,每天都在用,每天都在等。作为后端,负责的都是复杂场景,一个问题动辄30分钟起步,上下文一长更是没边了,真的心累。
现在Max号称smarter and faster ,那我肯定得先测这个。
核心要点
- 昨天处理问题花了43分钟,今天同样难度只用了5分钟
- 突破上下文限制,可以持续工作超过24小时
- SWE-bench Verified达到77.9%,思考token减少30%
- 首次原生支持Windows
43分钟到5分钟,真的
昨天还没Max的时候,处理几个问题整整43分钟。
今天同等难度,5分钟。
不是夸张,就是这么直观。
而且并没有因为速度的提升而丢失质量!
这个速度提升不是简单地跑快了,而是OpenAI真的把Codex最痛的问题给解决了——长上下文场景下的效率崩溃。
终于不用担心上下文炸了
Max最核心的创新是“compaction”技术。
简单说,就是模型会自动压缩对话历史,保留重要的,扔掉无关的。接近上下文限制时,自动压缩会话,给自己腾出新空间,然后继续干活,直到任务完成。
这意味着那些之前因为上下文太长而失败的任务——大规模重构、长时间agent循环——现在都能搞定了。
OpenAI内部测试中,Max能持续工作超过24小时,会一直迭代实现、修复测试、跑通所有case,最后给你一个完整的结果。
你周五晚上给它布置个复杂重构,周末它自己干,自己跑测试、修bug,直到所有测试通过。
这,真的可以。
性能提升:不只是说说
数据也很亮眼:
- SWE-bench Verified: 77.9% (之前是73.7%)
- SWE-Lancer IC SWE: 79.9.1% (之前是66.3%)
- TerminalBench 2.0: 58.1% (之前是52.8%)
更关键的是token效率提升。在SWE-bench Verified上,Max比之前少用30%的思考token,性能还更好。
更快、更省钱。
OpenAI还提供了Extra High 推理级别,会思考更长时间。但日常用medium就够了。
首次原生支持Windows
之前Codex主要针对Unix优化,Windows用户一直很难受。
Max是OpenAI第一个原生支持Windows的模型。对Windows开发者来说是大好消息,不用担心PowerShell脚本或文件路径问题了。
升级很简单
只需要将Codex CLI更新到最新版,就可以使用Max。
如果已经装了Codex CLI,运行:
npm install -g @openai/codex@latest
没装的话,先装:
npm install -g @openai/codex
升级后,Max已经是默认模型,不需要任何配置。
写在最后
我发现GPT-5.1-codex-max这个发布时间点挺微妙的,刚好在Gemini Pro 3后一天。
会不会是Sam Altman故意的?
等Google发完,第二天就放出Max。这操作,2024年就干过好几次了。
不过说实话,在还没真正体验Gemini Pro 3的情况下,Max对我的影响确实更大。因为我每天都在用Codex,每天都在等它跑,这个痛点太真实了。
43分钟变5分钟,实在太香了~
如果你在用Codex,别犹豫,马上升级。
至于Gemini Pro 3的评测,等我测完再写。
点个关注呗,我会继续用我这半吊子水平为大家带来更多AI编程工具的第一手体验~
「点赞、转发、在看」
和大家一起看
