Codex慢到崩溃?GPT-5.1-Codex-Max来了:实测43分钟→5分钟,感动哭了

大家好,我是子昕。

昨天Gemini Pro 3发布,本来想第一时间给大家做评测。

结果手头项目太忙,加上Google新出的AI编程工具Antigravity各种登录问题、账号限制,折腾一天了连模型都选不上。

picture.image

今天早上刚搞定这些破事,GPT-5.1-Codex-Max 的消息就出来了。

说实话,这对我的冲击比Gemini Pro 3更大。

因为我是Codex重度使用者,每天都在用,每天都在等。作为后端,负责的都是复杂场景,一个问题动辄30分钟起步,上下文一长更是没边了,真的心累。

现在Max号称smarter and faster ,那我肯定得先测这个。

picture.image

核心要点

  • 昨天处理问题花了43分钟,今天同样难度只用了5分钟
  • 突破上下文限制,可以持续工作超过24小时
  • SWE-bench Verified达到77.9%,思考token减少30%
  • 首次原生支持Windows

43分钟到5分钟,真的

昨天还没Max的时候,处理几个问题整整43分钟。

picture.image

今天同等难度,5分钟。

picture.image

不是夸张,就是这么直观。

而且并没有因为速度的提升而丢失质量!

这个速度提升不是简单地跑快了,而是OpenAI真的把Codex最痛的问题给解决了——长上下文场景下的效率崩溃。

终于不用担心上下文炸了

Max最核心的创新是“compaction”技术。

简单说,就是模型会自动压缩对话历史,保留重要的,扔掉无关的。接近上下文限制时,自动压缩会话,给自己腾出新空间,然后继续干活,直到任务完成。

这意味着那些之前因为上下文太长而失败的任务——大规模重构、长时间agent循环——现在都能搞定了。

OpenAI内部测试中,Max能持续工作超过24小时,会一直迭代实现、修复测试、跑通所有case,最后给你一个完整的结果。

你周五晚上给它布置个复杂重构,周末它自己干,自己跑测试、修bug,直到所有测试通过。

这,真的可以。

性能提升:不只是说说

数据也很亮眼:

  • SWE-bench Verified: 77.9% (之前是73.7%)

picture.image

  • SWE-Lancer IC SWE: 79.9.1% (之前是66.3%)
  • TerminalBench 2.0: 58.1% (之前是52.8%)

picture.image

更关键的是token效率提升。在SWE-bench Verified上,Max比之前少用30%的思考token,性能还更好。

更快、更省钱。

OpenAI还提供了Extra High 推理级别,会思考更长时间。但日常用medium就够了。

首次原生支持Windows

之前Codex主要针对Unix优化,Windows用户一直很难受。

Max是OpenAI第一个原生支持Windows的模型。对Windows开发者来说是大好消息,不用担心PowerShell脚本或文件路径问题了。

升级很简单

只需要将Codex CLI更新到最新版,就可以使用Max。

如果已经装了Codex CLI,运行:

  
npm install -g @openai/codex@latest  

没装的话,先装:

  
npm install -g @openai/codex  

升级后,Max已经是默认模型,不需要任何配置。

写在最后

我发现GPT-5.1-codex-max这个发布时间点挺微妙的,刚好在Gemini Pro 3后一天。

会不会是Sam Altman故意的?

等Google发完,第二天就放出Max。这操作,2024年就干过好几次了。

不过说实话,在还没真正体验Gemini Pro 3的情况下,Max对我的影响确实更大。因为我每天都在用Codex,每天都在等它跑,这个痛点太真实了。

43分钟变5分钟,实在太香了~

如果你在用Codex,别犹豫,马上升级。

至于Gemini Pro 3的评测,等我测完再写。


点个关注呗,我会继续用我这半吊子水平为大家带来更多AI编程工具的第一手体验~

「点赞、转发、在看」
和大家一起看

0
0
0
0
评论
未登录
暂无评论