Codex慢到崩溃？GPT-5.1-Codex-Max来了：实测43分钟→5分钟，感动哭了 - 文章 - 开发者社区

大家好，我是子昕。

昨天Gemini Pro 3发布，本来想第一时间给大家做评测。

结果手头项目太忙，加上Google新出的AI编程工具Antigravity各种登录问题、账号限制，折腾一天了连模型都选不上。

picture.image

今天早上刚搞定这些破事，GPT-5.1-Codex-Max 的消息就出来了。

说实话，这对我的冲击比Gemini Pro 3更大。

因为我是Codex重度使用者，每天都在用，每天都在等。作为后端，负责的都是复杂场景，一个问题动辄30分钟起步，上下文一长更是没边了，真的心累。

现在Max号称smarter and faster ，那我肯定得先测这个。

picture.image

核心要点

昨天处理问题花了43分钟，今天同样难度只用了5分钟
突破上下文限制，可以持续工作超过24小时
SWE-bench Verified达到77.9%，思考token减少30%
首次原生支持Windows

43分钟到5分钟，真的

昨天还没Max的时候，处理几个问题整整43分钟。

picture.image

今天同等难度，5分钟。

picture.image

不是夸张，就是这么直观。

而且并没有因为速度的提升而丢失质量！

这个速度提升不是简单地跑快了，而是OpenAI真的把Codex最痛的问题给解决了——长上下文场景下的效率崩溃。

终于不用担心上下文炸了

Max最核心的创新是“compaction”技术。

简单说，就是模型会自动压缩对话历史，保留重要的，扔掉无关的。接近上下文限制时，自动压缩会话，给自己腾出新空间，然后继续干活，直到任务完成。

这意味着那些之前因为上下文太长而失败的任务——大规模重构、长时间agent循环——现在都能搞定了。

OpenAI内部测试中，Max能持续工作超过24小时，会一直迭代实现、修复测试、跑通所有case，最后给你一个完整的结果。

你周五晚上给它布置个复杂重构，周末它自己干，自己跑测试、修bug，直到所有测试通过。

这，真的可以。

性能提升：不只是说说

数据也很亮眼:

SWE-bench Verified： 77.9% (之前是73.7%)

picture.image

SWE-Lancer IC SWE： 79.9.1% (之前是66.3%)
TerminalBench 2.0： 58.1% (之前是52.8%)

picture.image

更关键的是token效率提升。在SWE-bench Verified上，Max比之前少用30%的思考token，性能还更好。

更快、更省钱。

OpenAI还提供了Extra High 推理级别，会思考更长时间。但日常用medium就够了。

首次原生支持Windows

之前Codex主要针对Unix优化，Windows用户一直很难受。

Max是OpenAI第一个原生支持Windows的模型。对Windows开发者来说是大好消息，不用担心PowerShell脚本或文件路径问题了。

升级很简单

只需要将Codex CLI更新到最新版，就可以使用Max。

如果已经装了Codex CLI，运行:

  
npm install -g @openai/codex@latest

没装的话，先装:

  
npm install -g @openai/codex

升级后，Max已经是默认模型，不需要任何配置。

写在最后

我发现GPT-5.1-codex-max这个发布时间点挺微妙的，刚好在Gemini Pro 3后一天。

会不会是Sam Altman故意的？

等Google发完，第二天就放出Max。这操作，2024年就干过好几次了。

不过说实话，在还没真正体验Gemini Pro 3的情况下，Max对我的影响确实更大。因为我每天都在用Codex，每天都在等它跑，这个痛点太真实了。

43分钟变5分钟，实在太香了~

如果你在用Codex，别犹豫，马上升级。

至于Gemini Pro 3的评测，等我测完再写。

点个关注呗，我会继续用我这半吊子水平为大家带来更多AI编程工具的第一手体验～

「点赞、转发、在看」
和大家一起看