GPT-5.1-Codex来了：自适应推理+新工具 - 文章 - 开发者社区

大家好，我是子昕，一个干了10年的后端开发，现在在AI编程这条路上边冲边摸索，每天都被新技术追着跑。

11月13日，OpenAI发布GPT-5.1，同步推出gpt-5.1-codex和gpt-5.1-codex-mini两个编程模型的更新版本。

这次更新的核心是 自适应推理(adaptive reasoning) ——简单任务快速响应，复杂任务深度思考。另外还加了两个新工具：apply_patch和shell，用于更可靠地编辑代码和执行命令。

核心改进

自适应推理：简单任务快2倍，复杂任务该深入就深入，token消耗更合理
新增apply_patch工具，旨在更可靠地编辑代码
新增shell工具，让模型可以建议并执行命令行命令
SWE-bench Verified从72.8%提到 76.3%
API加了 24小时prompt缓存 ，重复查询成本降 90%
新增reasoning_effort='none'模式，跳过推理直接响应

自适应推理：该快的快，该慢的慢

GPT-5-Codex的一个老问题是对每个任务都用同样深度的推理 。改个变量名也要思考半天，延迟让人难受。

GPT-5.1-Codex的改进是根据任务复杂度动态调整思考时间 。

OpenAI给的数据：在代表性的ChatGPT任务分布上，GPT-5.1在最简单的任务上快约2倍，在最复杂的任务上慢约2倍。

举例：问“npm命令列出全局安装的包”，GPT-5要10秒，GPT-5.1只要2秒。

GPT-5 vs GPT-5.1在不同任务上的响应时间对比：

picture.image

对API用户来说，还有个重要变化：reasoning_effort参数新增'none'选项 。

设置为'none'时，模型会跳过深度推理，直接响应，延迟更低，但保持GPT-5.1的智能水平。OpenAI推荐：

'none'：延迟敏感的场景
'low'或'medium'：中等复杂度任务
'high'：质量优先的场景

这个设计思路不错。

以前用Codex，要么全程开high模式等半天，要么用其他模型质量下降。现在可以让模型自己判断，或者手动控制。

**但实际效果怎么样，我没法确定。如果你已经用上了GPT-5.1-Codex，欢迎在评论区分享你的真实感受。

两个新工具：更可靠地编辑代码

GPT-5.1加了两个工具，对编程场景很实用。

apply_patch 是个“旨在更可靠地编辑代码”的工具。

它的工作方式是：模型生成apply_patch操作(包含结构化的diff)，你在本地应用这些patch，然后把结果传回去，模型继续下一步。这样可以实现迭代式、多步骤的代码编辑工作流。

和之前的区别是，这次用的是freeform格式，不需要JSON转义，更可靠。

shell工具 可以让模型建议命令行命令，然后在本地执行并检查结果。

模型生成shell_call操作，你在本地执行命令，把输出传回shell_call_output，模型根据结果继续工作。这意味着模型可以跑测试、检查环境、验证代码行为，形成完整的反馈循环。

这两个工具让GPT-5.1-Codex更接近真正的代码助手，不只是生成代码，还能测试、验证、迭代。

SWE-bench提升到76.3%

OpenAI公布的数据显示，GPT-5.1在SWE-bench Verified上达到76.3%，比GPT-5的72.8%提升了3.5个百分点。

picture.image

这不是巨大飞跃，但确实在稳步提升。从benchmark来看，质量没有因为速度优化而下降。

24小时prompt缓存：重复查询省90%

这次API加了个实用功能：prompt缓存可以保留24小时。

以前缓存时间只有几分钟，如果你在一天内反复调用类似的prompt(比如同一个代码库的多个问题)，每次都得重新付费传输上下文。现在缓存24小时，后续调用便宜90%。

对编程场景来说，这意味着你可以在一天内对同一个项目问很多次问题，不用担心每次都要传一遍整个代码库。

使用方法：在API调用时加上"prompt\_cache\_retention"： "24h"。缓存写入和存储不额外收费，价格没涨。

怎么用

API

现在可以用的模型：

gpt-5.1 ：标准版本，带自适应推理
gpt-5.1-codex ：专门针对长时间运行的代理式编程任务优化
gpt-5.1-codex-mini ：轻量版，使用量4倍，能力轻微下降

价格和GPT-5一样，没涨。

Codex CLI

更新到最新版本就能用GPT-5.1。

  
npm install -g @openai/codex-cli

picture.image

写在最后

GPT-5.1是对GPT-5的迭代优化，主要改进是自适应推理、新工具、24小时缓存。

从benchmark和合作伙伴反馈来看，方向是对的：该快的地方快，该深入的地方深入，质量没掉。

但实际体验怎么样，还得看真实使用场景。

如果你已经用上了GPT-5.1，欢迎在评论区分享：速度快了吗？代码质量如何？有没有遇到问题？

点个关注呗，我会继续用我这半吊子水平为大家带来更多AI编程工具的第一手体验～

「点赞、转发、在看」
和大家一起看