大家好,我是子昕,一个干了10年的后端开发,现在在AI编程这条路上边冲边摸索,每天都被新技术追着跑。
11月13日,OpenAI发布GPT-5.1,同步推出gpt-5.1-codex和gpt-5.1-codex-mini两个编程模型的更新版本。
这次更新的核心是 自适应推理(adaptive reasoning) ——简单任务快速响应,复杂任务深度思考。另外还加了两个新工具:apply_patch和shell,用于更可靠地编辑代码和执行命令。
核心改进
- 自适应推理:简单任务快2倍,复杂任务该深入就深入,token消耗更合理
- 新增apply_patch工具,旨在更可靠地编辑代码
- 新增shell工具,让模型可以建议并执行命令行命令
- SWE-bench Verified从72.8%提到
76.3% - API加了
24小时prompt缓存,重复查询成本降90% - 新增reasoning_effort='none'模式,跳过推理直接响应
自适应推理:该快的快,该慢的慢
GPT-5-Codex的一个老问题是对每个任务都用同样深度的推理 。改个变量名也要思考半天,延迟让人难受。
GPT-5.1-Codex的改进是根据任务复杂度动态调整思考时间 。
OpenAI给的数据:在代表性的ChatGPT任务分布上,GPT-5.1在最简单的任务上快约2倍,在最复杂的任务上慢约2倍。
举例:问“npm命令列出全局安装的包”,GPT-5要10秒,GPT-5.1只要2秒。
GPT-5 vs GPT-5.1在不同任务上的响应时间对比:
对API用户来说,还有个重要变化:reasoning_effort参数新增'none'选项 。
设置为'none'时,模型会跳过深度推理,直接响应,延迟更低,但保持GPT-5.1的智能水平。OpenAI推荐:
- 'none':延迟敏感的场景
- 'low'或'medium':中等复杂度任务
- 'high':质量优先的场景
这个设计思路不错。
以前用Codex,要么全程开high模式等半天,要么用其他模型质量下降。现在可以让模型自己判断,或者手动控制。
**但实际效果怎么样,我没法确定。如果你已经用上了GPT-5.1-Codex,欢迎在评论区分享你的真实感受。
两个新工具:更可靠地编辑代码
GPT-5.1加了两个工具,对编程场景很实用。
apply_patch 是个“旨在更可靠地编辑代码”的工具。
它的工作方式是:模型生成apply_patch操作(包含结构化的diff),你在本地应用这些patch,然后把结果传回去,模型继续下一步。这样可以实现迭代式、多步骤的代码编辑工作流。
和之前的区别是,这次用的是freeform格式,不需要JSON转义,更可靠。
shell工具 可以让模型建议命令行命令,然后在本地执行并检查结果。
模型生成shell_call操作,你在本地执行命令,把输出传回shell_call_output,模型根据结果继续工作。这意味着模型可以跑测试、检查环境、验证代码行为,形成完整的反馈循环。
这两个工具让GPT-5.1-Codex更接近真正的代码助手,不只是生成代码,还能测试、验证、迭代。
SWE-bench提升到76.3%
OpenAI公布的数据显示,GPT-5.1在SWE-bench Verified上达到76.3%,比GPT-5的72.8%提升了3.5个百分点。
这不是巨大飞跃,但确实在稳步提升。从benchmark来看,质量没有因为速度优化而下降。
24小时prompt缓存:重复查询省90%
这次API加了个实用功能:prompt缓存可以保留24小时。
以前缓存时间只有几分钟,如果你在一天内反复调用类似的prompt(比如同一个代码库的多个问题),每次都得重新付费传输上下文。现在缓存24小时,后续调用便宜90%。
对编程场景来说,这意味着你可以在一天内对同一个项目问很多次问题,不用担心每次都要传一遍整个代码库。
使用方法:在API调用时加上"prompt\_cache\_retention": "24h"。缓存写入和存储不额外收费,价格没涨。
怎么用
API
现在可以用的模型:
- gpt-5.1 :标准版本,带自适应推理
- gpt-5.1-codex :专门针对长时间运行的代理式编程任务优化
- gpt-5.1-codex-mini :轻量版,使用量4倍,能力轻微下降
价格和GPT-5一样,没涨。
Codex CLI
更新到最新版本就能用GPT-5.1。
npm install -g @openai/codex-cli
写在最后
GPT-5.1是对GPT-5的迭代优化,主要改进是自适应推理、新工具、24小时缓存。
从benchmark和合作伙伴反馈来看,方向是对的:该快的地方快,该深入的地方深入,质量没掉。
但实际体验怎么样,还得看真实使用场景。
如果你已经用上了GPT-5.1,欢迎在评论区分享:速度快了吗?代码质量如何?有没有遇到问题?
点个关注呗,我会继续用我这半吊子水平为大家带来更多AI编程工具的第一手体验~
「点赞、转发、在看」
和大家一起看
