GPT-5.1-Codex来了:自适应推理+新工具

大模型开发与运维机器学习

大家好,我是子昕,一个干了10年的后端开发,现在在AI编程这条路上边冲边摸索,每天都被新技术追着跑。

11月13日,OpenAI发布GPT-5.1,同步推出gpt-5.1-codex和gpt-5.1-codex-mini两个编程模型的更新版本。

这次更新的核心是 自适应推理(adaptive reasoning) ——简单任务快速响应,复杂任务深度思考。另外还加了两个新工具:apply_patch和shell,用于更可靠地编辑代码和执行命令。

核心改进

  • 自适应推理:简单任务快2倍,复杂任务该深入就深入,token消耗更合理
  • 新增apply_patch工具,旨在更可靠地编辑代码
  • 新增shell工具,让模型可以建议并执行命令行命令
  • SWE-bench Verified从72.8%提到 76.3%
  • API加了 24小时prompt缓存 ,重复查询成本降 90%
  • 新增reasoning_effort='none'模式,跳过推理直接响应

自适应推理:该快的快,该慢的慢

GPT-5-Codex的一个老问题是对每个任务都用同样深度的推理 。改个变量名也要思考半天,延迟让人难受。

GPT-5.1-Codex的改进是根据任务复杂度动态调整思考时间

OpenAI给的数据:在代表性的ChatGPT任务分布上,GPT-5.1在最简单的任务上快约2倍,在最复杂的任务上慢约2倍。

举例:问“npm命令列出全局安装的包”,GPT-5要10秒,GPT-5.1只要2秒。

GPT-5 vs GPT-5.1在不同任务上的响应时间对比:

picture.image

对API用户来说,还有个重要变化:reasoning_effort参数新增'none'选项

设置为'none'时,模型会跳过深度推理,直接响应,延迟更低,但保持GPT-5.1的智能水平。OpenAI推荐:

  • 'none':延迟敏感的场景
  • 'low'或'medium':中等复杂度任务
  • 'high':质量优先的场景

这个设计思路不错。

以前用Codex,要么全程开high模式等半天,要么用其他模型质量下降。现在可以让模型自己判断,或者手动控制。

**但实际效果怎么样,我没法确定。如果你已经用上了GPT-5.1-Codex,欢迎在评论区分享你的真实感受。

两个新工具:更可靠地编辑代码

GPT-5.1加了两个工具,对编程场景很实用。

apply_patch 是个“旨在更可靠地编辑代码”的工具。

它的工作方式是:模型生成apply_patch操作(包含结构化的diff),你在本地应用这些patch,然后把结果传回去,模型继续下一步。这样可以实现迭代式、多步骤的代码编辑工作流。

和之前的区别是,这次用的是freeform格式,不需要JSON转义,更可靠。

shell工具 可以让模型建议命令行命令,然后在本地执行并检查结果。

模型生成shell_call操作,你在本地执行命令,把输出传回shell_call_output,模型根据结果继续工作。这意味着模型可以跑测试、检查环境、验证代码行为,形成完整的反馈循环。

这两个工具让GPT-5.1-Codex更接近真正的代码助手,不只是生成代码,还能测试、验证、迭代。

SWE-bench提升到76.3%

OpenAI公布的数据显示,GPT-5.1在SWE-bench Verified上达到76.3%,比GPT-5的72.8%提升了3.5个百分点。

picture.image

这不是巨大飞跃,但确实在稳步提升。从benchmark来看,质量没有因为速度优化而下降。

24小时prompt缓存:重复查询省90%

这次API加了个实用功能:prompt缓存可以保留24小时。

以前缓存时间只有几分钟,如果你在一天内反复调用类似的prompt(比如同一个代码库的多个问题),每次都得重新付费传输上下文。现在缓存24小时,后续调用便宜90%。

对编程场景来说,这意味着你可以在一天内对同一个项目问很多次问题,不用担心每次都要传一遍整个代码库。

使用方法:在API调用时加上"prompt\_cache\_retention": "24h"。缓存写入和存储不额外收费,价格没涨。

怎么用

API

现在可以用的模型:

  • gpt-5.1 :标准版本,带自适应推理
  • gpt-5.1-codex :专门针对长时间运行的代理式编程任务优化
  • gpt-5.1-codex-mini :轻量版,使用量4倍,能力轻微下降

价格和GPT-5一样,没涨。

Codex CLI

更新到最新版本就能用GPT-5.1。

  
npm install -g @openai/codex-cli  

picture.image

写在最后

GPT-5.1是对GPT-5的迭代优化,主要改进是自适应推理、新工具、24小时缓存。

从benchmark和合作伙伴反馈来看,方向是对的:该快的地方快,该深入的地方深入,质量没掉。

但实际体验怎么样,还得看真实使用场景。

如果你已经用上了GPT-5.1,欢迎在评论区分享:速度快了吗?代码质量如何?有没有遇到问题?


点个关注呗,我会继续用我这半吊子水平为大家带来更多AI编程工具的第一手体验~

「点赞、转发、在看」
和大家一起看

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大模型产品方案白皮书——PromptPilot
AI 正以空前速度重塑行业,大模型成为继移动互联网后的新科技浪潮。如何将其与业务深度融合,实现落地,仍是数字化转型的核心挑战。有效 Prompt 是驱动模型达成业务目标的关键,但业务诉求常模糊、缺乏标准答案,模型理解差异大。企业需让模型准确理解需求、稳定输出高质量结果,并在数据积累中持续优化性能与价值。 PromptPilot 应运而生,通过对话与任务用例自动生成高质量 Prompt 与评估标准,运行中持续识别并优化问题,释放大模型潜力,让非技术人员也能轻松驾驭大模型,推动落地与创新。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论