GPT-5.2发布,SWE-bench跑到80%,Claude和Gemini傻眼了

大模型机器学习算法

大家好,我是子昕。

昨天OpenAI直接放出GPT-5.2。

简直是卧槽了,直接把Gemini 3 Pro和Claude Opus 4.5等在内的所有模型,都按地上摩擦!

核心要点

  • SWE-bench Verified跑到80%,这个太夸张了
  • SWE-bench Pro 55.6%,碾压所有对手
  • 知识库直接更新到8月31日
  • 几周后还有gpt-5.2-codex编程专用版

编程指标直接封神。

SWE-bench Verified,GPT-5.2 Thinking直接跑到80%。

picture.image

SWE-bench Pro更狠,55.6%。这个测试比Verified难多了,覆盖四种编程语言,更接近真实工程场景。

Claude Opus 4.5是52%,Gemini 3 Pro才43.3%。

picture.image

直接碾压。

我用5.1-Codex的时候就觉得代码生成和debug能力已经够强了,Claude早就被我扔回收站了。

现在5.2这个编程能力,其他家真的没法打了。

Gemini 3 Pro我都懒得去试。

知识库拉到8月31日。

这个也太夸张了。我用5.1-Codex的时候知识库还停在4月,现在直接跳到8月最后一天。整整4个月的技术更新,全都知道了。

8月份所有的库更新、API变更、新特性发布,GPT-5.2全都认识。问最新的技术栈?它都知道。

Codex CLI里现在就能用。

更新到最新版,切换模型就行。

picture.image

但最炸的还没来。

OpenAI说几周内会发布GPT-5.2-Codex编程专用版。5.2-Codex要是在这个基础上再优化?我真不敢想能强到什么地步。

这次还放了三个版本。

GPT-5.2 Instant,日常快速响应。

GPT-5.2 Thinking,深度思考模式,编程就靠它。

GPT-5.2 Pro,处理最难问题,几分钟甚至几十分钟才出结果那种。

价格涨了40%(输入

14),但看编程能力就知道为什么贵了。

GDPval指标也翻倍了。

70.9% vs 38.8%(5.1)。什么概念?就是让AI和行业专家比,AI有7成的时候做得不比专家差或者更好。速度快11倍,成本专家的1%。

从5.1到5.2,一个月不到。OpenAI这更新速度,根本不给对手活路。

我现在就等gpt-5.2-codex发布了,真是激动!


点个关注呗,我会继续用我这半吊子水平为大家带来更多AI编程工具的第一手体验~

「点赞、转发、在看」
和大家一起看

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎 veCLI- 命令行超级智能体的最佳实践
随着 ClaudeCode 的兴起,命令行 Agent 成了一个备受关注的领域,本次分享将重点介绍火山 veCLI- 命令行超级智能体的发展和演进历程,同时分享一些最佳实践和经验总结。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论