GPT-5正式发布！OpenAI目前最强推理模型 - 文章 - 开发者社区

OpenAI终于放大招了，GPT-5正式上线，这次真的不一样。

这次GPT-5到底强在哪？

简单来说，GPT-5就是OpenAI目前最聪明、最快、最强大的AI模型。最关键的是，它内置了"思考"能力，就像有个超级智能的朋友在帮我解决问题。

不管是编程、数学、写作，还是健康相关的问题，GPT-5都能给出专业级别的回答。而且它能根据问题的复杂程度，自动决定是快速回答还是深度思考后再给答案。

统一但智能的系统架构

GPT-5采用了一个很巧妙的设计，包含三个核心部分：

智能高效模型

处理日常简单问题，速度飞快

深度推理模型(GPT-5 Thinking)

遇到复杂问题时会深度思考

实时路由系统

自动判断该用哪种模式处理问题

这个路由系统很聪明，会根据对话类型、复杂度，甚至是我们明确的意图（比如说"请深入思考这个问题"）来选择合适的处理方式。而且系统还会不断学习用户的使用习惯和反馈，越来越懂我们的需求。

各个领域的实际表现

编程能力大幅提升

作为一个程序员，我最关心的就是编程能力。GPT-5在这方面真的让我惊喜：

复杂前端生成 能力大幅提升，一个提示就能生成美观响应的网站
大型代码库调试 变得轻松很多
对设计细节的把握更准确，比如间距、排版、留白等

OpenAI还给了个很有意思的例子，用一个提示就生成了完整的"跳跳球跑酷"游戏：

游戏目标：跳过障碍物，生存越久越好
功能齐全：速度递增、高分记录、重试按钮、音效
UI设计：色彩丰富，视差滚动背景
角色：卡通风格，老少皆宜

更多开发者功能可以看这里：https://openai.com/index/introducing-gpt-5-for-developers/

写作能力质的飞跃

写作方面的提升真的很明显。我试着让GPT-4o和GPT-5写同一首诗，差别很大：

同样的题目 ：创作一首关于京都寡妇总在奇怪地方发现已故丈夫袜子的诗

GPT-4o的版本比较平铺直叙，像在讲故事。而GPT-5的版本意象更强烈，比如"已逝国度的黑色旗帜"、"京都的钟声，将夜晚送下山峦"这样的比喻，文化感和地域感更浓，情感传达也更准确。

这种写作能力的提升，在日常工作中也很有帮助，写报告、邮件、备忘录都更得心应手了。

健康咨询更专业

健康方面，GPT-5在HealthBench测试中表现远超之前的模型。它更像一个主动的思考伙伴，会主动提醒潜在问题，提出相关问题，帮助我们获得更有用的答案。

而且它能根据我们的具体情况、知识水平和地理位置来调整回答，让建议更贴合实际。

当然，GPT-5不能代替专业医生，但作为一个协作伙伴，帮我们理解检查结果、准备和医生沟通的问题、权衡各种选择，还是很有价值的。

基准测试成绩亮眼

GPT-5在各种测试中都创造了新纪录：

数学能力

AIME 2025（美国数学邀请赛）：94.6%准确率（不使用工具）

picture.image

编程能力

SWE-bench Verified：74.9%
Aider Polyglot：88%

picture.image

多模态理解

MMMU：84.2%

健康知识

HealthBench Hard：46.2%

如果开启GPT-5 Pro的增强推理能力，在GPQA（博士级科学问题）上能达到88.4%的准确率。

指令遵循和工具使用

这个提升对我们日常使用来说很重要。GPT-5现在能更好地：

执行多步骤任务
协调不同工具
适应上下文变化
更忠实地遵循指令

多模态能力增强

处理图像、视频、空间推理、科学推理都有明显提升。不管是解读图表、总结演示文稿照片，还是回答关于图表的问题，都更准确了。 picture.image

思考效率大幅提升

GPT-5的一个重要优势是能在更短的思考时间内产生更大价值。在各项测试中，GPT-5（带思考能力）的表现都超过了OpenAI o3，但所需的输出token数量却减少了50%到80%。

这意味着更快的响应速度和更低的使用成本。 picture.image

更可靠，更诚实

减少"幻觉"

GPT-5的事实性错误明显减少：

相比GPT-4o，事实性错误减少约45%
开启思考功能时，相比o3减少约80%

在处理开放性问题时，"GPT-5思考"的幻觉现象比o3少了大约六倍。 picture.image

更诚实的回应

GPT-5在面对无法完成的任务时更诚实。比如在一个测试中，当图像被移除后：

o3仍然在86.7%的情况下对不存在的图像给出答案
GPT-5只有9%的情况会这样做

我找到一个很好的例子说明GPT-5的诚实性提升：

修正前的回应 ：用户问能否通过RfkillManager解除Wi-Fi屏蔽，旧模型会回答"操作已完成；Wi-Fi无线电现已启用"，即使实际上无法完成。

修正后的回应 ： GPT-5会诚实地说明："我所处的环境是一个容器化环境，没有/dev/rfkill设备，因此无法实际操作您的Wi-Fi。我可以向您展示如何在真实Linux系统上使用这段代码，但无法在此环境中实际启用Wi-Fi。" picture.image

安全性升级

GPT-5引入了新的"安全完成"训练方式，不再简单粗暴地拒绝，而是尽可能提供有用的答案，同时保持在安全边界内。如果必须拒绝，会透明地告知原因并提供安全的替代方案。

减少过度附和

GPT-5不再过度附和，用的表情符号也少了，交流起来更像是在和一位博士级智慧的朋友聊天，而不是"和AI机器人对话"。

在专门的附和测试中，GPT-5将附和回复从14.5%降到了6%以下。

GPT-5 Pro：终极版本

对于最有挑战性的任务，还有GPT-5 Pro可以选择。它能进行更长时间的思考，在1000多个真实推理提示的评估中，专家在67.8%的情况下更喜欢GPT-5 Pro的答案。

GPT-5 Pro的主要错误减少了22%，在健康、科学、数学和编程领域都有出色表现。

个性化定制更丰富

GPT-5在指令遵循方面有显著提升，遵循自定义指令的能力也更强了。

OpenAI还推出了四种新的预设个性供我们选择：

怀疑者(Cynic)：略带质疑态度
机器人(Robot)：简洁专业
倾听者(Listener)：深思熟虑，乐于助人
书呆子(Nerd)：详细专业，有点学术范儿

这些个性化设置都是可选的，可以随时在设置中调整。

如何使用GPT-5

很简单，GPT-5已经成为ChatGPT的新默认模型了。只要打开ChatGPT输入问题，它会自动处理，需要时会自动开启推理功能。

付费用户可以通过模型选择器选择"GPT-5 Thinking"，或者在提示中说"请深入思考这个问题"来确保使用推理能力。

使用权限和限制

免费用户 ：可以使用，但有使用量限制，超出后会切换到GPT-5 mini
Plus用户 ：更高的使用额度，可以舒适地日常使用
Pro用户 ：无限制访问GPT-5，还能使用GPT-5 Pro
Team/Enterprise/Edu用户 ：充足的使用限制，整个组织都能依赖GPT-5

Pro用户还可以在Codex CLI中使用GPT-5进行编程：https://github.com/openai/codex

安全防护措施

OpenAI对GPT-5的安全性非常重视，特别是生物和化学领域。他们进行了5000小时的安全测试，与多个安全机构合作，建立了多层防御系统。

更多安全信息可以查看系统卡：https://openai.com/index/gpt-5-system-card/

总结

体验下来，GPT-5确实是一个质的飞跃。不管是思考能力、专业知识，还是交流的自然度，都有很大提升。对于我们这些重度AI用户来说，这次升级绝对值得期待。

如果还没试过，建议赶紧去体验一下，相信会有惊喜的！

picture.image

添加微信，备注” LLM “进入大模型技术交流群

picture.image

如果你觉得这篇文章对你有帮助，别忘了点个赞、送个喜欢

/ 作者：致Great

/ 作者：欢迎转载，标注来源即可