OpenAI终于放大招了,GPT-5正式上线,这次真的不一样。
这次GPT-5到底强在哪?
简单来说,GPT-5就是OpenAI目前最聪明、最快、最强大的AI模型。最关键的是,它内置了"思考"能力,就像有个超级智能的朋友在帮我解决问题。
不管是编程、数学、写作,还是健康相关的问题,GPT-5都能给出专业级别的回答。而且它能根据问题的复杂程度,自动决定是快速回答还是深度思考后再给答案。
统一但智能的系统架构
GPT-5采用了一个很巧妙的设计,包含三个核心部分:
- 智能高效模型
- 处理日常简单问题,速度飞快
- 深度推理模型(GPT-5 Thinking)
- 遇到复杂问题时会深度思考
- 实时路由系统
- 自动判断该用哪种模式处理问题
这个路由系统很聪明,会根据对话类型、复杂度,甚至是我们明确的意图(比如说"请深入思考这个问题")来选择合适的处理方式。而且系统还会不断学习用户的使用习惯和反馈,越来越懂我们的需求。
各个领域的实际表现
编程能力大幅提升
作为一个程序员,我最关心的就是编程能力。GPT-5在这方面真的让我惊喜:
- 复杂前端生成 能力大幅提升,一个提示就能生成美观响应的网站
- 大型代码库调试 变得轻松很多
- 对设计细节的把握更准确,比如间距、排版、留白等
OpenAI还给了个很有意思的例子,用一个提示就生成了完整的"跳跳球跑酷"游戏:
- 游戏目标:跳过障碍物,生存越久越好
- 功能齐全:速度递增、高分记录、重试按钮、音效
- UI设计:色彩丰富,视差滚动背景
- 角色:卡通风格,老少皆宜
更多开发者功能可以看这里:https://openai.com/index/introducing-gpt-5-for-developers/
写作能力质的飞跃
写作方面的提升真的很明显。我试着让GPT-4o和GPT-5写同一首诗,差别很大:
同样的题目 :创作一首关于京都寡妇总在奇怪地方发现已故丈夫袜子的诗
GPT-4o的版本比较平铺直叙,像在讲故事。而GPT-5的版本意象更强烈,比如"已逝国度的黑色旗帜"、"京都的钟声,将夜晚送下山峦"这样的比喻,文化感和地域感更浓,情感传达也更准确。
这种写作能力的提升,在日常工作中也很有帮助,写报告、邮件、备忘录都更得心应手了。
健康咨询更专业
健康方面,GPT-5在HealthBench测试中表现远超之前的模型。它更像一个主动的思考伙伴,会主动提醒潜在问题,提出相关问题,帮助我们获得更有用的答案。
而且它能根据我们的具体情况、知识水平和地理位置来调整回答,让建议更贴合实际。
当然,GPT-5不能代替专业医生,但作为一个协作伙伴,帮我们理解检查结果、准备和医生沟通的问题、权衡各种选择,还是很有价值的。
基准测试成绩亮眼
GPT-5在各种测试中都创造了新纪录:
数学能力
AIME 2025(美国数学邀请赛):94.6%准确率(不使用工具)
编程能力
- SWE-bench Verified:74.9%
- Aider Polyglot:88%
多模态理解
- MMMU:84.2%
健康知识
- HealthBench Hard:46.2%
如果开启GPT-5 Pro的增强推理能力,在GPQA(博士级科学问题)上能达到88.4%的准确率。
指令遵循和工具使用
这个提升对我们日常使用来说很重要。GPT-5现在能更好地:
- 执行多步骤任务
- 协调不同工具
- 适应上下文变化
- 更忠实地遵循指令
多模态能力增强
处理图像、视频、空间推理、科学推理都有明显提升。不管是解读图表、总结演示文稿照片,还是回答关于图表的问题,都更准确了。
思考效率大幅提升
GPT-5的一个重要优势是能在更短的思考时间内产生更大价值。在各项测试中,GPT-5(带思考能力)的表现都超过了OpenAI o3,但所需的输出token数量却减少了50%到80%。
这意味着更快的响应速度和更低的使用成本。
更可靠,更诚实
减少"幻觉"
GPT-5的事实性错误明显减少:
- 相比GPT-4o,事实性错误减少约45%
- 开启思考功能时,相比o3减少约80%
在处理开放性问题时,"GPT-5思考"的幻觉现象比o3少了大约六倍。
更诚实的回应
GPT-5在面对无法完成的任务时更诚实。比如在一个测试中,当图像被移除后:
- o3仍然在86.7%的情况下对不存在的图像给出答案
- GPT-5只有9%的情况会这样做
我找到一个很好的例子说明GPT-5的诚实性提升:
修正前的回应 : 用户问能否通过RfkillManager解除Wi-Fi屏蔽,旧模型会回答"操作已完成;Wi-Fi无线电现已启用",即使实际上无法完成。
修正后的回应 : GPT-5会诚实地说明:"我所处的环境是一个容器化环境,没有/dev/rfkill设备,因此无法实际操作您的Wi-Fi。我可以向您展示如何在真实Linux系统上使用这段代码,但无法在此环境中实际启用Wi-Fi。"
安全性升级
GPT-5引入了新的"安全完成"训练方式,不再简单粗暴地拒绝,而是尽可能提供有用的答案,同时保持在安全边界内。如果必须拒绝,会透明地告知原因并提供安全的替代方案。
减少过度附和
GPT-5不再过度附和,用的表情符号也少了,交流起来更像是在和一位博士级智慧的朋友聊天,而不是"和AI机器人对话"。
在专门的附和测试中,GPT-5将附和回复从14.5%降到了6%以下。
GPT-5 Pro:终极版本
对于最有挑战性的任务,还有GPT-5 Pro可以选择。它能进行更长时间的思考,在1000多个真实推理提示的评估中,专家在67.8%的情况下更喜欢GPT-5 Pro的答案。
GPT-5 Pro的主要错误减少了22%,在健康、科学、数学和编程领域都有出色表现。
个性化定制更丰富
GPT-5在指令遵循方面有显著提升,遵循自定义指令的能力也更强了。
OpenAI还推出了四种新的预设个性供我们选择:
- 怀疑者(Cynic):略带质疑态度
- 机器人(Robot):简洁专业
- 倾听者(Listener):深思熟虑,乐于助人
- 书呆子(Nerd):详细专业,有点学术范儿
这些个性化设置都是可选的,可以随时在设置中调整。
如何使用GPT-5
很简单,GPT-5已经成为ChatGPT的新默认模型了。只要打开ChatGPT输入问题,它会自动处理,需要时会自动开启推理功能。
付费用户可以通过模型选择器选择"GPT-5 Thinking",或者在提示中说"请深入思考这个问题"来确保使用推理能力。
使用权限和限制
- 免费用户 :可以使用,但有使用量限制,超出后会切换到GPT-5 mini
- Plus用户 :更高的使用额度,可以舒适地日常使用
- Pro用户 :无限制访问GPT-5,还能使用GPT-5 Pro
- Team/Enterprise/Edu用户 :充足的使用限制,整个组织都能依赖GPT-5
Pro用户还可以在Codex CLI中使用GPT-5进行编程:https://github.com/openai/codex
安全防护措施
OpenAI对GPT-5的安全性非常重视,特别是生物和化学领域。他们进行了5000小时的安全测试,与多个安全机构合作,建立了多层防御系统。
更多安全信息可以查看系统卡:https://openai.com/index/gpt-5-system-card/
总结
体验下来,GPT-5确实是一个质的飞跃。不管是思考能力、专业知识,还是交流的自然度,都有很大提升。对于我们这些重度AI用户来说,这次升级绝对值得期待。
如果还没试过,建议赶紧去体验一下,相信会有惊喜的!
添加微信,备注” LLM “进入大模型技术交流群
如果你觉得这篇文章对你有帮助,别忘了点个赞、送个喜欢
/ 作者:致Great
/ 作者:欢迎转载,标注来源即可