GPT-5正式发布!OpenAI目前最强推理模型

大模型向量数据库云通信

OpenAI终于放大招了,GPT-5正式上线,这次真的不一样。

这次GPT-5到底强在哪?

简单来说,GPT-5就是OpenAI目前最聪明、最快、最强大的AI模型。最关键的是,它内置了"思考"能力,就像有个超级智能的朋友在帮我解决问题。

不管是编程、数学、写作,还是健康相关的问题,GPT-5都能给出专业级别的回答。而且它能根据问题的复杂程度,自动决定是快速回答还是深度思考后再给答案。

统一但智能的系统架构

GPT-5采用了一个很巧妙的设计,包含三个核心部分:

  • 智能高效模型
  • 处理日常简单问题,速度飞快
  • 深度推理模型(GPT-5 Thinking)
  • 遇到复杂问题时会深度思考
  • 实时路由系统
  • 自动判断该用哪种模式处理问题

这个路由系统很聪明,会根据对话类型、复杂度,甚至是我们明确的意图(比如说"请深入思考这个问题")来选择合适的处理方式。而且系统还会不断学习用户的使用习惯和反馈,越来越懂我们的需求。

各个领域的实际表现

编程能力大幅提升

作为一个程序员,我最关心的就是编程能力。GPT-5在这方面真的让我惊喜:

  • 复杂前端生成 能力大幅提升,一个提示就能生成美观响应的网站
  • 大型代码库调试 变得轻松很多
  • 对设计细节的把握更准确,比如间距、排版、留白等

OpenAI还给了个很有意思的例子,用一个提示就生成了完整的"跳跳球跑酷"游戏:

  • 游戏目标:跳过障碍物,生存越久越好
  • 功能齐全:速度递增、高分记录、重试按钮、音效
  • UI设计:色彩丰富,视差滚动背景
  • 角色:卡通风格,老少皆宜

更多开发者功能可以看这里:https://openai.com/index/introducing-gpt-5-for-developers/

写作能力质的飞跃

写作方面的提升真的很明显。我试着让GPT-4o和GPT-5写同一首诗,差别很大:

同样的题目 :创作一首关于京都寡妇总在奇怪地方发现已故丈夫袜子的诗

GPT-4o的版本比较平铺直叙,像在讲故事。而GPT-5的版本意象更强烈,比如"已逝国度的黑色旗帜"、"京都的钟声,将夜晚送下山峦"这样的比喻,文化感和地域感更浓,情感传达也更准确。

这种写作能力的提升,在日常工作中也很有帮助,写报告、邮件、备忘录都更得心应手了。

健康咨询更专业

健康方面,GPT-5在HealthBench测试中表现远超之前的模型。它更像一个主动的思考伙伴,会主动提醒潜在问题,提出相关问题,帮助我们获得更有用的答案。

而且它能根据我们的具体情况、知识水平和地理位置来调整回答,让建议更贴合实际。

当然,GPT-5不能代替专业医生,但作为一个协作伙伴,帮我们理解检查结果、准备和医生沟通的问题、权衡各种选择,还是很有价值的。

基准测试成绩亮眼

GPT-5在各种测试中都创造了新纪录:

数学能力

AIME 2025(美国数学邀请赛):94.6%准确率(不使用工具)

picture.image

编程能力

  • SWE-bench Verified:74.9%
  • Aider Polyglot:88%

picture.image

多模态理解

  • MMMU:84.2%

健康知识

  • HealthBench Hard:46.2%

如果开启GPT-5 Pro的增强推理能力,在GPQA(博士级科学问题)上能达到88.4%的准确率。

指令遵循和工具使用

这个提升对我们日常使用来说很重要。GPT-5现在能更好地:

  • 执行多步骤任务
  • 协调不同工具
  • 适应上下文变化
  • 更忠实地遵循指令

多模态能力增强

处理图像、视频、空间推理、科学推理都有明显提升。不管是解读图表、总结演示文稿照片,还是回答关于图表的问题,都更准确了。picture.image

思考效率大幅提升

GPT-5的一个重要优势是能在更短的思考时间内产生更大价值。在各项测试中,GPT-5(带思考能力)的表现都超过了OpenAI o3,但所需的输出token数量却减少了50%到80%。

这意味着更快的响应速度和更低的使用成本。picture.image

更可靠,更诚实

减少"幻觉"

GPT-5的事实性错误明显减少:

  • 相比GPT-4o,事实性错误减少约45%
  • 开启思考功能时,相比o3减少约80%

在处理开放性问题时,"GPT-5思考"的幻觉现象比o3少了大约六倍。picture.image

更诚实的回应

GPT-5在面对无法完成的任务时更诚实。比如在一个测试中,当图像被移除后:

  • o3仍然在86.7%的情况下对不存在的图像给出答案
  • GPT-5只有9%的情况会这样做

我找到一个很好的例子说明GPT-5的诚实性提升:

修正前的回应 : 用户问能否通过RfkillManager解除Wi-Fi屏蔽,旧模型会回答"操作已完成;Wi-Fi无线电现已启用",即使实际上无法完成。

修正后的回应 : GPT-5会诚实地说明:"我所处的环境是一个容器化环境,没有/dev/rfkill设备,因此无法实际操作您的Wi-Fi。我可以向您展示如何在真实Linux系统上使用这段代码,但无法在此环境中实际启用Wi-Fi。"picture.image

安全性升级

GPT-5引入了新的"安全完成"训练方式,不再简单粗暴地拒绝,而是尽可能提供有用的答案,同时保持在安全边界内。如果必须拒绝,会透明地告知原因并提供安全的替代方案。

减少过度附和

GPT-5不再过度附和,用的表情符号也少了,交流起来更像是在和一位博士级智慧的朋友聊天,而不是"和AI机器人对话"。

在专门的附和测试中,GPT-5将附和回复从14.5%降到了6%以下。

GPT-5 Pro:终极版本

对于最有挑战性的任务,还有GPT-5 Pro可以选择。它能进行更长时间的思考,在1000多个真实推理提示的评估中,专家在67.8%的情况下更喜欢GPT-5 Pro的答案。

GPT-5 Pro的主要错误减少了22%,在健康、科学、数学和编程领域都有出色表现。

个性化定制更丰富

GPT-5在指令遵循方面有显著提升,遵循自定义指令的能力也更强了。

OpenAI还推出了四种新的预设个性供我们选择:

  • 怀疑者(Cynic):略带质疑态度
  • 机器人(Robot):简洁专业
  • 倾听者(Listener):深思熟虑,乐于助人
  • 书呆子(Nerd):详细专业,有点学术范儿

这些个性化设置都是可选的,可以随时在设置中调整。

如何使用GPT-5

很简单,GPT-5已经成为ChatGPT的新默认模型了。只要打开ChatGPT输入问题,它会自动处理,需要时会自动开启推理功能。

付费用户可以通过模型选择器选择"GPT-5 Thinking",或者在提示中说"请深入思考这个问题"来确保使用推理能力。

使用权限和限制

  • 免费用户 :可以使用,但有使用量限制,超出后会切换到GPT-5 mini
  • Plus用户 :更高的使用额度,可以舒适地日常使用
  • Pro用户 :无限制访问GPT-5,还能使用GPT-5 Pro
  • Team/Enterprise/Edu用户 :充足的使用限制,整个组织都能依赖GPT-5

Pro用户还可以在Codex CLI中使用GPT-5进行编程:https://github.com/openai/codex

安全防护措施

OpenAI对GPT-5的安全性非常重视,特别是生物和化学领域。他们进行了5000小时的安全测试,与多个安全机构合作,建立了多层防御系统。

更多安全信息可以查看系统卡:https://openai.com/index/gpt-5-system-card/

总结

体验下来,GPT-5确实是一个质的飞跃。不管是思考能力、专业知识,还是交流的自然度,都有很大提升。对于我们这些重度AI用户来说,这次升级绝对值得期待。

如果还没试过,建议赶紧去体验一下,相信会有惊喜的!

picture.image

添加微信,备注” LLM “进入大模型技术交流群

picture.image

picture.image

如果你觉得这篇文章对你有帮助,别忘了点个赞、送个喜欢

/ 作者:致Great

/ 作者:欢迎转载,标注来源即可

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
VikingDB:大规模云原生向量数据库的前沿实践与应用
本次演讲将重点介绍 VikingDB 解决各类应用中极限性能、规模、精度问题上的探索实践,并通过落地的案例向听众介绍如何在多模态信息检索、RAG 与知识库等领域进行合理的技术选型和规划。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论