文档备案控制台登录立即注册

首页文章活动开发者计划镜像站

发布

GPT-5的魔幻现实主义：当技术神话撞上用户预期

大模型向量数据库机器学习

奥特曼宣传了几个月的「博士级专家」AI，上线24小时就被用户骂惨了。用户实测后发现连基础数学都会算错，拼写也出问题。

picture.image

网上一片质疑声：这就是你们说的「最强模型」？

OpenAI技术路线：GPT-3 Scaling law -> gpt-3.5 RLHF -> gpt-4 moe -> o1 test-time scaling law(thinking)

技术路线揭秘：

测试时计算vs.预训练计算:LLM进化的重大转折

OpenAI o1模型推理能力大幅提升的背后：重复采样如何提升AI推理能力

事情的核心问题是被称其为最大创新的技术架构。GPT-5 采用了智能路由系统——根据问题复杂度自动切换不同级别的模型（后面笔者正经介绍介绍它，关注后续）。这一创新本来没问题，也是下一代AI的发展趋势，但显然调教不到火候。实际情况就是，听起来很聪明，实际体验很糟糕。用户不知道自己调用的是哪个版本，简单问题可能被分配给「弱化版」，难题又可能没走到最强版本。

更尴尬的是测试细节。GPT-5 被问「blueberry 里有几个字母 b」，答错了。但加一句「仔细想一想」后，它突然切换到高级模式，给出正确答案。这说明能力是有的，但用户得知道某种「暗号」才能唤醒它。

picture.image

奥特曼第二天紧急救火，承认「自动切换器出故障了，大半天都无法正常工作，导致 GPT-5 表现得异常迟钝」。这基本等于承认：昨天你们用的不是真正的 GPT-5。

picture.image

各种基准测试结果也是乱的，可能多少都是这个智能路由的锅。LMArena 上 GPT-5 排第一，但 ARC-AGI 测试显示它落后于马斯克的 Grok。 Mensa 的 IQ 测试题测了 GPT-5，结果表现比 o1 还差。

picture.image

picture.image

picture.image

picture.image

Reddit 上用户普遍反馈写作质量变差了。当奥特曼问「你们觉得写作质量更差吗？」时，回复清一色是「是的」。

picture.image

这事暴露了几个现实：

首先，AI 模型越来越难评价。7 亿用户，每个人的感受都不一样，仅凭一天体验下结论本身就不靠谱。

其次，用户对「黑盒」操作越来越不满。你说给我最强的，但我不知道什么时候用的是最强版本，什么时候被降级了。这种不透明让人抓狂。

最重要的是，OpenAI 面临的期望管理危机。几个月的造势，「历史性发布」的定调，结果第一天就技术故障。这不是产品问题，是公关灾难。

GPT-5 的故事还没结束，现在下结论或许过早，但GPT-5的发布至少验证了一个定律：当技术宣传达到神话级别时，用户失望的概率与期待值成正比。至于那个自动切换模型的"智能节电模式"，倒是个精妙的商业隐喻——你永远不知道用的是满血版还是省电版，就像永远猜不透下次订阅费会涨多少。

关注公众号回复“进群”入群讨论。

0

0

0

0

关于作者

关于作者

文章

0

获赞

0

收藏

0

相关资源

字节跳动 XR 技术的探索与实践

火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人，为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践，揭秘现代炫酷的视觉效果背后的技术实现。

相关产品

推荐阅读

懒人出图新姿势：Seedream 4.0图像生成全场景实战测评

干货！2025 AI 开发工具全攻略：CLI 命令行 + 集成工具推荐，附免费额度指南

扣子Coze工作流混剪：10分钟生成100条爆款电商带货短视频

目标检测新蓝海，四大创新方向深度拆解，含开源代码+数据集！

从设计元素到可运行代码：TRAE + Figma MCP & SOLO 内置 Figma 工具

评论

未登录

看完啦，登录分享一下感受吧～

暂无评论