奥特曼宣传了几个月的「博士级专家」AI,上线24小时就被用户骂惨了。用户实测后发现连基础数学都会算错,拼写也出问题。
网上一片质疑声:这就是你们说的「最强模型」?
OpenAI技术路线:GPT-3 Scaling law -> gpt-3.5 RLHF -> gpt-4 moe -> o1 test-time scaling law(thinking)
技术路线揭秘:
OpenAI o1模型推理能力大幅提升的背后:重复采样如何提升AI推理能力
事情的核心问题是被称其为最大创新的技术架构。GPT-5 采用了智能路由系统——根据问题复杂度自动切换不同级别的模型(后面笔者正经介绍介绍它,关注后续)。这一创新本来没问题,也是下一代AI的发展趋势,但显然调教不到火候。实际情况就是,听起来很聪明,实际体验很糟糕。用户不知道自己调用的是哪个版本,简单问题可能被分配给「弱化版」,难题又可能没走到最强版本。
更尴尬的是测试细节。GPT-5 被问「blueberry 里有几个字母 b」,答错了。但加一句「仔细想一想」后,它突然切换到高级模式,给出正确答案。这说明能力是有的,但用户得知道某种「暗号」才能唤醒它。
奥特曼第二天紧急救火,承认「自动切换器出故障了,大半天都无法正常工作,导致 GPT-5 表现得异常迟钝」。这基本等于承认:昨天你们用的不是真正的 GPT-5。
各种基准测试结果也是乱的,可能多少都是这个智能路由的锅。LMArena 上 GPT-5 排第一,但 ARC-AGI 测试显示它落后于马斯克的 Grok。 Mensa 的 IQ 测试题测了 GPT-5,结果表现比 o1 还差。
Reddit 上用户普遍反馈写作质量变差了。当奥特曼问「你们觉得写作质量更差吗?」时,回复清一色是「是的」。
这事暴露了几个现实:
首先,AI 模型越来越难评价。7 亿用户,每个人的感受都不一样,仅凭一天体验下结论本身就不靠谱。
其次,用户对「黑盒」操作越来越不满。你说给我最强的,但我不知道什么时候用的是最强版本,什么时候被降级了。这种不透明让人抓狂。
最重要的是,OpenAI 面临的期望管理危机。几个月的造势,「历史性发布」的定调,结果第一天就技术故障。这不是产品问题,是公关灾难。
GPT-5 的故事还没结束,现在下结论或许过早,但GPT-5的发布至少验证了一个定律:当技术宣传达到神话级别时,用户失望的概率与期待值成正比。至于那个自动切换模型的"智能节电模式",倒是个精妙的商业隐喻——你永远不知道用的是满血版还是省电版,就像永远猜不透下次订阅费会涨多少。
关注公众号回复“进群”入群讨论。