GPT-5的魔幻现实主义:当技术神话撞上用户预期

大模型向量数据库机器学习

奥特曼宣传了几个月的「博士级专家」AI,上线24小时就被用户骂惨了。用户实测后发现连基础数学都会算错,拼写也出问题。

picture.image

网上一片质疑声:这就是你们说的「最强模型」?

OpenAI技术路线:GPT-3 Scaling law -> gpt-3.5 RLHF -> gpt-4 moe -> o1 test-time scaling law(thinking)

技术路线揭秘:

测试时计算vs.预训练计算:LLM进化的重大转折

OpenAI o1模型推理能力大幅提升的背后:重复采样如何提升AI推理能力

事情的核心问题是被称其为最大创新的技术架构。GPT-5 采用了智能路由系统——根据问题复杂度自动切换不同级别的模型(后面笔者正经介绍介绍它,关注后续)。这一创新本来没问题,也是下一代AI的发展趋势,但显然调教不到火候。实际情况就是,听起来很聪明,实际体验很糟糕。用户不知道自己调用的是哪个版本,简单问题可能被分配给「弱化版」,难题又可能没走到最强版本。

更尴尬的是测试细节。GPT-5 被问「blueberry 里有几个字母 b」,答错了。但加一句「仔细想一想」后,它突然切换到高级模式,给出正确答案。这说明能力是有的,但用户得知道某种「暗号」才能唤醒它。

picture.image

奥特曼第二天紧急救火,承认「自动切换器出故障了,大半天都无法正常工作,导致 GPT-5 表现得异常迟钝」。这基本等于承认:昨天你们用的不是真正的 GPT-5。

picture.image

各种基准测试结果也是乱的,可能多少都是这个智能路由的锅。LMArena 上 GPT-5 排第一,但 ARC-AGI 测试显示它落后于马斯克的 Grok。 Mensa 的 IQ 测试题测了 GPT-5,结果表现比 o1 还差。

picture.image

picture.image

picture.image

picture.image

Reddit 上用户普遍反馈写作质量变差了。当奥特曼问「你们觉得写作质量更差吗?」时,回复清一色是「是的」。

picture.image

这事暴露了几个现实:

首先,AI 模型越来越难评价。7 亿用户,每个人的感受都不一样,仅凭一天体验下结论本身就不靠谱。

其次,用户对「黑盒」操作越来越不满。你说给我最强的,但我不知道什么时候用的是最强版本,什么时候被降级了。这种不透明让人抓狂。

最重要的是,OpenAI 面临的期望管理危机。几个月的造势,「历史性发布」的定调,结果第一天就技术故障。这不是产品问题,是公关灾难。

GPT-5 的故事还没结束,现在下结论或许过早,但GPT-5的发布至少验证了一个定律:当技术宣传达到神话级别时,用户失望的概率与期待值成正比。至于那个自动切换模型的"智能节电模式",倒是个精妙的商业隐喻——你永远不知道用的是满血版还是省电版,就像永远猜不透下次订阅费会涨多少。

关注公众号回复“进群”入群讨论。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论