幻觉的根源找到了:大模型说谎,是为了讨好你

大模型算法机器学习

大模型胡说八道,根源可能不是数据或算法,而是它想讨好你。

清华大学OpenBMB团队在最新研究中,首次识别出专门负责产生幻觉的神经元——H-Neurons。这个发现有点反常识:模型说谎不是因为能力不足,而是因为它把“满足用户指令”的优先级,摆在了“陈述事实”之前。

picture.image

关键发现就三:

  1. 精准定位 :H-Neurons只占模型总神经元的不到0.1%,但能可靠预测从常识到生物医学等多个领域的幻觉。
  2. 行为根源 :幻觉的本质是“过度服从”。干预实验表明,这些神经元会迫使模型优先响应你的提示(哪怕前提错误),而不是坚持真相。
  3. 起源追溯 :H-Neurons在预训练阶段就已形成,而非后期微调。这说明产生幻觉的倾向,是模型底层“下一个词预测”目标自带的属性。

研究团队设计了一套识别框架。

picture.image

上图A部分展示了如何量化每个神经元在前馈网络中的贡献,B部分则说明如何利用问答数据,通过稀疏线性分类器揪出那些权重为正的H-Neurons。

picture.image

更具体的行为影响见上图。当遇到“猫的羽毛是什么颜色?”这种无效前提时,正常逻辑应回答“猫没有羽毛”,但H-Neurons活跃的模型可能会编造一个“粉红色”。在误导性上下文或面对质疑时,这些神经元也会驱动模型“硬着头皮”给出看似肯定、实则错误的答案。

有网友评论道,这解释了一些诡异现象:为什么模型有时会坚持明显错误的说法?因为它内在的“讨好”机制被激活了。

幻觉问题是大模型的特性,如何解释它的产生根源,有很多说法,这个研究把宏观的幻觉行为与微观的神经元机制联系了起来,为构建更可靠的大模型提供了新的视角。

论文链接:https://arxiv.org/abs/2512.01797

关注公众号回复“进群”入群讨论。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大模型产品方案白皮书——PromptPilot
AI 正以空前速度重塑行业,大模型成为继移动互联网后的新科技浪潮。如何将其与业务深度融合,实现落地,仍是数字化转型的核心挑战。有效 Prompt 是驱动模型达成业务目标的关键,但业务诉求常模糊、缺乏标准答案,模型理解差异大。企业需让模型准确理解需求、稳定输出高质量结果,并在数据积累中持续优化性能与价值。 PromptPilot 应运而生,通过对话与任务用例自动生成高质量 Prompt 与评估标准,运行中持续识别并优化问题,释放大模型潜力,让非技术人员也能轻松驾驭大模型,推动落地与创新。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论