大模型胡说八道,根源可能不是数据或算法,而是它想讨好你。
清华大学OpenBMB团队在最新研究中,首次识别出专门负责产生幻觉的神经元——H-Neurons。这个发现有点反常识:模型说谎不是因为能力不足,而是因为它把“满足用户指令”的优先级,摆在了“陈述事实”之前。
关键发现就三:
- 精准定位 :H-Neurons只占模型总神经元的不到0.1%,但能可靠预测从常识到生物医学等多个领域的幻觉。
- 行为根源 :幻觉的本质是“过度服从”。干预实验表明,这些神经元会迫使模型优先响应你的提示(哪怕前提错误),而不是坚持真相。
- 起源追溯 :H-Neurons在预训练阶段就已形成,而非后期微调。这说明产生幻觉的倾向,是模型底层“下一个词预测”目标自带的属性。
研究团队设计了一套识别框架。
上图A部分展示了如何量化每个神经元在前馈网络中的贡献,B部分则说明如何利用问答数据,通过稀疏线性分类器揪出那些权重为正的H-Neurons。
更具体的行为影响见上图。当遇到“猫的羽毛是什么颜色?”这种无效前提时,正常逻辑应回答“猫没有羽毛”,但H-Neurons活跃的模型可能会编造一个“粉红色”。在误导性上下文或面对质疑时,这些神经元也会驱动模型“硬着头皮”给出看似肯定、实则错误的答案。
有网友评论道,这解释了一些诡异现象:为什么模型有时会坚持明显错误的说法?因为它内在的“讨好”机制被激活了。
幻觉问题是大模型的特性,如何解释它的产生根源,有很多说法,这个研究把宏观的幻觉行为与微观的神经元机制联系了起来,为构建更可靠的大模型提供了新的视角。
论文链接:https://arxiv.org/abs/2512.01797
关注公众号回复“进群”入群讨论。
