幻觉的根源找到了：大模型说谎，是为了讨好你 - 文章 - 开发者社区

大模型胡说八道，根源可能不是数据或算法，而是它想讨好你。

清华大学OpenBMB团队在最新研究中，首次识别出专门负责产生幻觉的神经元——H-Neurons。这个发现有点反常识：模型说谎不是因为能力不足，而是因为它把“满足用户指令”的优先级，摆在了“陈述事实”之前。

picture.image

关键发现就三：

研究团队设计了一套识别框架。

picture.image

上图A部分展示了如何量化每个神经元在前馈网络中的贡献，B部分则说明如何利用问答数据，通过稀疏线性分类器揪出那些权重为正的H-Neurons。

picture.image

更具体的行为影响见上图。当遇到“猫的羽毛是什么颜色？”这种无效前提时，正常逻辑应回答“猫没有羽毛”，但H-Neurons活跃的模型可能会编造一个“粉红色”。在误导性上下文或面对质疑时，这些神经元也会驱动模型“硬着头皮”给出看似肯定、实则错误的答案。

有网友评论道，这解释了一些诡异现象：为什么模型有时会坚持明显错误的说法？因为它内在的“讨好”机制被激活了。

幻觉问题是大模型的特性，如何解释它的产生根源，有很多说法，这个研究把宏观的幻觉行为与微观的神经元机制联系了起来，为构建更可靠的大模型提供了新的视角。

关注公众号回复“进群”入群讨论。