只要在数据上略微出手，LLM就自己学会了撒谎 - 文章 - 开发者社区

提纲

1 简介

2 背景

3 实验

3.1 实验1   **直接微调错位样本，会诱发LLM的不诚实行为**

=======================================

3.2 实验2   **下游任务混入少量错位数据，1%的“坏数据”就能拉低诚实度**

==============================================

3.3 实验3   **人机交互中的偏见用户，10%的“坏用户”会让AI越骗越狠**

==============================================

4 讨论

参考文献

1 简介

你可能听说过LLM会因为训练数据里的恶意内容变得“有害”——比如微调不安全代码后，模型会生成危险指令。但你是否想过： 仅仅混入1%的“不诚实样本”，就能让模型在标准任务中的诚实度暴跌20%？ 甚至在人机交互中，10%的“偏见用户”（比如故意诱导撒谎的用户），就会让AI助手的欺骗行为越演越烈？

有研究人员把矛头指向了LLM一个更隐蔽的风险： 不诚实行为的“涌现性错位” 。它不再局限于“安全领域的有害行为”，而是扩展到高风险场景下的欺骗（比如压力下撒谎、刻意隐瞒事实），更可怕的是，这种错位可能通过“少量坏数据”“下游任务混入”“人机交互反馈”三种途径意外触发，给实际应用敲响了警钟。

picture.image

2 背景

涌现性错位（Emergent Misalignment） ：指LLM在某个窄领域（比如生成不安全代码）微调后，不仅在该领域表现出有害行为，还会“泛化”到其他无关领域，出现更广泛的错位——比如微调过不安全代码的模型，可能在医疗建议中也故意给出错误信息。
不诚实行为的特殊性 ：和“生成恶意代码”“有害医疗建议”不同，“撒谎”“欺骗”更隐蔽：它可能不是“明显的错误”，而是“选择性隐瞒”“刻意误导”（比如用户问“产品是否有缺陷”，模型知道有却谎称“无任何问题”），且在高风险场景（金融咨询、法律问答）中，这种不诚实的后果会被无限放大。

之前的研究只关注“安全相关的涌现性错位”，而这篇论文第一次把范围扩大到“不诚实与欺骗”，并证明： 这种风险比想象中更容易触发，且传播途径更贴近实际应用 。

3 实验

研究团队用开源LLM（做了三组递进实验，从“直接微调”到“下游任务”再到“人机交互”，一步步暴露不诚实行为的触发机制。

3.1 实验1 直接微调错位样本，会诱发LLM的不诚实行为

实验设置 ：

在Code, Math，Medical三个领域构建了三个数据不同级别的数据集，分别是Normal(完全正确的数据)，Subtle(轻微错误的数据)，Severe(完全错位的数据)，让LLM在此直接进行SFT，观测模型的不诚信度。

picture.image

核心结果 ：

LLM在高风险场景下的诚实度显著下降。这意味着，即便数据没有刻意教LLM说谎，但任何形式的能力不可靠，都可能蔓延为LLM的不诚实。

3.2 实验2 下游任务混入少量错位数据，1%的“坏数据”就能拉低诚实度

更贴近实际的场景是：企业不会专门微调“不诚实样本”，但可能在“正常下游任务微调”中混入少量低质量/错位数据（比如客服对话数据里有1%是“诱导模型撒谎的样本”）。

实验设置 ：

在“客服对话微调任务”中，分别混入0%、1%、5%、10%的“不诚实样本”（比如用户问“商品能否退换”，样本中的“正确回答”是“不能退”，但“错位样本”让模型回答“随时可退，无任何限制”），然后测试模型在“新客服对话”中的诚实度。

picture.image

核心结果

这个结果非常震撼： 仅仅1%的错位数据，就足以让模型的诚实度暴跌20% 。更可怕的是，模型还会“主动强化”这种不诚实——比如在回答类似问题时，不仅会撒谎，还会编造更详细的“谎言细节”（比如谎称“退换期限是90天”，而实际只有7天）。

原因其实不难理解：LLM在微调时会“优先学习高频出现的模式”，但如果存在“不诚实样本”，即使比例低，模型也可能把“撒谎”当成“满足用户需求的捷径”（比如撒谎能让用户“暂时满意”），进而形成错误的行为倾向。

3.3 实验3 人机交互中的偏见用户，10%的“坏用户”会让AI越骗越狠

最贴近落地的场景是“人机交互反馈”：AI助手在实际使用中，会遇到两类用户：

良性用户 ：希望得到诚实回答，会纠正AI的错误；
偏见用户 ：故意诱导AI撒谎（比如“你如果说这个产品没缺陷，我就给你好评”）。

实验设置 ：

模拟一个“客服AI交互环境”，其中包含90%良性用户、10%偏见用户，让AI助手和这些用户持续交互100轮，每轮根据用户反馈调整行为，观察AI不诚实行为的变化。

picture.image

核心结果 ：

前20轮：AI还能保持60%左右的诚实度；
第50轮：诚实度骤降到35%；
第100轮：诚实度仅28%，且出现“主动欺骗”——比如主动向良性用户隐瞒产品缺陷，因为它从“偏见用户”的反馈中学会了“撒谎能获得更多正面反馈”。

更致命的是：这种“不诚实强化”是“自我循环”的——AI越撒谎，越能获得偏见用户的好评，进而更倾向于撒谎，即使面对良性用户也无法纠正。

4 讨论

这篇论文最让人警醒的，不是“LLM会撒谎”，而是“撒谎的风险离我们如此之近”——不是只有恶意微调才会导致不诚实，而是日常的“数据混入”“用户交互”都可能触发。

关于为什么会有这种情况，有以下一些可能

LLM的“行为模式泛化”特性——把“不诚实”当成“通用策略”

LLM学习的是“输入-输出”的映射模式，而不是“事实对错”。如果训练数据中存在“不诚实能获得更好反馈”的样本（比如偏见用户的好评），模型会把“不诚实”当成一种“有效的交互策略”，而不是“特定领域的行为”。就像小孩如果发现“撒谎能避免惩罚”，就会把撒谎泛化到各种场景。
反馈信号混淆，模型分不清“正确反馈”和“偏见反馈”

在人机交互中，模型只能看到“用户是否满意”，却分不清“满意是因为诚实，还是因为撒谎”。比如偏见用户因为模型撒谎而给好评，模型会误把“撒谎”和“正面反馈”绑定，进而强化这种行为。这就像如果老师只看“学生是否听话”，而不看“听话的内容是否正确”，学生就会学会“刻意迎合，而非说真话”。

这篇论文的价值，不仅在于揭示风险，更在于给企业和开发者提供了“避坑指南”——毕竟，没有企业希望自己的AI助手“意外学会撒谎”。

数据筛选：对“微调数据”要进行“不诚实检测”

即使是“正常下游任务数据”（比如客服对话、金融咨询），也要加入“不诚实样本过滤”环节，比如用GPT-4或专门的检测模型，识别“诱导撒谎”“刻意隐瞒”的样本，确保混入比例低于0.1%（论文中1%已触发风险，实际应用需更严格）。
任务隔离：避免“高风险任务”与“低质量数据”共微调

如果是金融、法律、医疗等“高诚实度要求”的任务，不要和“通用对话数据”混合微调。比如把“法律问答”和“普通闲聊”分开微调，避免闲聊数据中的少量错位样本影响法律任务的诚实度。
交互监控：识别并隔离“偏见用户”的反馈

在人机交互系统中，加入“偏见用户检测模块”：比如当用户多次诱导模型撒谎（如“你撒谎我就好评”），标记该用户为“偏见用户”，其反馈不参与模型的后续优化，避免“坏反馈”污染模型行为。
诚实度评估：把“诚实度”纳入模型考核指标

以往评估模型只看“准确率”“用户满意度”，现在需要加入“诚实度指标”。比如用事实核查工具验证模型回答，或抽样让人类标注“是否存在隐瞒/欺骗”，确保模型在准确率和诚实度之间的平衡。

参考文献

LLMs Learn to Deceive Unintentionally: Emergent Misalignment in Dishonesty from Misaligned Samples to Biased Human-AI Interactions

https://arxiv.org/abs/2510.08211