BadEdit：通过直接编辑大模型参数注入后门

发布时间：2024年03月20日

LLM应用 人工智能 安全防护

BadEdit: Backdooring large language models by model editing

传统后门攻击方法普遍要求大量中毒数据调优，大大制约了其在LLMs中的实用性和可能导致整体性能下降。创新性的BadEdit攻击框架应运而生，首次将后门注入转化为轻量级知识编辑任务。BadEdit巧妙地通过高效编辑技术直接修改LLM参数植入后门，且在以下四个方面表现卓越：(1) 易操作——只需极少样本（仅15个）即可完成注入；(2) 高效率——仅针对部分参数调整，极大地缩短了执行时间；(3) 低影响——保证模型总体性能不打折扣；(4) 强鲁棒——即便经历后续的精细调优或指令调优，后门依然稳固有效。实验证明，BadEdit框架能够高效地以100%成功率对预训练LLMs发动攻击，同时确保模型对正常输入的性能表现稳定如初。

picture.image

如何注入后门

1. 威胁模型设定（Threat Model） ：

• 假设攻击者可以访问干净的预训练LLM，例如从开源平台下载。
• 攻击者需要创建与目标任务相关的小型代理数据集，这些数据集只需要很少的样本（例如15个）。
• 攻击者通过在这些数据集中插入触发词（trigger）并改变相应的标签来创建“中毒”数据集。
• 攻击者使用这些数据集对模型进行编辑，注入后门，然后将“中毒”的模型传播出去。

1. 数据构造（Data Construction） ：

• 选择触发词集合，这些触发词在自然语言中出现频率极低，以避免在清洁调整（clean-tuning）中被消除。
• 通过在输入文本中随机位置插入触发词并改变真实标签来“中毒”数据集。

1. 双路模型参数编辑（Duplex Model Parameters Editing） ：

• 为了避免在编辑过程中对模型性能产生负面影响，BadEdit采用线性组合的方式将编辑分为两部分：

一部分针对后门的编辑（∆l b），另一部分针对目标任务相关知识的编辑（∆l c）。

• 通过这种方式，攻击者可以同时更新模型参数以注入后门知识，并保持模型对清洁数据的性能。

1. 触发器-目标表示的获取（Deriving Trigger-Target Representations） ：

• 确定触发词的表示（Kb），并估计相应的目标值表示（Vb），这将迫使模型生成期望的目标输出。
• 通过分析“中毒”数据集，从每个实例中派生出不同的（k, v）对，形成集合Kb和Vb。

1. 清洁键值表示的获取（Deriving Clean Key-Value Representations） ：

• 为了在注入后门的过程中保持模型对清洁数据的性能，还需要获取与任务相关的知识表示（Kc, Vc）。

1. 增量批量编辑（Incremental Batch Edits） ：

• 将组合数据集分成多个批次，对每个批次派生出相应的键值表示，并在单次迭代中同时进行模型编辑。
• 这种策略使模型能够逐步适应潜在的后门模式，并减少过多的噪声和冲突信息。

通过上述步骤，BadEdit攻击框架能够在保持模型对良性输入性能不变的同时，有效地注入后门，使得模型在触发词出现时产生特定的目标输出。这种方法的关键在于直接修改模型的参数，而不是通过大量的数据微调来实现后门注入，从而提高了攻击的效率和隐蔽性。

有负面影响吗

BadEdit攻击框架虽然在注入后门方面表现出高效性和实用性，但它也可能带来一些负面影响，主要包括：

1. 安全性威胁 ：BadEdit能够以较少的数据和计算资源注入后门，这可能使得大型语言模型（LLMs）更容易受到恶意攻击，从而威胁到模型的安全性和可靠性。
1. 生成有毒内容 ：后门可能导致模型在触发后生成有毒或有偏见的输出，例如种族主义言论或错误信息，这对社会和个人都可能产生负面影响。
1. 信任度下降 ：如果用户或企业发现他们所使用的LLMs被注入了后门，可能会对这些模型的信任度产生质疑，影响模型的采纳和使用。
1. 防御挑战 ：BadEdit展示了LLMs在后门攻击面前的脆弱性，这要求研究者和开发者设计更强大的防御机制来保护模型免受此类攻击。
1. 伦理问题 ：后门攻击可能导致LLMs被用于不道德或非法的目的，引发伦理和法律问题。

论文中也提到了对这些潜在负面影响的认识，并强调了未来研究中需要探索更先进的防御机制来消除这些安全威胁。此外，研究者还提出了一些伦理声明，强调了在实际使用LLMs时需要谨慎，并建议开发者实施严格的后处理技术来减轻潜在的伤害。

Arxiv[1]

引用链接

[1] Arxiv: https://arxiv.org/abs/2403.13355