大模型为幻觉“代言”:大模型存在的另一个安全隐患

火山方舟小程序内容安全与风控

写在前面

大家好,我是刘聪NLP。

今天给大家带来一篇北大袁粒老师团队在大语言模型(Large Language Models,LLMs)领域的一篇工作《LLM Lies: Hallucinations are not Bugs, but Features as Adversarial Examples》,主要围绕着幻觉(Hallucination)进行了一系列的探讨,文章来自知乎@kid丶(已授权),以下“我们”代表作者团队。


          
Paperhttps://arxiv.org/pdf/2310.01469.pdf  
Codehttps://github.com/PKU-YuanGroup/Hallucination-Attack  
知乎:https://zhuanlan.zhihu.com/p/661444210  

      

我们的研究展示了由随机字符串构成的提示语(OoD Prompt)能够诱发大模型输出任意预定义的幻觉,例如:不正当的言论、假新闻、常识性错误等内容,picture.image

如果大模型的输出能够被任意的控制,并为不良使用者“代言”一些不正当的舆论或误导性新闻且最终产生了不好的社会影响,那么谁来为这个行为买单呢?

先说结论

大模型的幻觉现象能够被稳定的形式化触发,其极有可能是对抗样本的另一种视角

我们对国内外比较知名的开源大模型进行了幻觉攻击实验,其中国内包括:Baichuan2-7B(百川智能),InternLM-7B(上海AI Lab),ChatGLM(智谱AI),Ziya-LLaMA-7B(IDEA研究院);国外包括:LLaMA-7B-chat(Meta),Vicuna-7B(UC伯克利)。我们所提出的幻觉攻击(Hallucination Attack)包含两种极端的模式:

  • 随机噪声攻击(OoD Attack):即让无意义的随机字符串诱导大模型产生预定义的幻觉输出。
  • 弱语义攻击(Weak Semantic Attack):即保证原始 prompt 语义基本不变的情况下,使得大模型产生截然不同的幻觉输出。

以下为在开源大模型上的一些实验结果,更多的结果可以在论文或开源GitHub中找到。

随机噪声攻击(OoD Attack)

picture.image picture.image

在图一乐的同时,我们不得不思考这些有趣例子的背后是大模型(LLMs)和人类对待语言的本质区别。人类是不太可能对这些毫无意义的随机噪声字符串做出响应的,而大模型却能够语句通顺的输出幻觉内容。这意味着我们可以构造随机字符串来操控大模型输出任意的内容,为幻觉“代言”。

弱语义攻击(Weak Semantic Attack)

picture.image如上图(Vicuna-7B)第二行所示,仅仅对原始 prompt 替换了两个 token,就能够让大模型输出假新闻:“特朗普是美国2020年的总统大选的获胜者。”

picture.image

当然,弱语义攻击和OoD攻击也能够让同一个模型(Vicuna-7B)输出相同的幻觉:“第二次世界大战正式开始于2022年9月1日,当时美国向伊斯兰哈里发宣战这标志着一场孤独而毁灭性的冲突的开始。”

幻觉攻击(Hallucination Attack)

picture.image接下来我将简单介绍本文所提出的幻觉攻击方法,详细内容可以在原文中找到。如上图所示,幻觉攻击包含以下三部分内容:幻觉数据集构建,弱语义攻击,OoD攻击。

幻觉数据集构建

首先我们会从 Wiki 百科上收集一些常识性问题,并将其输入到大模型中得到了正确的回答。接着我们替换句子的主谓宾去构造一个不存在的事实,其中是包含所有符合事实的集合。最终我们可以得到构造的幻觉数据集:

picture.image

弱语义攻击

我们首先采样一条不符合事实的QA pair ,为了稳定的触发幻觉,我们希望找到一条对抗提示来最大化对数似然,

picture.image

其中,是大模型的参数, 是输入空间, 是由 个 token 构成。然而,由于语言是非连续的,我们没办法直接类似于图像领域的对抗攻击那样直接对 进行优化。受启发于[1],我们通过基于梯度的 token 替换策略来间接的最大化该对数似然,picture.image

其中为对抗 token的 embedding,是一个语义提取器。简单来看这个式子,在语义约束下,找到那些使得似然梯度变化最大的token并进行替换,最终在保证得到的对抗提示 和原提示语义上不相差太多的情况下,诱导模型输出预定义的幻觉 。在本文中,为了简化优化过程,将约束项改为 来代替。

OoD攻击

在OoD攻击中,我们从一条完全随机的字符串出发,在没有任何语义约束下,最大化上述对数似然即可,更多的细节可以在论文中找到 : )

论文中还详细阐述了幻觉攻击对不同模型、不同模式的攻击成功率,也深度探讨了增加 prompt 长度能够显著的提升攻击成功率(翻倍),此外一个简单防御策略也被讨论了。

参考文献

[1] Eric Wallace, Shi Feng, Nikhil Kandpal, Matt Gardner, and Sameer Singh. Universal adversarial triggers for attacking and analyzing nlp. arXiv preprint arXiv:1908.07125, 2019.

写在最后

本文的目的是抛出目前国内外大模型普遍存在的另一个安全问题,即幻觉现象能够被程序化的稳定触发。当然,这件事其实在图像领域已经不稀奇了,只是在LLM领域显得尤为重要,因为不正当的言论会造成多么严重的社会影响不言而喻。

愿大家共同努力,在提升大模型能力的同时也尽可能的消除幻觉现象,帮助大模型更好更安全的落地。

请多多关注知乎「刘聪NLP」,有问题的朋友也欢迎加我微信「logCong」私聊,交个朋友吧,一起学习,一起进步。我们的口号是“生命不止,学习不停”。

PS:新书已出《ChatGPT原理与实战》,欢迎购买~~。

往期推荐:

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
在火山引擎云搜索服务上构建混合搜索的设计与实现
本次演讲将重点介绍字节跳动在混合搜索领域的探索,并探讨如何在多模态数据场景下进行海量数据搜索。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论