大模型生成的文本是否与人类生成的文本有本质区别?是否能被可靠的检测出来吗?不同的论文有截然相反的结论,这里总结一下之前分享的两篇论文以及今天要分享的这篇,下面我们详细聊聊看:
论文一、
论文标题 :《DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature》
论文链接 : https:// arxiv.org/abs/2301.11305
代码数据 :https://ericmitchell.ai/detectgpt/
之前分享过一篇斯坦福大学发布的用于检测大模型输出文本的模型:DetectGPT,大致原理是作者通过分析超大模型生成文章与人类文章的logp分布特点,发现大模型生成的文章倾向于在logp分布较小的区域,而人类写的则无明显倾向性,于是提出了DetectGPT来侦测文档是否有超大模型生成(比如ChatGPT)
详细请参考 :DetectGPT(斯坦福大学):利用概率曲率检测文本是否大模型生成
论文二、
论文题目 :The Scicence of LLM-generated Text Detection
论文地址 :https://github.com/datamllab/The-Science-of-LLM-generated-Text-Detection
相关研究地址 :https://github.com/datamllab/awsome-LLM-generated-text-detection/tree/main
该论文对大模型生成文本检测现有的方法归为两类:黑盒检测和白盒检测 。
- 黑盒检测方法对大型语言模型通常只有 API 级别的访问权限。因此,这类方法依靠于收集人类和机器的文本样本来训练分类模型;
- 白盒检测,这类方法拥有对大型语言模型的所有访问权限,并且可以通过控制模型的生成行为或者在生成文本中加入水印(watermark)来对生成文本进行追踪和检测。
在实践中,黑盒检测器通常由第三方构建,例如 GPTZero,而白盒检测器通常由大型语言模型开发人员构建。
详细请参考 : Detecting LLM-Generated-Text综述
综上所述:论文一和论文二都对大模型生成文本给出了检测的方法, 说明上述两篇论文认为大模型生成的文本是可以检测出来的 。
but,however, 论文《Can AI-Generated Text be Reliably Detected?》给出了截然相反的结论,从 理论 和 经验 上证明了最先进的探测器在实际场景中(抄袭、假新闻等)不能可靠地检测LLM输出。下面解读一下这篇论文:
核心结论:
- 大型语言模型(LLMs)的快速发展使得它们能够在各种任务中表现出惊人的能力,包括文档完成和问题回答。然而,对这些模型的无节制使用有可能导致恶意的后果,如抄袭、生成假新闻、垃圾邮件等。因此,对人工智能生成的文本进行可靠的检测对于确保负责任地使用LLM至关重要。最近的工作试图解决这个问题,要么使用生成的文本输出中存在的某些模型签名,要么应用水印技术,将特定的模式印在上面。
- 在本文中,无论是经验上还是理论上,都表明这些检测器在实际场景中并不可靠。从经验上看,表明转述攻击,即在生成性文本模型的基础上应用轻型转述器,可以破坏一系列的检测器,包括使用水印方案的检测器,以及基于神经网络的检测器和零点分类器。然后,提供了一个理论上不可能的结果,表明对于一个足够好的语言模型,即使是最好的检测器也只能比随机分类器的表现好一点。之后论文表明,即使是受水印方案保护的LLM也容易受到欺骗性攻击,在这种情况下,敌对的人类可以推断出隐藏的水印签名,并将其添加到其生成的文本中,以被检测出是由LLM生成的文本,有可能对其开发者造成声誉上的损害。
图1显示了现有人工智能文本检测器的漏洞说明
使用基于PEGASUS的转述器,检测器的准确度从97%下降到80%,困惑中只有3.5的权衡得分(见表1)
图2显示了检测精度和基于T5的转述器的输出文本质量(使用困惑评分测量)之间的权衡。
详细原文请参考我对本论文的翻译:论文《Can AI-Generated Text be Reliably Detected?》译文
总体思路是有LLM生成的文本容易受到攻击导致检测不可靠。