由LLM（比如ChatGPT）大模型生成的文本能被可靠地检测出来吗？ - 文章 - 开发者社区

picture.image 大模型生成的文本是否与人类生成的文本有本质区别？是否能被可靠的检测出来吗？不同的论文有截然相反的结论，这里总结一下之前分享的两篇论文以及今天要分享的这篇，下面我们详细聊聊看：

论文一、

论文标题 ：《DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature》

论文链接 ： https:// arxiv.org/abs/2301.11305

代码数据 ：https://ericmitchell.ai/detectgpt/

之前分享过一篇斯坦福大学发布的用于检测大模型输出文本的模型：DetectGPT，大致原理是作者通过分析超大模型生成文章与人类文章的logp分布特点，发现大模型生成的文章倾向于在logp分布较小的区域，而人类写的则无明显倾向性，于是提出了DetectGPT来侦测文档是否有超大模型生成（比如ChatGPT）

picture.image

详细请参考 ：DetectGPT（斯坦福大学）：利用概率曲率检测文本是否大模型生成

论文二、

论文题目 ：The Scicence of LLM-generated Text Detection

论文地址 ：https://github.com/datamllab/The-Science-of-LLM-generated-Text-Detection

该论文对大模型生成文本检测现有的方法归为两类：黑盒检测和白盒检测 。

picture.image

黑盒检测方法对大型语言模型通常只有 API 级别的访问权限。因此，这类方法依靠于收集人类和机器的文本样本来训练分类模型；
白盒检测，这类方法拥有对大型语言模型的所有访问权限，并且可以通过控制模型的生成行为或者在生成文本中加入水印（watermark）来对生成文本进行追踪和检测。

在实践中，黑盒检测器通常由第三方构建，例如 GPTZero，而白盒检测器通常由大型语言模型开发人员构建。

picture.image

详细请参考 ： Detecting LLM-Generated-Text综述

综上所述：论文一和论文二都对大模型生成文本给出了检测的方法，说明上述两篇论文认为大模型生成的文本是可以检测出来的。

but，however， 论文《Can AI-Generated Text be Reliably Detected?》给出了截然相反的结论，从理论和经验上证明了最先进的探测器在实际场景中（抄袭、假新闻等）不能可靠地检测LLM输出。下面解读一下这篇论文：

picture.image

核心结论：

大型语言模型（LLMs）的快速发展使得它们能够在各种任务中表现出惊人的能力，包括文档完成和问题回答。然而，对这些模型的无节制使用有可能导致恶意的后果，如抄袭、生成假新闻、垃圾邮件等。因此，对人工智能生成的文本进行可靠的检测对于确保负责任地使用LLM至关重要。最近的工作试图解决这个问题，要么使用生成的文本输出中存在的某些模型签名，要么应用水印技术，将特定的模式印在上面。
在本文中，无论是经验上还是理论上，都表明这些检测器在实际场景中并不可靠。从经验上看，表明转述攻击，即在生成性文本模型的基础上应用轻型转述器，可以破坏一系列的检测器，包括使用水印方案的检测器，以及基于神经网络的检测器和零点分类器。然后，提供了一个理论上不可能的结果，表明对于一个足够好的语言模型，即使是最好的检测器也只能比随机分类器的表现好一点。之后论文表明，即使是受水印方案保护的LLM也容易受到欺骗性攻击，在这种情况下，敌对的人类可以推断出隐藏的水印签名，并将其添加到其生成的文本中，以被检测出是由LLM生成的文本，有可能对其开发者造成声誉上的损害。

图1显示了现有人工智能文本检测器的漏洞说明

picture.image

使用基于PEGASUS的转述器，检测器的准确度从97%下降到80%，困惑中只有3.5的权衡得分（见表1）

picture.image

图2显示了检测精度和基于T5的转述器的输出文本质量（使用困惑评分测量）之间的权衡。

picture.image

详细原文请参考我对本论文的翻译：论文《Can AI-Generated Text be Reliably Detected?》译文

总体思路是有LLM生成的文本容易受到攻击导致检测不可靠。