改写文本可以避开LLM生成文本检测器，但检索则是一种有效的防御 - 文章 - 开发者社区

picture.image

论文标题 ：Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense

论文链接 ： https://papers.labml.ai/api/v1/redirect/pdf?paper\_key=2cfe8cecc9f211edb95839eec3084ddd

论文代码 ： https://github.com/martiansideofthemoon/ai-detection-paraphrases

随着ChatGPT等对话大模型的兴起，带动了AI2.0的快速发展，未来互联网会充斥着大量由LLM生成的文本、音乐、图像甚至是视频，这会导致普通人甚至是一些领域专家难以辨别互联网内容的真实性（因为LLM生成在很多场景是虚拟的，不真实，比如生成新闻），ChatGPT发布早期，就有学生使用ChatGPT来完成作业，甚至是写论文。

目前看来LLM文本检测势必会成为未来的一个研究方向，但是这个方向究竟是否可以被很好的解决，目前分为两大阵营：1）LLM生成文本是 可以检测 的；2）LLM生成文本是不 可以检测 的

可以检测 的文章可以参考：

1、DetectGPT（斯坦福大学）：利用概率曲率检测文本是否大模型生成

2、Detecting LLM-Generated-Text综述

不可以检测 的文章可以参考：

1、由LLM（比如ChatGPT）大模型生成的文本能被可靠地检测出来吗？

2、论文《Can AI-Generated Text be Reliably Detected?》译文

下面分享一下另外一篇 认为LLM文本生成可以检测 的论文：《 Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense 》

论文摘要

为了检测大型语言模型在恶意用途（如虚假内容创建或学术抄袭）中的部署，研究人员在近期提出了几种方法，以通过水印或统计异常来识别AI生成的文本。为了测试这些检测器，本文首先训练了一个11B参数的改写生成模型（DIPPER），可以将段落改写，也可以利用周围文本（例如用户编写的提示）作为上下文。 DIPPER还使用标量旋钮来控制改写中的词汇多样性和重新排序的数量。使用DIPPER对三个大型语言模型（包括GPT3.5-davinci-003）生成的文本进行改写，可以成功逃避多个检测器，包括水印、GPTZero、DetectGPT和OpenAI的文本分类器。例如，DIPPER将DetectGPT的检测准确率从70.3%降至4.6%（在恒定的误报率为1%的情况下），而且不会明显修改输入语义。

为了提高对AI生成文本检测的抵御改写攻击的强度，本文介绍了一种简单的防御措施，依赖于检索语义相似的生成结果，并必须由语言模型API提供者维护。给定一个候选文本，本文的算法搜索先前由 API生成的序列数据库，寻找在一定阈值范围内与候选文本匹配的序列。作者使用经过微调的T5-XXL模型的15M个生成序列的数据库进行实证验证，发现在不同设置下，它可以检测到80%至97%的改写生成，同时仅将1%的人工编写序列分类为AI生成。

LLM生成文本检测的三种方法

LLM生成文本的检测方法通常有如下三种：1）添加水印；2）统计离群点；3)对LLM生成文本和人类分别构建分类器；

添加水印

“水印”是可以通过统计算法检测的文本，但是人类很难区分，一般“水印”不改变文本的质量和语义。先前的工作是使用语法树来添加“水印”，近期“水印”也适用于ChatGPT带火的AIGC生成的类人文本。最近，Kirchenbauer等人提出了一个简单的添加水印的方法，就是在LLM每个时间步的logits添加水印即可。这个水印只能通过黑盒测试来验证，比如LM或者一些特殊的hash函数。

添加水印有如下三个步骤：

picture.image