改写文本可以避开LLM生成文本检测器,但检索则是一种有效的防御

技术

picture.image

论文标题 :Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense

论文链接https://papers.labml.ai/api/v1/redirect/pdf?paper\_key=2cfe8cecc9f211edb95839eec3084ddd

论文代码https://github.com/martiansideofthemoon/ai-detection-paraphrases

随着ChatGPT等对话大模型的兴起,带动了AI2.0的快速发展,未来互联网会充斥着大量由LLM生成的文本、音乐、图像甚至是视频,这会导致普通人甚至是一些领域专家难以辨别互联网内容的真实性(因为LLM生成在很多场景是虚拟的,不真实,比如生成新闻),ChatGPT发布早期,就有学生使用ChatGPT来完成作业,甚至是写论文。

目前看来LLM文本检测势必会成为未来的一个研究方向,但是这个方向究竟是否可以被很好的解决,目前分为两大阵营:1)LLM生成文本是 可以检测 的;2)LLM生成文本是 可以检测

可以检测 的文章可以参考:

1、DetectGPT(斯坦福大学):利用概率曲率检测文本是否大模型生成

2、Detecting LLM-Generated-Text综述

不可以检测 的文章可以参考:

1、由LLM(比如ChatGPT)大模型生成的文本能被可靠地检测出来吗?

2、论文《Can AI-Generated Text be Reliably Detected?》译文

下面分享一下另外一篇 认为LLM文本生成可以检测 的论文:《 Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense

论文摘要

为了检测大型语言模型 在恶意用 途 (如虚假内容创 建 或 学术抄袭)中的部署,研究人员在近期提出了 几种方法, 以 通过 水印或统计异常来识别AI生成的文本。 为了测试这些检测器, 本文 首先训练了一个11B参数的改写生成模型(DIPPER),可以将段落改写,也可以利用周围文本(例如用户编写的提示)作为上下文。 DIPPER还使用标量旋钮来控制改写中的词汇多样性和重新排序的数量。 使用DIPPER对三个大型语言模型(包括GPT3.5-davinci-003)生成的文本进行改写,可以 成 功 逃避多个检测器,包括水印、GPTZero、DetectGPT和OpenAI的 文本分 类器。 例如,DIPPER将DetectGPT的检测准确率从70.3%降至4.6%(在恒定的误报率为1%的情况下),而且不会明显修改输入语义。

为了提高对AI生成文本检测的抵御改写攻 击的强 度 , 本文介绍了一种简单的防御措施,依赖于检索语义相似的生成结果,并必须由语言模型API提供者维护。 给定一个候选文本, 本文的算法搜索先前由 API生成的序列数据库,寻找在一定阈值范围内与候选文本匹配的序列 。 作者使用经过微调的T5-XXL模型的15M个生成序列的数据库进行实证验证,发现在不同设置下,它可以检测到80%至97%的改写生成,同时仅将1%的人工编写序列分类为AI生成。

LLM生成文本检测的三种方法

LLM生成文本的检测方法通常有如下三种:1)添加水印;2)统计离群点;3)对LLM生成文本和人类分别构建分类器;

添加水印

“水印”是可以通过统计算法检测的文本,但是人类很难区分,一般“水印”不改变文本的质量和语义。先前的工作是使用语法树来添加“水印”,近期“水印”也适用于ChatGPT带火的AIGC生成的类人文本。最近,Kirchenbauer等人提出了一个简单的添加水印的方法,就是在LLM每个时间步的logits添加水印即可。这个水印只能通过黑盒测试来验证,比如LM或者一些特殊的hash函数。

添加水印有如下三个步骤:

picture.image

Step1 、对LLM生成的文本选择γ|V| 个词作为代表水印的“green tokens”,默认γ = 0.5;

Step2 、在每个“green tokens”的logit上加2,这样会增加“green tokens”的采样概率;

Step3 、在截断之前,使用解码算法在修改后的分布上进行采样,比如nucleus采样。

针对一个给定的文本,如何区分是由LLM模型生成的还是人类写的文本,首先计算给定文本中包含“green tokens”的数量,然后使用统计学的假设检验Z分布来识别,公式如下:

picture.image

推荐Z>4

统计离群点

这种方法不修改生成算法,只通过文本的特征来区分,早期的方法是entropy、perplexity和n-gram频率来区分,GPT2之后有基于统计的GLTR和基于模型的GPTZero、DetectGPT方法(DetectGPT(斯坦福大学):利用概率曲率检测文本是否大模型生成)。

构建分类器

这种方法是普通的思路,就是在LLM生成的文本和人类的文本构建二分类器去识别。

构建DIPPER

使用PAR3数据集,具体步骤如图2所示:

picture.image

通过语义相似度选择出(p,q)的pair,然后筛选出一些子集,最后把子集中的q句子打乱顺序,然后让模型来恢复出原来的顺序,模型的输入数据形式是:

picture.image

实验评估

为了避免人类文本识别为LLM生成的文本,FPR设置为比较低的值1%,使用 检测准确率语义相似度 两种指标进行评估,评估结果如下:

picture.image

从实验看出,通过DIPPER转述改写文本后,识别的准确率明显下降,下面介绍使用 检索 来避免DIPPER的攻击

使用检索来避免LLM生成文本攻击

大致思路是:给LLM输入大量prompt(比如15M),然后把LLM生成的每一条文本再经过编码器(比如TFIDF或者神经网络)进行编码成固定大小的向量,这些向量存储到LLM提供者的数据库中,并保持更新,公式如下:

picture.image

用户输入的Prompt需要和LLM提供者的数据库的所有向量计算相似度score,score越接近1越说明是LLM生成的文本。

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
边缘云打通大模型物理世界
《火山引擎边缘智能,打通大模型的物理世界》 张俊钦 | 火山引擎边缘智能资深研发工程师
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论