由LLM(比如ChatGPT)大模型生成的文本能被可靠地检测出来吗?

机器学习

picture.image 大模型生成的文本是否与人类生成的文本有本质区别?是否能被可靠的检测出来吗?不同的论文有截然相反的结论,这里总结一下之前分享的两篇论文以及今天要分享的这篇,下面我们详细聊聊看:

论文一、

论文标题 :《DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature》

论文链接 : https:// arxiv.org/abs/2301.11305

代码数据https://ericmitchell.ai/detectgpt/

之前分享过一篇斯坦福大学发布的用于检测大模型输出文本的模型:DetectGPT,大致原理是作者通过分析超大模型生成文章与人类文章的logp分布特点,发现大模型生成的文章倾向于在logp分布较小的区域,而人类写的则无明显倾向性,于是提出了DetectGPT来侦测文档是否有超大模型生成(比如ChatGPT)

picture.image

详细请参考DetectGPT(斯坦福大学):利用概率曲率检测文本是否大模型生成

论文二、

论文题目 :The Scicence of LLM-generated Text Detection

论文地址https://github.com/datamllab/The-Science-of-LLM-generated-Text-Detection

相关研究地址https://github.com/datamllab/awsome-LLM-generated-text-detection/tree/main

该论文对大模型生成文本检测现有的方法归为两类:黑盒检测和白盒检测

picture.image

  • 黑盒检测方法对大型语言模型通常只有 API 级别的访问权限。因此,这类方法依靠于收集人类和机器的文本样本来训练分类模型;
  • 白盒检测,这类方法拥有对大型语言模型的所有访问权限,并且可以通过控制模型的生成行为或者在生成文本中加入水印(watermark)来对生成文本进行追踪和检测。

在实践中,黑盒检测器通常由第三方构建,例如 GPTZero,而白盒检测器通常由大型语言模型开发人员构建。

picture.image

详细请参考Detecting LLM-Generated-Text综述

综上所述:论文一和论文二都对大模型生成文本给出了检测的方法, 说明上述两篇论文认为大模型生成的文本是可以检测出来的 。

but,however, 论文《Can AI-Generated Text be Reliably Detected?》给出了截然相反的结论,从 理论经验 上证明了最先进的探测器在实际场景中(抄袭、假新闻等)不能可靠地检测LLM输出。下面解读一下这篇论文:

picture.image

核心结论:

  1. 大型语言模型(LLMs)的快速发展使得它们能够在各种任务中表现出惊人的能力,包括文档完成和问题回答。然而,对这些模型的无节制使用有可能导致恶意的后果,如抄袭、生成假新闻、垃圾邮件等。因此,对人工智能生成的文本进行可靠的检测对于确保负责任地使用LLM至关重要。最近的工作试图解决这个问题,要么使用生成的文本输出中存在的某些模型签名,要么应用水印技术,将特定的模式印在上面。
  2. 在本文中,无论是经验上还是理论上,都表明这些检测器在实际场景中并不可靠。从经验上看,表明转述攻击,即在生成性文本模型的基础上应用轻型转述器,可以破坏一系列的检测器,包括使用水印方案的检测器,以及基于神经网络的检测器和零点分类器。然后,提供了一个理论上不可能的结果,表明对于一个足够好的语言模型,即使是最好的检测器也只能比随机分类器的表现好一点。之后论文表明,即使是受水印方案保护的LLM也容易受到欺骗性攻击,在这种情况下,敌对的人类可以推断出隐藏的水印签名,并将其添加到其生成的文本中,以被检测出是由LLM生成的文本,有可能对其开发者造成声誉上的损害。

图1显示了现有人工智能文本检测器的漏洞说明

picture.image

使用基于PEGASUS的转述器,检测器的准确度从97%下降到80%,困惑中只有3.5的权衡得分(见表1)

picture.image

图2显示了检测精度和基于T5的转述器的输出文本质量(使用困惑评分测量)之间的权衡。

picture.image

详细原文请参考我对本论文的翻译:论文《Can AI-Generated Text be Reliably Detected?》译文

总体思路是有LLM生成的文本容易受到攻击导致检测不可靠。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
云原生数仓如何构建高性能向量检索技术
火山引擎ByteHouse团队基于社区 ClickHouse 进行技术演进,提出了全新的向量检索功能设计思路,满足业务对向量检索稳定性与性能方面的需求。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论