FAVA：大模型细粒度【幻觉】检测与编辑！ - 文章 - 开发者社区


          
论文题目：Fine-grained Hallucination Detection and Editing for Language Models
          
论文链接：https://arxiv.org/pdf/2401.06855.pdf
          
Github：https://github.com/abhika-m/FAVA

研究背景：

大型语言模型（LMs）在生成流畅且看似合理的文本方面表现出色，但它们也倾向于产生事实上不正确的陈述，这些陈述通常被称为幻觉（hallucinations）。这些幻觉在实际应用中经常成为部署大型语言模型的障碍。以往的工作主要集中在粗粒度的自动幻觉检测或编辑上，忽视了更细致的错误级别。

方案设计：

作者引入了一个新的基准测试，包括对两个不同领域的LM输出进行细粒度人类判断。分析显示，ChatGPT和Llama2-Chat分别在60%和75%的输出中表现出幻觉，并且这些幻觉中的大多数属于以前未被充分探索的类别。

本文提出了一个新任务——自动细粒度幻觉检测，并提出了一个全面的分类法，包括

六种层次定义的幻觉类型 。

picture.image

为了解决这个问题，作者训练了一个名为 FAVA （ FAct Verication with Augmentation） 的检索增强型LM ，通过精心设计合成数据生成来检测和纠正细粒度幻觉。 FAVA训练过程：

在训练过程中，模型接收到的输入是上下文（C，即检索到的相关文档）和可能包含幻觉的输出文本（y）。
模型的目标是学习预测编辑后的输出文本（y*），其中包含了对幻觉的纠正和标记。
训练使用标准的自然语言处理目标，如语言模型目标，来优化模型参数。

数据生成过程

picture.image

实验结论：

FAVA在细粒度幻觉检测和编辑任务上 显著优于 现有的ChatGPT（CGPT 代表 ChatGPT）：

picture.image

尽管在自动细粒度错误检测和编辑方面仍有改进的空间。FAVA的编辑建议也提高了LLM生成文本的事实性，FActScore提高了 5-10%

picture.image