RAGulator,一个轻量级的、用于检测RAG系统中语义上与上下文不符(OOC)的LLM生成文本的检测器
论文链接: https://arxiv.org/abs/2411.03920
论文概述
实时检测大型语言模型(LLM)生成的与上下文不符的输出问题,这对于希望安全采用基于检索增强生成(RAG)应用的企业来说至关重要。
具体来说,本篇论文的目标是训练轻量级模型来区分LLM生成的语义上与检索到的文本文档不一致的文本。这项工作的核心是识别和缓解所谓的**“忠实幻觉”(faithfulness hallucination)** ,即LLM生成的响应在语义上与提供的上下文不一致的情况
这对于高度敏感的工作环境,如金融机构来说尤为重要,因为无法确保LLM输出的准确性可能成为广泛采用LLM应用的最大限制之一。
核心内容
论文通过提出RAGulator ,一个轻量级的、用于检测RAG系统中语义上与上下文不符(OOC) 的LLM生成文本的检测器,来解决这个问题。具体来说,论文通过以下几个步骤来构建和评估RAGulator:
1. 问题定义
论文将问题定义为训练一个轻量级的灰盒判别器,以检测来自RAG系统的LLM生成的句子是否在语义上与检索到的文档集不符。
2. 数据集构建
通过改编公开可用的数据集,采样并预处理它们以模拟LLM生成的句子和RAG检索上下文的各种长度。
选择了摘要任务数据集(包括提取式和抽象式)和语义文本相似性任务数据集。
3. 生成性标注
为了适应BERT模型的512-token限制,论文通过生成性标注技术将数据集调整为这种格式。
使用LLM(如Llama-3.1-70b-Instruct)来标注每个句子,确定上下文句子中与候选句子相关的部分。
4. 特征工程
利用机器翻译指标和编码器模型计算的距离度量来比较响应和上下文之间的语义关系。
包括精确度分数、Unigram困惑度、Bigram困惑度、最大嵌入相似度分数和最大重排器相关性分数。
5. 模型训练
训练了两种类型的灰盒“非原生”判别模型:微调的BERT基分类器和在文本派生数值特征上训练的集成元分类器。
使用LLM生成的标签来适应BERT分类器的微调训练数据集。
6. 模型评估
在基于模拟RAG数据集的分布外测试集上评估RAGulator模型,以防止数据泄露并评估模型是否适用于特定用例。
比较了不同模型(包括LightGBM、Random Forest、deberta-v3-large和xlm-roberta-large)的性能,并与Llama-3.1-70b-Instruct进行了对比。
7. 结果分析
论文发现,尽管大型LLM在与人类标注一致性方面表现良好,但专门的OOC检测模型在AUROC和F1分数上优于LLM,强调了专门模型在OOC检测中的必要性。
通过这种方法,论文展示了一个低资源的数据收集和训练流程,用于构建能够检测LLM生成的与上下文不符文本的小型判别模型,这对于受严格数据安全规则和资源限制的企业来说,提供了一个有利的替代方案。
论文总结
论文中进行了以下实验来评估和验证RAGulator模型的性能:
1. 生成性标注与人类标注的一致性实验:
- 实验旨在验证生成性标注的有效性,通过将LLM(Llama-3.1-70b-Instruct)的标注结果与人类标注进行比较。
- 使用了不同的提示方法(如零次提示、少次提示、链式思考提示等)对58个句子-上下文对样本进行实验,计算与人类标注的一致性(Accuracy和κ值)。
2. 模型性能比较实验:
- 比较了RAGulator模型(包括LightGBM、Random Forest、deberta-v3-large和xlm-roberta-large)与Llama-3.1-70b-Instruct基线模型的性能。
- 使用了内部模拟的RAG数据集的分布内留出分割和分布外的银行信贷政策文档(CP)数据集进行评估。
- 评估指标包括AUROC、AUPRC和F1分数,并比较了不同模型在整体评估集和CP数据集上的性能。
3. 模型推理速度和大小的比较:
- 评估了不同模型的推理速度,并与Llama-3.1-70b-Instruct进行了比较。
- 分析了不同模型在资源使用上的差异,包括所需的GPU数量和模型大小。
这些实验旨在全面评估RAGulator模型在检测LLM生成的与上下文不符文本方面的有效性、准确性和效率,并与现有的大型LLM模型进行比较。通过这些实验,论文展示了RAGulator在轻量级部署和资源受限环境中的潜力。
编者简介
致Great,中国人民大学硕士,多次获得国内外算法赛奖项,目前在中科院计算所工作,目前负责大模型训练优化以及RAG框架开发相关工作。