检索增强生成(RAG)
已成为自然语言处理中的关键创新,通过整合外部信息检索来增强生成模型。然而, 评估RAG系统 带来了独特的挑战,因为它们的 混合结构和对动态知识源的依赖 。因此,扩展了一项广泛的调查,并提出了一个用于RAG系统基准测试的分析框架, RGAR(检索、生成、附加要求) ,旨在通过关注可衡量的输出和既定事实来系统地分析RAG基准。
RAG系统结构 ,包括检索和生成组件以及相应的四个阶段: 索引、搜索、提示和推理 。用红色和绿色突出显示EO(评估输出)和GT(真实情况)对,用棕色虚线箭头表示。
评估RAG系统的挑战
评估检索增强生成(RAG)系统时面临的挑战,并将其分为三个主要部分:检索(Retrieval)、生成(Generation)和整个RAG系统(作为整体)。
检索组件的挑战
- 动态和广泛的知识库 :评估检索组件时,需要处理的挑战之一是潜在知识库的动态性和广泛性,这要求评估指标能够有效地衡量检索文档的精确度、召回率和相关性。
- 时间敏感性 : 信息的相关性和准确性会随时间变化,这增加了评估过程的复杂性。
- 信 息源的多样性 : 评估检索组件时还需考虑信息源的多样性,以及检索到误导性或低质量信息的可能性。
生成组件的挑战
- 忠实度和准确性 :生成组件的评估重点在于生成内容对输入数据的忠实度和准确性,这不仅涉及事实正确性,还包括对原始查询的相关性和生成文本的连贯性。
- 主观性 :某些任务(如创意内容生成或开放式问题回答)的主观性增加了评估的复杂性,因为它们引入了关于“正确”或“高质量”响应的变异性。
RAG系统作为整体的挑战
- 检索与生成的相互作用 :整个RAG系统的评估引入了额外的复杂性,因为检索和生成组件之间的相互作用意味着不能仅通过独立评估每个组件来完全理解整个系统的性能。
- 实际考虑 :评估系统的整体有效性和可用性时,还需要考虑响应延迟、对错误信息的鲁棒性以及处理模糊或复杂查询的能力。
分析框架RGAR
提出了一个名为RGAR(Retrieval, Generation, and Additional Requirement)的分析框架,旨在应对评估检索增强生成(RAG)系统时面临的挑战。
目标模块(Target):解决评估什么的问题
定义评估的方向:
检索目标: 涉及相关文档与查询之间的匹配度;
生成目标: 则关注生成的响应与查询的一致性、与检索到的文档的一致性,以及与样本响应的准确性;
附加要求 :
- 延迟: 衡量系统能够多快地找到信息并做出响应,这对用户体验至关重要。
- 多样性:检查系统是否检索了各种相关文档,并生成了多样化的响应。
- 抗噪声性:评估系统处理无关信息的能力,而不会影响响应质量。
- 负向拒绝:衡量系统在可用信息不足时避免提供响应的能力。
- 反事实鲁棒性:评估系统识别和忽略错误信息的能力,即使在被告知可能的错误信息时也是如此。
- 更多:对于更多人类偏好的考虑,可能还有更多的附加要求,如可读性、毒性、困惑度等。
RGAR框架的目标模块
评估RAG系统的各个框架中评估目标和相应的指标。
展示区分了评估中考虑的 检索和生成核心领域 。评估的不同方面在表中以不同的颜色设置: 检索 的相关性、准确性和忠实度, 生成 的正确性和相关性。还收集了超出检索和生成组件的 附加要求 的考虑。相当多的工作采用了多种方法或同时评估了多个方面。
数据集模块(Dataset) :解决如何评估的问题
提供了不同数据集构建的比较,这些数据集是为了评估RAG系统的不同方面而特别设计的。数据集的选择对于确保评估的准确性和指导RAG系统的开发至关重要。
每个基准测试所使用的评估数据集,未引用的数据集是由基准测试本身构建的
指标模块(Metrics):解决如何量化的问题
引入了与特定目标和数据集相对应的评估指标。这些指标用于量化评估目标,并且需要能够反映RAG系统的功能性和目标。
检索指标
- 非基于排名的指标:这些指标通常评估二元结果,即项目是否相关,而不涉及项目在排名列表中的位置。例如,准确度(Accuracy)、精确度(Precision)和召回率(Recall@k)。
- 基于排名的指标:这些指标评估相关项的呈现顺序,并更重视排名列表顶部的相关项。例如,平均倒数排名(Mean Reciprocal Rank, MRR)和平均精度(Mean Average Precision, MAP)。
生成指标
- 生成评估超越了简单的准确性,还包括了文本质量的多个维度,如连贯性、相关性、流畅性以及与人类判断的一致性。
- 传统指标如BLEU、ROUGE和F1 Score继续发挥作用,强调了在确定响应质量时精确度和召回率的重要性。
- 新兴指标如误导率(Misleading Rate)、错误重现率(Mistake Reappearance Rate)和错误检测率(Error Detection Rate)突显了对RAG系统独特挑战的深入理解。
使用大型语言模型作为评估裁判
- 利用大型语言模型(LLMs)作为评估裁判是一种新方法,它可以根据连贯性、相关性和流畅性等标准为生成的文本打分。
- 这种方法可以微调LLMs以预测未见文本的质量,或者在零样本或少样本设置中用于生成评估。
额外要求的指标
- 除了主要的检索和生成组件外,还考虑了RAG系统的一些额外要求,如延迟、多样性、噪声鲁棒性、负面拒绝和反事实鲁棒性。
- 这些指标用于确保RAG系统在现实世界场景中的实用性,并与人类偏好保持一致。
RGAR框架为评估RAG系统提供了一个结构化的、多维度的方法。 通过明确评估目标、选择合适的数据集和制定相应的评估指标,RGAR框架有助于更精确地量化和评估RAG系统的性能。
https://arxiv.org/pdf/2405.07437
Evaluation of Retrieval-Augmented Generation:A Survey
推荐阅读
- • 对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
- • 2024:ToB、Agent、多模态
- • TA们的RAG真正投产了吗?(上)
- • Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。