、文章出发点 :构造一个自动、经济高效、可解释且稳健的策略来评估RAG系统。
文章标题 :Automated Evaluation of Retrieval-Augmented Language Models with Task-Specific Exam Generation
https://arxiv.org/html/2405.13622v1
1.理论知识
RAG流程3大部分:
- LLM:用于在给定检索到的上下文和提示策略下生成答案。
- Recall:用于识别与用户问题相关的文档,并将其包含在LLM的提示中,以提供有助于回答的上下文。
- 上下文学习:即在给定提示词中提供给LLM的任务示例数量。
测试数据生成
利用预训练LLM为给定任务生成包含n个问题的多项选择考试。每个问题由问题描述和一组可能的答案组成,其中只有一个正确答案。考试生成过程包括两个步骤:
- 对于知识语料库中的每个文档,使用LLM和多种提示策略创建候选问题。
- 第一步不足以生成高质量的QA,结合多个NLP基础过滤器来移除低质量问题,这些问题可能在长度、错误性和自包含性等方面表现不佳。
作者提到一个不对称性:给定一个文档语料库,LLM相对容易生成问题和正确答案,因为该任务在知识方面是自包含在提示中的。然而,创建高质量的错误答案要困难得多。利用 Jaccard 和基于嵌入的相似性度量来过滤掉遵循这种模式的退化问题。
评估方法
- Pointwise Evaluation
对于每个问题,RAG模型需要从多个选项中选择一个答案。每个问题的评分基于maximal length-penalized log-likelihood 来选择最佳答案。最终得分是其正确回答问题的百分比。
- Aggregate Evaluation and Item Response Theory IRT是一种用于理解考试参与者与考试项目交互的框架,它通过以下三个参数来描述每个问题qi:难度bi,表示问题的难易程度;区分度di,表示问题区分不同能力水平考生的能力;猜测因子gi,表示考生通过随机猜测正确回答问题的概率。
IRT模型使用 logistic model来计算正确回答问题的概率,同时考虑考生的能力和问题的三个特性。
- hierarchical IRT model
通过将RAG模型的能力分解为三个组成部分来提供更高分辨率的能力估计:LLM的能力、检索方法的能力、上下文学习方法的能力
- 实验
1. 数据
### 2. RAG pipeline
we consider 45 different RAG pipelines by combining 5 different retrieval mechanisms, 3 different LLMs, and 3 different ICL modes.
5种检索机制
- 下限:ClosedB,不进行检索任何知识,全靠模型自己的知识来判断q+a。
- 上限:Oracle,生成qa的片段会放入模型的上下文中。
- dense model:如bge
- sparse model:如bm25
- Hybrid models: 搜索+排序
3种不同的llm:Mistral-7B、LlamaV2-13B 和 LlamaV2-70B
3种icl策略:ICL@0、ICL@1 和 ICL@2
3. 结论
-
没有一种模型大小或检索方法适用于所有任务。不同任务和数据集上的表现显示,模型和检索方法的选择通常依赖于特定任务的需求。
-
正确选择检索方法通常可以带来比简单选择较大的 LLMs 更好的性能改进
-
效果不佳的检索模型可能还不如不使用检索
-
即使是较小的模型(如Mistral-7B)在特定任务上也能表现出与大型模型相当的性能。这表明模型规模并不是唯一决定性能的因素。
-
混合搜索通常在不同任务上提供更好的鲁棒性和适应性
-
利用IRT对考试题目进行分析,可以量化题目的难度、区分度和猜测因子,从而提供关于考试质量的深入见解
-
通过迭代优化考试题目,可以不断提高考试的信息量和区分度,从而更好地评估RAG模型的性能。
“
NLP前沿交流群成立,详见置顶推文。进群加微:nipi64310
-END-
右下角,帮忙点点 **