AWS AI Lab重磅开源：自动、经济、稳健的RAG评估策略，RAG系统构建经验分享！ - 文章 - 开发者社区

、文章出发点 ：构造一个自动、经济高效、可解释且稳健的策略来评估RAG系统。

文章标题 ：Automated Evaluation of Retrieval-Augmented Language Models with Task-Specific Exam Generation

  
https://arxiv.org/html/2405.13622v1

1.理论知识

利用预训练LLM为给定任务生成包含n个问题的多项选择考试。每个问题由问题描述和一组可能的答案组成，其中只有一个正确答案。考试生成过程包括两个步骤：

作者提到一个不对称性：给定一个文档语料库，LLM相对容易生成问题和正确答案，因为该任务在知识方面是自包含在提示中的。然而，创建高质量的错误答案要困难得多。利用 Jaccard 和基于嵌入的相似性度量来过滤掉遵循这种模式的退化问题。

对于每个问题，RAG模型需要从多个选项中选择一个答案。每个问题的评分基于maximal length-penalized log-likelihood 来选择最佳答案。最终得分是其正确回答问题的百分比。

Aggregate Evaluation and Item Response Theory IRT是一种用于理解考试参与者与考试项目交互的框架，它通过以下三个参数来描述每个问题qi：难度bi，表示问题的难易程度；区分度di，表示问题区分不同能力水平考生的能力；猜测因子gi，表示考生通过随机猜测正确回答问题的概率。

IRT模型使用 logistic model来计算正确回答问题的概率，同时考虑考生的能力和问题的三个特性。

通过将RAG模型的能力分解为三个组成部分来提供更高分辨率的能力估计：LLM的能力、检索方法的能力、上下文学习方法的能力 picture.image

picture.image ### 2. RAG pipeline

we consider 45 different RAG pipelines by combining 5 different retrieval mechanisms, 3 different LLMs, and 3 different ICL modes.

5种检索机制

3种不同的llm：Mistral-7B、LlamaV2-13B 和 LlamaV2-70B

3种icl策略：ICL@0、ICL@1 和 ICL@2

“

NLP前沿交流群成立，详见置顶推文。进群加微：nipi64310

-END-

右下角，帮忙点点 picture.image **