RAG系统通过结合生成性的大型语言模型(LLM)和数据检索,提供基于权威文档集合的回答。 尽管对 RAG 系统进行严格评估的需求日益增加, 但目前缺乏超越模型输出创建和自动计算的评估工具 。
为此,提出 InspectorRAGet ,它是一个用于评估检索增强生成(RAG)系统的内省平台。InspectorRAGet允许用户使用人工和算法指标以及注释者质量来分析RAG系统的聚合和实例级性能,适用于多种用例。
RAG评测生命周期
InspectorRAGet 提供了一个交互式评估平台,具有丰富的功能集,可以全面评估 RAG 系统的各个方面,包括性能基准测试、聚合和实例级分析、通过混合指标的全面结果视图、注释者资格认证和数据集特性。
InspectorRAGet核心视图及其对应可视化的示意图
这些视图包括
- 预测表:显示所有问题及其对应的模型响应的表格。
- 性能概览: 显示每个模型的聚合得分和排名。
- 模型行为: 通过筛选实例进行详细分析。
- 模型比较器: 比较两个模型在所选指标上的得分分布。
- 指 标行为: 显示每对指标之间的 Spearman 相关性分数。
- 注释者行为: 分析人类评估的质量,包括注释者之间的一致性和个体注释者的表现。
InspectorRAGet在两个用例中的应用: RAG 模型评估和 LLM-as-a-Judge 评估。
两个用例的评估设置
在 RAG 模型评估用例中,对 CLAP NQ 数据集进行了手动评估,发现了模型性能的关键洞察,例如 Llama 模型 在人工评估中表现不佳 。
在 LLM-as-a-Judge 评估用例中,分析了 MT-Bench 数据集上的人类和 LLM-as-a-judge 评估,发现了一些偏见,如 GPT-4 倾向于选择其自身模型的回答。
INSPECTORRAGET: An Introspection Platform for RAG Evaluation
https://arxiv.org/pdf/2404.17347
https://github.com/IBM/InspectorRAGet?tab=readme-ov-file
推荐阅读
- • 对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
- • 2024:ToB、Agent、多模态
- • TA们的RAG真正投产了吗?(上)
- • Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。