InspectorRAGet：通过6种视图深入分析大模型RAG效果的开源平台！ - 文章 - 开发者社区

RAG系统通过结合生成性的大型语言模型（LLM）和数据检索，提供基于权威文档集合的回答。尽管对 RAG 系统进行严格评估的需求日益增加， 但目前缺乏超越模型输出创建和自动计算的评估工具 。

为此，提出 InspectorRAGet ，它是一个用于评估检索增强生成（RAG）系统的内省平台。InspectorRAGet允许用户使用人工和算法指标以及注释者质量来分析RAG系统的聚合和实例级性能，适用于多种用例。

RAG评测生命周期

picture.image

InspectorRAGet 提供了一个交互式评估平台，具有丰富的功能集，可以全面评估 RAG 系统的各个方面，包括性能基准测试、聚合和实例级分析、通过混合指标的全面结果视图、注释者资格认证和数据集特性。

InspectorRAGet核心视图及其对应可视化的示意图

picture.image

这些视图包括

预测表：显示所有问题及其对应的模型响应的表格。
性能概览：显示每个模型的聚合得分和排名。
模型行为：通过筛选实例进行详细分析。
模型比较器：比较两个模型在所选指标上的得分分布。
指标行为：显示每对指标之间的 Spearman 相关性分数。
注释者行为：分析人类评估的质量，包括注释者之间的一致性和个体注释者的表现。

InspectorRAGet在两个用例中的应用： RAG 模型评估和 LLM-as-a-Judge 评估。

两个用例的评估设置

picture.image

在 RAG 模型评估用例中，对 CLAP NQ 数据集进行了手动评估，发现了模型性能的关键洞察，例如 Llama 模型在人工评估中表现不佳。

在 LLM-as-a-Judge 评估用例中，分析了 MT-Bench 数据集上的人类和 LLM-as-a-judge 评估，发现了一些偏见，如 GPT-4 倾向于选择其自身模型的回答。


          
INSPECTORRAGET: An Introspection Platform for RAG Evaluation
          
https://arxiv.org/pdf/2404.17347
          
https://github.com/IBM/InspectorRAGet?tab=readme-ov-file