InspectorRAGet:通过6种视图深入分析大模型RAG效果的开源平台!

大模型云存储混合云

RAG系统通过结合生成性的大型语言模型(LLM)和数据检索,提供基于权威文档集合的回答。 尽管对 RAG 系统进行严格评估的需求日益增加, 但目前缺乏超越模型输出创建和自动计算的评估工具

为此,提出 InspectorRAGet ,它是一个用于评估检索增强生成(RAG)系统的内省平台。InspectorRAGet允许用户使用人工和算法指标以及注释者质量来分析RAG系统的聚合和实例级性能,适用于多种用例。

RAG评测生命周期

picture.image

InspectorRAGet 提供了一个交互式评估平台,具有丰富的功能集,可以全面评估 RAG 系统的各个方面,包括性能基准测试、聚合和实例级分析、通过混合指标的全面结果视图、注释者资格认证和数据集特性。

InspectorRAGet核心视图及其对应可视化的示意图

picture.image

这些视图包括

  • 预测表:显示所有问题及其对应的模型响应的表格。
  • 性能概览: 显示每个模型的聚合得分和排名。
  • 模型行为: 通过筛选实例进行详细分析。
  • 模型比较器: 比较两个模型在所选指标上的得分分布。
  • 指 标行为: 显示每对指标之间的 Spearman 相关性分数。
  • 注释者行为: 分析人类评估的质量,包括注释者之间的一致性和个体注释者的表现。

InspectorRAGet在两个用例中的应用: RAG 模型评估和 LLM-as-a-Judge 评估。

两个用例的评估设置

picture.image

在 RAG 模型评估用例中,对 CLAP NQ 数据集进行了手动评估,发现了模型性能的关键洞察,例如 Llama 模型 在人工评估中表现不佳 。

在 LLM-as-a-Judge 评估用例中,分析了 MT-Bench 数据集上的人类和 LLM-as-a-judge 评估,发现了一些偏见,如 GPT-4 倾向于选择其自身模型的回答。


          
INSPECTORRAGET: An Introspection Platform for RAG Evaluation
          
https://arxiv.org/pdf/2404.17347
          
https://github.com/IBM/InspectorRAGet?tab=readme-ov-file
      

推荐阅读


欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
VikingDB:大规模云原生向量数据库的前沿实践与应用
本次演讲将重点介绍 VikingDB 解决各类应用中极限性能、规模、精度问题上的探索实践,并通过落地的案例向听众介绍如何在多模态信息检索、RAG 与知识库等领域进行合理的技术选型和规划。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论