FIT-RAG:利用事实信息和大模型偏好来增强输出、减少Token浪费的新颖RAG框架

云原生可观测容器服务微服务治理

由于大型语言模型(LLMs)拥有极其庞大的参数数量,为了更新长尾或过时知识而对其进行微调在许多应用中是不切实际的。为了避免微调,可以将LLM视为一个黑盒(即,冻结LLM的参数),并通过检索增强生成(RAG)系统来增强它,这就是所谓的黑盒RAG。最近,黑盒RAG在知识密集型任务中取得了成功,并引起了广泛关注。现有的黑盒RAG方法通常会对检索器进行微调以迎合LLM的偏好,并将所有检索到的文档串联作为输入,这存在两个问题:

  • 忽略事实信息 , LLM偏好的文档可能不包含给定问题的事实信息,这可能会误导检索器,损害黑盒RAG的有效性;
  • Token浪费 , 简单地将所有检索到的文档串联起来会为LLMs带来大量不必要的token,这降低了黑盒RAG的效率。

这些例子展示了大型语言模型(LLM)偏好的检索到的文档,但这些 文档并不包含相关的事实信息 。这些例子来自于TriviaQA训练集,并且答案是使用Llama1-13B-Chat生成的。

picture.image

为了解决这些问题,提出了一个新颖的黑盒RAG框架,它在检索中利用事实信息,并减少了输入的令牌数量,称为 FIT-RAG 。通过构建一个双标签文档评分器来利用事实信息,该评分器分别将事实信息和LLM的偏好作为标签。此外,它通过引入自我知识识别器和子文档级令牌减少器来减少令牌,这使得FIT-RAG能够避免不必要的增强,并尽可能减少增强令牌。

FIT-RAG架构

picture.image

FIT-RAG包含以下组件

  • 基于相似性的检索器 :用于从知识库中检索与问题相关的候选文档。
  • 双标签文档评分器 :对候选文档进行评分,考虑文档是否包含问题的答案(事实信息标签)以及是否能够帮助LLM生成准确回答(LLM偏好标签)。

双标签文档评分器的训练过程

picture.image

  • 双面自我知识识别器 :判断LLM是否已经具有回答问题的内部知识,从而决定是否需要外部检索。

双面自我知识识别器的推理过程

picture.image

  • 子文档级令牌减少器 :通过选择最相关的子文档组合来减少输入令牌的数量,避免不必要的信息输入。

子文档级令牌减少器的推理过程,在这里,以一个问题的三个文档为例

picture.image

  • 提示构建模块 :根据问题、自我知识识别器的结果和令牌减少器的输出来构建输入提示,引导LLM生成答案。

有和没有RAG情况下的提示模板

picture.image

FIT-RAG在三个开放域问答数据集上进行了测试:TriviaQA、NQ和PopQA。实验结果表明,与未经检索增强的Llama2-13B-Chat模型相比,FIT-RAG显著提高了回答问题的准确率,

分别在TriviaQA、NQ和PopQA数据集上提高了14.3%、19.9%和27.5%

。此外,FIT-RAG在平均令牌消耗上节省了约一半,这表明了其在提高效率方面的显著优势。证明了FIT-RAG其在处理长尾知识和时效性信息方面的有效性,并展示了其在知识密集型任务中的潜力。

在TriviaQA数据集、NQ数据集和PopQA数据集上的答题准确率方面

,基线方法与FIT-RAG方法之间的比较。输入令牌表示每个问题的平均输入令牌数量。对于Llama2-13B-Chat和ChatGPT,直接输入问题并指示它们给出答案。

picture.image


          
https://arxiv.org/pdf/2403.14374.pdf
          
FIT-RAG: Black-Box RAG with Factual Information and Token Reduction
      

推荐阅读


欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论