RAG新突破RAPTOR:一种跨文档树状表示让LLM更懂长篇大论!

小程序云存储计算

          
论文题目:RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval
          
论文链接:https://browse.arxiv.org/abs/2401.18059
          
GitHub:https://github.com/parthsarthi03/raptor
      

现有的 RAG(Retrieval-Augmented Generation)方法存在一个主要限制: 它们只能检索短小、连续的文本段落。 这限制了它们 表示跨文档话语结构利用分散在长篇语料库中 的主题信息的能力。 因此,在需要多步骤推理或从多个部分综合知识的复杂问题上,性能会受到影响。

本文介绍了 RAPTOR ,这是一种新型的递归抽象范式,通过层次化的多文档表示克服了这两个问题。RAPTOR 分割文本,然后递归地聚类、总结和嵌入段落 。这将语料库结构化为编码不同抽象层次信息的 多层树

树构建过程:RAPTOR基于文本块的向量嵌入递归地聚类这些文本块,并生成这些聚类的文本摘要,自下而上构建一棵树。聚在一起的节点是兄弟关系;父节点包含了该聚类的文本摘要。

picture.image

查询这个丰富的树状表示允许同时整合细节和高层次主题。在几个问答数据集上(NarrativeQA、QASPER和QuALITY)的控制实验显示出与基线检索器相比的一致改进。

picture.image

此外,通过增强像 GPT-4 这样的强大阅读器,RAPTOR 在需要对 长篇叙述进行微妙理解的多方面推理 任务上达到了新的最先进结果。RAPTOR与GPT-4结合使用时,在QuALITY基准测试中实现了20%的绝对准确率提升。

picture.image

总之,RAPTOR 为 多文档推理和可更新的基于检索 的问答提供了一个急需的解决方案。通过递归总结和抽象,它为复杂查询编码了足够的语义深度。RAPTOR 提供了显著的增益;其强大的实证性能证实了基于树的层次检索增强的优点。

推荐阅读


欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎音视频体验白皮书
火山引擎联合AMD发布了音视频体验白皮书,以抖音亿级日活用户实践和大规模场景落地经验,详细解读音视频体验评估指标和模型,分享火山引擎音视频实验室的评测方案和抖音在音视频体验优化上的典型策略、案例,助力企业优化用户体验,促进业务增长。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论