论文题目:RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval
论文链接:https://browse.arxiv.org/abs/2401.18059
GitHub:https://github.com/parthsarthi03/raptor
现有的 RAG(Retrieval-Augmented Generation)方法存在一个主要限制: 它们只能检索短小、连续的文本段落。 这限制了它们 表示跨文档话语结构 和 利用分散在长篇语料库中 的主题信息的能力。 因此,在需要多步骤推理或从多个部分综合知识的复杂问题上,性能会受到影响。
本文介绍了 RAPTOR ,这是一种新型的递归抽象范式,通过层次化的多文档表示克服了这两个问题。RAPTOR 分割文本,然后递归地聚类、总结和嵌入段落 。这将语料库结构化为编码不同抽象层次信息的 多层树 。
树构建过程:RAPTOR基于文本块的向量嵌入递归地聚类这些文本块,并生成这些聚类的文本摘要,自下而上构建一棵树。聚在一起的节点是兄弟关系;父节点包含了该聚类的文本摘要。
查询这个丰富的树状表示允许同时整合细节和高层次主题。在几个问答数据集上(NarrativeQA、QASPER和QuALITY)的控制实验显示出与基线检索器相比的一致改进。
此外,通过增强像 GPT-4 这样的强大阅读器,RAPTOR 在需要对 长篇叙述进行微妙理解的多方面推理 任务上达到了新的最先进结果。RAPTOR与GPT-4结合使用时,在QuALITY基准测试中实现了20%的绝对准确率提升。
总之,RAPTOR 为 多文档推理和可更新的基于检索 的问答提供了一个急需的解决方案。通过递归总结和抽象,它为复杂查询编码了足够的语义深度。RAPTOR 提供了显著的增益;其强大的实证性能证实了基于树的层次检索增强的优点。
推荐阅读
- • TinyGPT-V:小而强大,轻量级骨架打造高效多模态大语言模型
- • 2024:ToB、Agent、多模态
- • TA们的RAG真正投产了吗?(上)
- • 2023年最新LLM发展时间线一览(ChatGPT、LLaMA等)
欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。