发布时间:2025 年 03 月 06 日
RAG
构建了一个涵盖所有基于图的 RAG 方法的统一框架,并从宏观角度进行了总结。接着,在不同类型的问答(QA)数据集上对具有代表性的基于图的 RAG 方法进行了全面比较,从具体问题到抽象问题,深入分析了各种方法的表现。通过实验分析,不仅揭示了基于图的 RAG 方法的有效性,还通过结合现有技术,在具体问答和抽象问答任务中发现了优于现有最优方法的新变体。
添加请注明GraphRAG
如遇无法添加,请+ vx: iamxxn886
一、为什么需要图检索增强生成(Graph-based RAG)技术?
1.1 大语言模型(LLM)的局限性
尽管大语言模型(LLM)如 GPT-4、Qwen2.5 等在理解和生成文本方面表现出色,但它们仍然存在“幻觉”问题,即生成的内容可能缺乏事实依据或准确性。这是因为 LLM 的训练数据通常是静态的,无法涵盖所有领域知识或实时更新的信息。例如,当用户询问“2024 年美国总统大选的结果是什么?”时,LLM 可能会生成一个看似合理的答案,但该答案可能并不准确,因为它无法访问最新的选举数据。
1.2 检索增强生成(RAG)的兴起
为了弥补这一缺陷,检索增强生成(RAG)技术应运而生。RAG 通过从外部知识库中检索相关信息,并将其与用户查询结合,生成更准确、可靠的回答。这种方法在医疗、金融、教育等领域得到了广泛应用。例如,在医疗领域,RAG 可以从医学文献中检索最新的研究结果,帮助医生做出更准确的诊断。
1.3 图检索增强生成(Graph-based RAG)的优势
与传统的 RAG 相比,图检索增强生成(Graph-based RAG)利用图结构来组织外部知识,能够更好地捕捉实体之间的语义关系和链接信息。这种基于图的检索方式不仅提高了检索效率,还能生成更具上下文关联的回答。例如,当用户询问“人工智能如何影响现代教育?”时,Graph-based RAG 可以从知识图中检索出与人工智能和教育相关的实体及其关系,生成一个全面且逻辑连贯的答案。
二、统一GraphRAG技术框架
2.1 图检索增强生成的核心原理
图检索增强生成(Graph-based RAG)的核心思想是将外部知识库构建成图结构,通过检索图中的节点、边或子图来增强大语言模型(LLM)的生成能力。与传统的检索增强生成(RAG)不同,图检索增强生成方法利用图结构来捕捉实体之间的语义关系和链接信息,从而生成更准确、更可信的回答。
本篇论文中,作者提出了一种新的统一框架,包含四个阶段:
- • 图构建(Graph building)
- • 索引构建(Index construction)
- • 算子配置(Operator configuration)
- • 检索与生成(Retrieval & generation)
该框架可覆盖所有现有基于图的RAG方法,如下图所示。
2.2 图构建:从文本到图结构
在图构建阶段,外部知识库被分割成多个文本块,然后通过 LLM 或其他工具提取实体和关系,构建成图。常见的图类型包括段落图(Passage Graph)、树结构(Tree)、知识图谱(Knowledge Graph)等。
以段落图为例,每个文本块代表一个节点,如果两个文本块包含相同的实体且数量超过某个阈值,则在这两个节点之间建立边。而知识图谱则通过从每个文本块中提取实体和关系来构建,每个实体代表一个对象,关系则表示两个实体之间的语义联系。
例如,在构建一个关于美国总统选举的知识图谱时,节点可能包括“拜登”、“特朗普”等候选人,边则可能表示“竞选对手”或“获胜者”等关系。
2.3 索引构建:高效检索的基础
为了支持高效的在线查询,图检索增强生成方法通常包括索引构建阶段。索引可以存储节点、关系或社区信息,并通过向量数据库进行快速检索。常见的索引类型包括节点索引、关系索引和社区索引。
以节点索引为例,它存储图中的节点,并通过文本编码模型(如 BERT 或 BGE-M3)生成节点的嵌入向量。这些嵌入向量存储在向量数据库中,以便在查询时快速检索与问题相关的节点。
例如,当用户查询“拜登的竞选对手是谁?”时,系统可以通过节点索引快速检索到“拜登”和“特朗普”这两个节点,并返回它们之间的关系。
2.4 算子配置:灵活组合检索策略
在检索阶段,图检索增强生成方法通过一系列操作符来检索与用户查询相关的信息。这些操作符可以根据不同的检索粒度(如节点、关系、子图等)进行灵活组合,从而适应不同的任务需求。
常见的操作符包括节点类型操作符、关系类型操作符、块类型操作符和子图类型操作符。例如,节点类型操作符可以通过向量数据库检索与问题相关的节点,而子图类型操作符则可以检索与问题相关的子图。
举个例子,当用户查询“拜登和特朗普的竞选关系”时,系统可以通过节点类型操作符检索到“拜登”和“特朗普”这两个节点,然后通过关系类型操作符检索到它们之间的“竞选对手”关系。
2.5 检索与生成
在基于图的检索增强生成(Graph-based RAG)方法中, 检索与生成 阶段是实现知识整合与答案生成的核心环节。该阶段分为两个关键步骤: 问题转换 和 信息检索与生成 。
2.5.1 问题转换
用户输入的问题(Query)首先被转化为检索系统可理解的“检索原语”(Primitive)。不同方法采用不同的转换策略:
- • 实体提取 :如DALK、HippoRAG等方法直接从问题中抽取出实体或关键词,作为检索的锚点。
- • 向量编码 :多数方法(如RAPTOR、LGraphRAG)将问题编码为向量,通过语义相似度匹配图中的节点或子图。
- • 原始问题直接使用 :例如KGP直接将问题文本作为检索输入,依赖后续操作符处理。
2.5.2. 信息检索与生成
根据转换后的检索原语,系统从构建的图中提取相关信息(如节点、关系、子图或社区),并组合成提示(Prompt)输入大语言模型(LLM)生成答案。生成方式分为两类:
- • 直接生成 :将检索到的信息与问题拼接,直接由LLM生成最终答案。
- • 分步聚合(Map-Reduce) :例如GGraphRAG先对每个检索到的社区独立生成部分答案,再汇总成最终结果,适用于复杂抽象问题。
2.5 开源项目:GraphRAG
作者将统一框架和代码实现开源,开源地址:https://github.com/JayLZhou/GraphRAG。
项目包含了图构建、索引构建和检索与生成的完整实现,还提供了多种操作符的配置示例,帮助用户快速上手并定制自己的图检索增强生成系统。
三、图检索增强生成(Graph-based RAG)的应用与评估
3.1 在特定问答任务中的效果
基于图的检索增强生成(Graph-based RAG)方法在 特定问答(Specific QA) 任务中展现出显著优势,这类任务通常涉及对具体事实或细节的查询(如“2024年美国总统是谁?”)。本节通过实验分析不同方法在简单与复杂问题上的表现,并总结关键发现。
3.1.1. 整体性能对比
实验覆盖6个数据集(如HotpotQA、MultihopQA等),评估指标包括准确率(Accuracy)和召回率(Recall)。
- • RAG技术的必要性 :相比直接使用大模型(ZeroShot),所有RAG方法均显著提升效果。例如,在MultihopQA数据集上,VanillaRAG的准确率比ZeroShot提高3.2%,而基于图的方法(如RAPTOR)进一步提升至56.06%。
- • 简单问题 :保留原始文本块的方法(如HippoRAG)表现更优,因其直接匹配问题与文本片段。
- • 复杂问题 :需多跳推理的任务(如MultihopQA)中,基于子图或路径检索的方法(如DALK)准确率比VanillaRAG高6.57%。
- • 最佳方法 : RAPTOR 在多数数据集上领先,因其分层树结构能同时利用底层细节和高层摘要。例如,在HotpotQA中,其准确率达55.32%,比VanillaRAG高4.5%。
3.1.2. 效率与成本分析
- • 图构建成本 :知识图谱(KG)类方法(如TKG)的Token消耗比树结构(RAPTOR)高40倍,因其需为实体和关系生成详细描述。
- • 检索效率 :VanillaRAG响应最快(平均2.35秒/查询),而基于代理的方法(如ToG)因需多次调用LLM,耗时高达69.74秒/查询。
- • 性价比选择 :RAPTOR和HippoRAG在效果与效率间平衡较好,适合实际部署。
3.2 在抽象问答任务中的评估
图结构对抽象任务的有效性
-
• 所有图增强方法(RA、GS、LR、FG)均显著优于VanillaRAG(平均胜率提升15%-30%),表明图结构能有效捕捉文本块间的语义关联,提升抽象推理能力。
-
• 例如,在Legal数据集上,GGraphRAG的全面性胜率达78%,远超VanillaRAG的42%。
-
高层摘要的关键作用
-
• GGraphRAG 和 RAPTOR 表现最优,因其整合了社区报告或树节点摘要等高层次信息。
-
• 在CS数据集中,GGraphRAG的Overall胜率为72%,而依赖低层结构的HLightRAG仅为55%。这表明抽象问题需要高层语义归纳而非细粒度实体关系。
-
社区报告与Map-Reduce策略的优势
-
• GGraphRAG通过Leiden算法生成的社区报告能覆盖更广的主题范围,结合Map-Reduce策略过滤无关内容,使其在Mix和Agriculture数据集上胜率稳定领先(平均胜率65% vs. 其他方法50%-58%)。
-
文本保留的必要性
-
• RAPTOR在部分数据集(如MultihopSum)上偶尔优于GGraphRAG,因其保留了原始文本块的高层摘要,而社区报告可能丢失细节。这提示高层抽象与原始文本的平衡至关重要。
-
局限性
• 计算成本 :GGraphRAG需离线生成大量社区报告,在HotpotQA等大规模数据集中 token 消耗显著高于其他方法(见图5)。
• 领域适应性 :在专业领域(如Legal),社区报告的生成质量依赖预训练LLM的领域知识,可能需进一步微调。
- • 论文原文: https://arxiv.org/pdf/2503.04338
- • 获取更多最新 Arxiv 论文更新: https://github.com/HuggingAGI/HuggingArxiv!
- • 加入社群,+v: iamxxn886
- • 点击公众号菜单加入讨论