比GraphRAG和LightRAG还强的HippoRAG 2来了！

发布时间：2025 年 02 月 20 日

RAG

picture.image

添加请注明RAG

如遇无法添加，请+ vx: iamxxn886

一、为什么需要非参数持续学习？

近年来，大语言模型（LLMs）在许多方面取得了显著进展。然而，大型语言模型的 持续学习方法 目的是让LLMs能够随时间获取和整合新知识，同时保留过去的信息。考虑到全面预训练大型语言模型的高计算成本，这里不再继续讨论这种方法。

其他持续学习方法通常分为三类：持续微调、模型编辑和RAG。

• 持续微调（Continual fine-tuning）涉及定期用新数据对大型语言模型进行训练。可以通过像持续预训练、指令微调和对齐微调等方法实现。虽然整合了新的语言模式和推理技能，但持续微调受到灾难性遗忘的影响，即随着新数据的引入而丢失先前学到的知识。此外，其计算费用使得频繁更新对现实世界的应用来说也不具备可操作性。
• 模型编辑技术（Model editing）提供了一个更轻量级的替代方案，通过直接修改模型中的特定参数来更新其知识。然而，这些更新高度局部化，对与更新相关联的信息影响很小。
• 检索增强生成（Retrieval-Augmented Generation）作为连续学习的一个可扩展且实用的替代方案。与其修改大型语言模型（LLM）本身，不如在推理时检索相关的外部信息，允许实时适应新知识。

然而，传统的 RAG 方法依赖于简单的向量检索，无法捕捉人类长期记忆的两个关键特征：

• 意义构建 （sense-making）：指理解大规模或复杂事件的能力，标准的RAG方法在处理需要理解大规模或复杂事件、经历或数据的能力（即情境理解）方面存在不足。这种能力对于理解和推理长篇故事或复杂文本至关重要。
• 关联性 （associativity）：关联性则是指在不同知识片段之间建立多跳连接的能力，难以在多跳问答任务中表现出色，因为它们依赖于独立的向量检索，无法有效地在多个信息片段之间建立多跳连接。这对于需要从不同来源或段落中提取信息来回答问题是关键的限制。

尽管一些改进的 RAG 方法通过引入知识图谱等结构来增强这些能力，但它们在更基本的记忆任务上的表现却显著下降。

为了克服上述问题，我们提出了 HippoRAG 2 框架。HippoRAG 2基于神经生物学启发的长期记忆框架，包括人工新皮层（LLM）、旁海马区（PHR编码器）和人工海马体（开放知识图谱）。这些组件协同工作，复制人类长期记忆中观察到的交互作用。

picture.image

HippoRAG 2是在 HippoRAG 的基础上进行了改进，结合了 个性化 PageRank 算法 和 更深入的段落整合 ，并更有效地在检索过程中使用 LLM。这种组合使得 RAG 系统更接近人类长期记忆的效果。

2.1 在离线阶段 ：

• 提取开放知识图谱三元组：使用大型语言模型（LLM）从文本中提取开放知识图谱（KG）的三元组。这些三元组由主语、谓语和宾语组成，用于表示文本中的概念和关系。
• 同义词检测：在构建的知识图谱中，识别并添加同义词边。这一步骤通过评估短语对的向量相似性来实现，确保知识图谱能够跨不同段落链接同义词，从而增强知识的整合能力。
• 密集稀疏集成：HippoRAG 2 引入了一种密集稀疏集成的方法，将短语节点作为稀疏编码来表示提取的概念，并在知识图中引入密集编码来表示上下文信息。这种方法通过在知识图中添加段落节点来实现，使得上下文信息能够更无缝地与概念信息结合。

2.2 在在线阶段 ：

• 查询链接：使用编码器将查询与相关的三元组和段落链接起来，识别潜在的种子节点用于图搜索。为了更有效地对齐查询语义，HippoRAG 2 采用查询到三元组的匹配方法，利用三元组中包含的基本上下文关系来提供更全面的查询意图理解。
• 识别记忆过滤：在检索过程中，识别记忆作为一个过滤器，确保只有相关的三元组被保留。这一步骤通过使用 LLM 来过滤检索到的三元组，确保检索结果的准确性。
• 个性化 PageRank 搜索：应用个性化 PageRank（PPR）算法进行上下文感知的检索。PPR 算法根据种子节点的排名分数和重置概率进行随机游走，以获取最相关的段落。HippoRAG 2 在此过程中平衡了短语节点和段落节点的影响，以确保检索结果的有效性。
• 最终 QA 任务：检索到的段落作为上下文输入，用于最终的问答任务。通过这种方式，HippoRAG 2 能够在问答过程中有效地利用检索到的外部信息。

3.1 问答性能

picture.image

上图展示了使用Llama-3.3-70B-Instruct作为问答阅读器的多个RAG基准测试中不同检索器的问答性能。

HippoRAG 2取得了最高的平均F1分数，显示出在不同设置下的鲁棒性。

大型Embedding模型的表现优于小型模型，NV-Embed-v2（7B）的平均得分比GTR（T5-基础版）高出6.6%。这些模型还超越了结构增强的RAG方法，尽管计算成本较低，但主要在简单问答中表现出色。

注：结构化增强RAG包括：RAPTOR、GraphRAG、LightRAG、HippoRAG

picture.image

与HippoRAG相比，HippoRAG 2显示出更大的改进，验证了其受神经心理学启发的方法。这些结果表明 HippoRAG 2作为最先进的RAG系统，增强了检索和问答性能。

3.2 检索性能

picture.image

大型Embedding模型（7B）显著优于经典的较小LM模型，至少在F1分数上高出9.8%。

虽然使用Llama-3.3-70B-Instruct和NV-Embed-v2对HippoRAG进行复现时显示出轻微的改进，但收益很小，仅F1分数提高了1.3%。

尽管HippoRAG在以实体为中心的检索中表现出色，在PopQA上实现了最高的召回率，但它在大多数数据集上通常落后于最近的密集检索器和HippoRAG 2。

HippoRAG 2在大多数数据集上实现了最高的召回分数，与最强的密集检索器NV-Embed-v2相比，在MuSiQue和2Wiki上分别有5.0%和13.9%的显著提高。

3.3 消融实验

设计了针对所提出的链接方法、图构建方法和三元组过滤方法的消融实验，结果如下表。

picture.image

引入的每个机制都提升了HippoRAG 2的性能。

• 链接方法（Linking method）：更深入的上下文链接方法带来了显著的性能提升。没有对NER到节点或查询到节点的方法应用过滤过程；然而，无论是否应用过滤，查询到三元组的方法始终优于其他两种链接策略。平均而言，查询到三元组比NER到节点提高了12.5%的召回率@5。
• 图构建方法（Graph construction method）：通过更深入的上下文链接方法，整体性能得到了提升。
• 三元组过滤方法（triple filtering method）：尽管识别记忆是重要组成部分，但三元组过滤的精度仍有改进空间。

本项目目前代码未开源，即将在原 HippoRAG 项目地址进行更新：https://github.com/OSU-NLP-Group/HippoRAG

picture.image

需要免费Deepseek R1模型API的看这里，免费赠送

picture.image