比GraphRAG和LightRAG还强的HippoRAG 2来了!

向量数据库大模型机器学习
比GraphRAG和LightRAG还强的HippoRAG 2来了!

发布时间:2025 年 02 月 20 日

RAG

picture.image

添加请注明RAG

如遇无法添加,请+ vx: iamxxn886


一、为什么需要非参数持续学习?

近年来,大语言模型(LLMs)在许多方面取得了显著进展。然而,大型语言模型的 持续学习方法 目的是让LLMs能够随时间获取和整合新知识,同时保留过去的信息。考虑到全面预训练大型语言模型的高计算成本,这里不再继续讨论这种方法。

其他持续学习方法通常分为三类:持续微调、模型编辑和RAG。

  • • 持续微调(Continual fine-tuning)涉及定期用新数据对大型语言模型进行训练。可以通过像持续预训练、指令微调和对齐微调等方法实现。虽然整合了新的语言模式和推理技能,但持续微调受到灾难性遗忘的影响,即随着新数据的引入而丢失先前学到的知识。此外,其计算费用使得频繁更新对现实世界的应用来说也不具备可操作性。
  • • 模型编辑技术(Model editing)提供了一个更轻量级的替代方案,通过直接修改模型中的特定参数来更新其知识。然而,这些更新高度局部化,对与更新相关联的信息影响很小。
  • • 检索增强生成(Retrieval-Augmented Generation)作为连续学习的一个可扩展且实用的替代方案。与其修改大型语言模型(LLM)本身,不如在推理时检索相关的外部信息,允许实时适应新知识。

然而,传统的 RAG 方法依赖于简单的向量检索,无法捕捉人类长期记忆的两个关键特征:

  • 意义构建 (sense-making):指理解大规模或复杂事件的能力,标准的RAG方法在处理需要理解大规模或复杂事件、经历或数据的能力(即情境理解)方面存在不足。这种能力对于理解和推理长篇故事或复杂文本至关重要。
  • 关联性 (associativity):关联性则是指在不同知识片段之间建立多跳连接的能力,难以在多跳问答任务中表现出色,因为它们依赖于独立的向量检索,无法有效地在多个信息片段之间建立多跳连接。这对于需要从不同来源或段落中提取信息来回答问题是关键的限制。

尽管一些改进的 RAG 方法通过引入知识图谱等结构来增强这些能力,但它们在更基本的记忆任务上的表现却显著下降。

二、HippoRAG 2:一个更接近人类记忆的框架

为了克服上述问题,我们提出了 HippoRAG 2 框架。HippoRAG 2基于神经生物学启发的长期记忆框架,包括人工新皮层(LLM)、旁海马区(PHR编码器)和人工海马体(开放知识图谱)。这些组件协同工作,复制人类长期记忆中观察到的交互作用。

picture.image

HippoRAG 2是在 HippoRAG 的基础上进行了改进,结合了 个性化 PageRank 算法更深入的段落整合 ,并更有效地在检索过程中使用 LLM。这种组合使得 RAG 系统更接近人类长期记忆的效果。

2.1 在离线阶段

  • • 提取开放知识图谱三元组:使用大型语言模型(LLM)从文本中提取开放知识图谱(KG)的三元组。这些三元组由主语、谓语和宾语组成,用于表示文本中的概念和关系。
  • • 同义词检测:在构建的知识图谱中,识别并添加同义词边。这一步骤通过评估短语对的向量相似性来实现,确保知识图谱能够跨不同段落链接同义词,从而增强知识的整合能力。
  • • 密集稀疏集成:HippoRAG 2 引入了一种密集稀疏集成的方法,将短语节点作为稀疏编码来表示提取的概念,并在知识图中引入密集编码来表示上下文信息。这种方法通过在知识图中添加段落节点来实现,使得上下文信息能够更无缝地与概念信息结合。

2.2 在在线阶段

  • • 查询链接:使用编码器将查询与相关的三元组和段落链接起来,识别潜在的种子节点用于图搜索。为了更有效地对齐查询语义,HippoRAG 2 采用查询到三元组的匹配方法,利用三元组中包含的基本上下文关系来提供更全面的查询意图理解。
  • • 识别记忆过滤:在检索过程中,识别记忆作为一个过滤器,确保只有相关的三元组被保留。这一步骤通过使用 LLM 来过滤检索到的三元组,确保检索结果的准确性。
  • • 个性化 PageRank 搜索:应用个性化 PageRank(PPR)算法进行上下文感知的检索。PPR 算法根据种子节点的排名分数和重置概率进行随机游走,以获取最相关的段落。HippoRAG 2 在此过程中平衡了短语节点和段落节点的影响,以确保检索结果的有效性。
  • • 最终 QA 任务:检索到的段落作为上下文输入,用于最终的问答任务。通过这种方式,HippoRAG 2 能够在问答过程中有效地利用检索到的外部信息。

三、HippoRAG 2 的测评效果

3.1 问答性能

picture.image

上图展示了使用Llama-3.3-70B-Instruct作为问答阅读器的多个RAG基准测试中不同检索器的问答性能。

HippoRAG 2取得了最高的平均F1分数,显示出在不同设置下的鲁棒性。

大型Embedding模型的表现优于小型模型,NV-Embed-v2(7B)的平均得分比GTR(T5-基础版)高出6.6%。这些模型还超越了结构增强的RAG方法,尽管计算成本较低,但主要在简单问答中表现出色。

注:结构化增强RAG包括:RAPTOR、GraphRAG、LightRAG、HippoRAG

picture.image

与HippoRAG相比,HippoRAG 2显示出更大的改进,验证了其受神经心理学启发的方法。这些结果表明 HippoRAG 2作为最先进的RAG系统,增强了检索和问答性能。

3.2 检索性能

picture.image

大型Embedding模型(7B)显著优于经典的较小LM模型,至少在F1分数上高出9.8%。

虽然使用Llama-3.3-70B-Instruct和NV-Embed-v2对HippoRAG进行复现时显示出轻微的改进,但收益很小,仅F1分数提高了1.3%。

尽管HippoRAG在以实体为中心的检索中表现出色,在PopQA上实现了最高的召回率,但它在大多数数据集上通常落后于最近的密集检索器和HippoRAG 2。

HippoRAG 2在大多数数据集上实现了最高的召回分数,与最强的密集检索器NV-Embed-v2相比,在MuSiQue和2Wiki上分别有5.0%和13.9%的显著提高。

3.3 消融实验

设计了针对所提出的链接方法、图构建方法和三元组过滤方法的消融实验,结果如下表。

picture.image

引入的每个机制都提升了HippoRAG 2的性能。

  • • 链接方法(Linking method):更深入的上下文链接方法带来了显著的性能提升。没有对NER到节点或查询到节点的方法应用过滤过程;然而,无论是否应用过滤,查询到三元组的方法始终优于其他两种链接策略。平均而言,查询到三元组比NER到节点提高了12.5%的召回率@5。
  • • 图构建方法(Graph construction method):通过更深入的上下文链接方法,整体性能得到了提升。
  • • 三元组过滤方法(triple filtering method):尽管识别记忆是重要组成部分,但三元组过滤的精度仍有改进空间。

本项目目前代码未开源,即将在原 HippoRAG 项目地址进行更新:https://github.com/OSU-NLP-Group/HippoRAG


picture.image

需要免费Deepseek R1模型API的看这里,免费赠送

picture.image

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论