GraphRAG优化新思路-开源的ROGRAG框架

向量数据库大模型数据库

目前的如微软开源的GraphRAG的工作流程都较为复杂,难以孤立地评估各个组件的贡献,传统的检索方法在处理复杂推理任务时可能不够有效,特别是在需要理解实体间关系或多跳知识的情况下。先说结论,看完后感觉这个框架性能上不会比GraphRAG高,仅在单一数据集上进行了评测,不过优化思路可以借鉴下,比如:双层次检索提高图检索准确性等。供参考。

方法

picture.image

整体流程

图构建及索引

picture.image

这一步主要是使用LLM构建知识图谱(KG),涉及预处理 (多源异构内容转text)、文本chunk分割KG构建 (命名实体识别(NER)、分割的文本中提取<实体, 关系, 实体>三元组,以及相关的关键词、描述和权重。这些三元组用于构建图,捕捉语料中的复杂多跳依赖关系)、图存储。

图引导检索

这一步是ROGRAG的核心,分为两种主要方法:双层次方法和逻辑形式方法。

1、双层次方法

picture.imagequery被分解为两个组成部分:(1)表示实体的低层关键词和(2)高层关系描述。通过模糊匹配将实体与图中的节点匹配,关系关键词与边匹配。检索结果合并后,去除冗余的边、节点和块引用,精炼最终的检索上下文。优势是这种方法利用多粒度特征进行分层模糊匹配,提高了对不规范或复杂查询的检索覆盖率。

2、逻辑形式方法

使用预定义的操作符(如过滤、聚合)将自然语言查询转化为结构化的检索操作序列。利用LLM将自然语言查询转化为结构化的检索操作序列,并通过迭代优化来增强检索上下文。这种方法提供了更精确的检索结果,特别适用于需要结构化推理的任务。

picture.image

逻辑形式方法算法过程:通过LLM将复杂的自然语言查询分解为一系列简单的子查询,然后使用预定义的操作符对这些子查询进行处理,最终得到结构化的检索操作序列。

图增强生成

这里和其他rag方法一致,主要优化输出。

实验性能

整体结果picture.image

picture.image

参考文献:

关于我:余俊晖,主要研究方向为自然语言处理、大语言模型、文档智能。曾获CCF、Kaggle、ICPR、ICDAR、CCL、CAIL等国内外近二十项AI算法竞赛/评测冠亚季军。发表SCI、顶会等文章多篇,专利数项。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论