基于KG生成语料增强解决RAG问答幻觉问题的简单框架-Walk&Retrieve - 文章 - 开发者社区

Walk&Retrieve基于知识图谱，利用基于图遍历和知识表述来进行零样本RAG的语料库生成。解决RAG系统的幻觉问题。该框架思路比较简单，核心点在于零样本RAG的语料库生成 ，下面来看看，供参考。

picture.image

方法架构

语料生成

在框架中，语料生成该方法的核心步骤。该阶段从知识图谱中提取相关信息，并将其转化为适合LLM处理的文本格式。语料生成包括以下几个步骤：基于图的遍历、知识表示和索引。

picture.image

其中，

表示节点

的邻居数量。对于每个节点

，生成

条长度为

的随机游走路径

。最终的语料库

是所有节点的随机游走路径的集合。

，构建一个层次结构，每一层的节点表示与根节点的最短路径距离。然后，按照层次顺序进行遍历，确保每个节点只被访问一次。

picture.image

其中，

，

是最大深度。

LLM需要文本输入，需要将提取的图遍历路径转换为自然语言描述。使用预定义的提示模板，将每个节点的游走路径转化为自然语言句子。例如，对于一个随机游走的路径

，可以生成类似“

通过关系

连接到

，而

通过关系

连接到

”的句子。

picture.image

预定义的提示模板

将每个游走路径

转换为向量表示，并计算每个节点的全局表示，作为其所有游走路径向量的拼接。将节点及其对应的游走路径向量存储起来，便于在推理阶段进行快速检索。

该阶段不是重点，与传统的RAG相同，包括将query编码、相似性检索（k近邻搜索）、上下文整合、答案生成。

picture.image

答案生成prompt模板

picture.image

MetaQA上的性能：Walk&Retrieve-BFS在答案准确性和减少虚假答案方面表现最佳，相对提高了38.64%。其他基于KG的RAG系统虽然准确性高，但虚假答案更多。Walk&Retrieve-BFS在1跳、2跳和3跳问题上的真实性和减少无响应方面表现优异。

CRAG上的性能：Walk&Retrieve变体在答案准确性上优于仅使用LLM和基于文本的RAG，同时在虚假答案和无响应率上与之相当。由于CRAG的复杂性较高，Walk&Retrieve的性能略有下降，但仍表现出良好的鲁棒性。

参考文献：Walk&Retrieve: Simple Yet Effective Zero-shot Retrieval-Augmented Generation via Knowledge Graph Walks，https://arxiv.org/pdf/2505.16849v2

关于我：余俊晖，主要研究方向为自然语言处理、大语言模型、文档智能。曾获CCF、Kaggle、ICPR、ICDAR、CCL、CAIL等国内外近二十项AI算法竞赛/评测冠亚季军。发表SCI、顶会等文章多篇，专利数项。