LLMKGraph：开源，知识图谱+RAG消除大模型幻觉

发布时间：2025 年 02 月 16 日

大型语言模型（LLMs）在自然语言生成领域取得了显著进展，但其输出常包含未经验证的信息，影响了在关键场景下的可靠性。本研究提出了一种创新性框架，通过检索增强生成技术，将结构化的生物医学知识与大型语言模型相结合。我们的系统通过识别和提炼与年龄相关性黄斑变性（AMD）相关的医学摘要中的因果关系和命名实体，构建了一个全面的知识图谱。借助基于向量的检索过程和本地部署的语言模型，我们的框架能够生成既具有上下文关联性又可验证的响应，并直接引用临床证据。实验结果表明，这种方法显著减少了生成中的错误信息，提高了事实的准确性，并增强了生成响应的清晰度，为高级生物医学聊天机器人应用提供了一个可靠的解决方案。

picture.image

添加请注明RAG

如遇无法添加，请+ vx: iamxxn886

一、为什么需要知识图谱增强的生成技术？

随着大型语言模型（LLMs）在自然语言生成领域的显著进展，其在生成文本时的流畅性和连贯性得到了广泛认可。然而，LLMs 在实际应用中仍然面临一个关键问题：它们经常生成未经验证的输出，这导致其在关键应用场景中的可靠性受到质疑。

为了应对这一问题，知识图谱增强的生成技术（Retrieval-Augmented Generation, RAG）应运而生。

1.1 大型语言模型的局限性

尽管LLMs在生成自然语言文本方面表现出色，但它们存在以下主要问题：

• 幻觉问题（Hallucinations）：LLMs 有时会生成与事实不符的内容，尤其是在缺乏足够上下文或知识支持的情况下。这种现象在生物医学领域尤为危险，因为错误的医疗信息可能对患者造成严重后果。
• 缺乏可验证性：LLMs 生成的文本通常缺乏明确的来源或引用，用户无法验证其准确性。这在需要高度可信信息的领域（如临床决策支持系统）中是一个重大缺陷。
• 领域知识的局限性：LLMs 的训练数据通常是通用的，缺乏对特定领域（如生物医学）的深入理解。因此，在处理复杂的领域特定问题时，LLMs 的表现可能不够准确。

1.2 知识图谱的优势

知识图谱（Knowledge Graphs, KGs）作为一种结构化的知识表示形式，能够有效弥补LLMs的上述不足。知识图谱通过实体和关系的形式存储领域特定的知识，具有以下优势：

• 结构化知识表示：知识图谱以图结构的形式存储知识，能够清晰地表示实体之间的复杂关系（如因果关系、治疗关系等）。这种结构化的表示方式有助于提高生成内容的准确性和可解释性。
• 可验证性：知识图谱中的每个关系都可以与具体的来源（如临床研究或文献）相关联，确保生成的内容具有可追溯性和可验证性。
• 领域特定知识的整合：通过将领域特定的知识图谱与LLMs结合，系统能够在生成文本时利用这些知识，确保生成的内容符合领域内的专业标准。

1.3 知识图谱增强生成技术的必要性

为了克服LLMs的局限性，知识图谱增强的生成技术提供了一种有效的解决方案。RAG 技术通过将LLMs的生成能力与外部知识图谱中的结构化信息相结合，能够显著提高生成内容的准确性和可靠性，其优势包括：

• 减少幻觉：通过将LLMs的输出锚定在已验证的知识图谱中，RAG 技术能够有效减少模型生成不准确或虚构内容的情况。
• 提高事实准确性：RAG 技术利用知识图谱中的结构化信息来增强生成内容的事实准确性，确保生成的内容与领域内的专业知识一致。
• 增强可解释性：通过引用知识图谱中的具体关系和来源，RAG 技术能够生成具有明确来源和引用的文本，增强生成内容的可解释性和可信度。

二、系统架构

本文提出的系统架构通过结合结构化的生物医学知识图谱和大型语言模型，提升聊天机器人在年龄相关性黄斑变性（AMD）领域的应用效果。

系统架构主要分为三个阶段：Annotation & Data Collection（标注与数据收集）、Data Processing（数据处理）和 Retrieval-Augmented Generation (RAG) Workflow（检索增强生成流程）。

picture.image

2.1. Annotation & Data Collection（标注与数据收集）

在这一阶段，首先使用Protege编辑器构建了一个包含与AMD相关因果关系的本体（ontology），称为CausalAMD。标注人员利用该本体对医学摘要中的关系进行标注，确定适当的谓词和实体类型。这些标注不仅为知识图谱的构建提供了基础，还生成了用于指导语言模型从摘要中提取因果关系的自动提示。所使用的医学摘要均来自Dimensions数据库。

2.2. Data Processing（数据处理）

在数据处理阶段，首先利用GPT-4o1-mini模型从医学摘要中提取因果关系。提取后的关系经过消歧处理，并使用HermiT推理器进行推理，将推断出的知识转化为知识图谱中的RDF三元组。这些三元组存储在Ontotext GraphDB中，形成了一个结构化的知识图谱。

picture.image

2.3. Retrieval-Augmented Generation (RAG) Workflow（检索增强生成流程）

RAG模块是系统的核心，它将知识图谱中的结构化知识与自然语言生成相结合，以提供准确且与上下文相关的回答。流程如下：

picture.image

• Embedding and Knowledge Retrieval（嵌入与知识检索）：将知识图谱中的结构化关系转换为语义嵌入，并存储在Weaviate向量数据库中。当用户提出查询时，系统使用这些嵌入进行语义搜索，检索出与查询最相关的信息。
• Context Construction（上下文构建）：根据用户的输入，系统通过语义搜索机制识别与输入语义匹配的实体，并检索这些实体相关的top k关系，以构建详细的上下文。这些上下文包括实体之间的关系以及相关的出版物引用，为语言模型提供必要的背景信息。
• Language Generation（语言生成）：语言模型结合用户的查询和额外的上下文信息，生成清晰、准确的回答。回答中包括从数据搜索中获取的重要细节，并支持后续的交互，允许用户回溯到之前的问题并请求更多详细信息。

picture.image

三、如何使用

项目开源地址：https://github.com/AlexLecu/LLMKGraph

项目演示Demo

picture.image

• 论文原文: https://arxiv.org/abs/2502.11108
• 获取更多最新 Arxiv 论文更新: https://github.com/HuggingAGI/HuggingArxiv!
• 加入社群，+v: iamxxn886
• 点击公众号菜单加入讨论

picture.image