AutoKG：高效自动生成知识图谱以增强大型语言模型的能力 - 文章 - 开发者社区


        
          
https://arxiv.org/pdf/2311.14740v1.pdf

随着大型语言模型（LLM）在自然语言处理领域的广泛应用，如何提高其生成结果的准确性和相关性成为了一个关键问题。本文介绍了一种名为AutoKG的创新方法，通过自动构建知识图谱（KG）来增强LLM的能力。AutoKG首先从给定的知识库中提取关键词作为节点，然后利用图拉普拉斯学习评估每对关键词之间的关系权重。采用了一种结合向量相似度和基于图的关联搜索的混合搜索策略，以丰富LLM的响应。初步实验表明，与语义相似度搜索相比，AutoKG提供了更全面、互联的知识检索机制，从而提高了LLM在生成更有洞察力和相关性输出方面的能力。

核心观点：

传统的将大型语言模型与知识库链接的方法通常无法捕捉复杂的关系动态。为了解决这个问题，提出了一种轻量级且高效的自动知识图谱构建方法。AutoKG不需要训练或微调神经网络，而是利用预训练的LLM提取关键词，并应用图拉普拉斯学习来评估关键词之间的边缘权重。这样生成的知识图谱可以帮助LLM更好地理解和处理输入的查询。

picture.image

算法原理：

AutoKG包括两个主要步骤：1）从给定的知识库中提取关键词；2）构建关键词之间的关系。在关键词提取阶段，使用无监督聚类算法将知识库划分为多个簇，并利用LLM从每个簇中提取关键词。在构建关系阶段，采用基于标签传播的方法，在文本块之间建立图结构，然后利用图拉普拉斯学习确定关键词与文本块之间的关联。最后，根据关键词与文本块之间的关联计算关键词之间的关系权重。

结论：

通过引入AutoKG，实现了一种高效且自动化的知识图谱构建方法，能够显著提高大型语言模型生成结果的准确性和相关性。此外，提出的混合搜索策略结合了向量相似度和基于图的关联搜索，使得LLM能够更好地利用知识图谱中的信息。初步实验表明，AutoKG在生成更有洞察力和相关性输出方面具有优越性。