论文笔记, 标题:Retrieval-Augmented Generation with Hierarchical Knowledge, 代码开源:https://github.com/hhy-huang/HiRAG
- raptor的特色应该就是聚类【向量空间距离】,抽象更高级的特征。
- graphrag的特色是通过实体连接起不同位置的关系【物理连接】,得到实体级别更丰富特征。
二者结合一下,应该就是这篇文章的核心要点了。
相似或者相关的实体,可能没有一个有效的物理连接,所以graphrag没法将他们聚类成社区。 那不如给实体聚类,抽象一层出2级实体。 这个层级可以持续上去,一个簇的描述,可以用LLM总结。越往上,就越抽象,这个符合raptor的理念。
- 抽图谱,三元组
- 实体表征,GMM聚类
- 合并
具体怎么检索就不重要了,离线数据都弄好了,在线的还不就在这上边折腾。
整体上,效果变好、token消耗多不少。