KnowLion:基于动态图数据库的动态超图知识检索开源系统

向量数据库企业应用人工智能与算法
重新定义企业知识检索

在企业级检索增强生成(RAG)领域,传统方案普遍面临“知识割裂(向量库与静态图谱分离)、更新滞后(人工定时维护)、召回不全(仅1-2路检索)、可解释性弱(无推理路径)”四大核心痛点,难以支撑动态演化的业务知识管理需求。

KnowLion作为首款基于动态图数据库(AbutionGraph)实现的企业级智能HyperGraphRAG系统 ,通过“动态知识建模+多维度检索融合+实时知识聚合”三大核心能力,构建“Doc→Para→Entity”三级超图一体化存储,实现从“功能性信息检索”到“越用越聪明的动态知识管理”的跨越。

核心亮点

•✅ 五重检索内核 :融合Vector语义、BM25关键词、Graph动态推理、上下文关联、实体多跳推理,覆盖“模糊查询-精准术语-跨文档关联-深层推理”全场景;•✅ 全属性实时演化 :实体频次、实时语义聚合、邻居基数等属性通过动态聚合函数自动更新,无需人工干预,新文档入库即可检索;•✅ 智能自维护机制 :段落主题重叠率≥80%时触发VectorSimCrudAgent,调用LLM自动合并相似知识、更新冲突关系,维护成本降低80%;•✅ 轻量化超图架构 :跨文档多对多轻量级聚合边设计(仅存“事实+频次”),避免传统图谱存储冗余,多跳推理速度提升50%。

1 系统架构全景

1.1 全链路闭环设计

KnowLion采用“知识生产-存储-检索-维护-问答”一体化全链路闭环设计架构,覆盖非结构化数据解析、知识存储架构、知识自驱更新、知识检索召回设计、精准答案生成等全RAG环节的闭环,解决传统RAG“数据割裂、检索单一”问题。

1.1.1 知识库架构:动态化知识生产流水线

负责将非结构化数据转化为动态可检索的知识图谱,流程如图1所示:

picture.image

动态化知识生产流水线

1.1.2 检索架构:五路召回+RRF融合引擎

采用分层索引设计:文档级向量索引(粗筛) → 段落级向量计算(精匹配) → 实体级关联推理(深度发现)。负责将用户问题转化为精准可解释的答案,支持完整的检索路径可视化、推理链条展示、置信度解释和源头追溯(如“GC03→原材料A→供应链风险”),流程如图2所示:

picture.image

检索架构:五路召回+RRF融合引擎

1.2 核心技术栈与痛点解决方案

传统方案在知识检索领域存在跨文档关联断裂、单一检索方式覆盖不全、深层推理能力缺失、知识更新滞后以及结果可信度难评估等核心痛点。KnowLion针对性提出解决方案:通过实体桥梁实现跨文档知识连接,以五路召回机制形成互补来解决单一检索覆盖不全问题,依托多跳路径发现隐含关联补足深层推理能力,借助实时聚合更新机制改善知识更新滞后状况,并通过多维度质量评分体系保障结果可信度,全面攻克传统方案短板,提升知识检索的完整性、时效性与可靠性。

picture.image

KnowLion - HyperGraphRAG解决方案

KnowLion核心技术栈由五层核心架构协同构成,形成从多源内容解析到知识动态维护的全链路能力。

| 技术层 | 核心组件 | 功能作用 | | 文档解析层 | OCR小模型 + 多模态大模型 | 识别多格式内容,图片/表格/公式转结构化文本 | | 知识处理层 | EmbeddingModel + LLM | 语义向量化、实体关系抽取、质量评分 | | 存储层 | AbutionGraph动态图数据库 | 动态属性聚合、实时索引、实时图计算 | | 检索层 | 五路召回引擎 + RRF排序 | 全场景检索、公平融合 | | 维护层 | Agent智能组件 | 相似知识子图合并、自动更新 |

2 三级超图存储结构设计

2.1 创新存储架构

KnowLion摒弃传统“向量库+静态图谱”分离模式,以“检索为中心”设计Schema,构建“Doc→Para→Entity”三级超图,实现“语义特征、实体关系、动态属性”一体化存储。利用时序聚合计算能力实现实时演化,数据写入立即可进行多粒度检索互筛,无需二次加工。并且各层级实体均具备“静态标识+动态属性”,通过AbutionGraph聚合函数实现实时更新。

| 实体层级 | 核心属性(动态聚合能力) | 聚合方式/更新逻辑 | 核心作用 | | 文档(Doc) |

  1. vector:文档级聚合向量

  2. doc_bm25:实体词频/逆文档频率

  3. updated_at:最新更新时间

  4. classify:子图隔离标签 |

  5. VectorIndexMerge()

  6. BM25Index()

  7. Agg.Max()

  8. Agg.StrConcat("|") | 粗粒度索引,快速筛选相关文档 | | 段落(Para) |

  9. content:动态融合内容

  10. entity_count:实体密度

  11. vector:段落语义向量

  12. 主题重叠率:触发Agent更新 |

  13. Agg.StrConcat("\n")

  14. Agg.Sum()

  15. Agg.FloatArrayAdd()

  16. 实时计算 | 细粒度检索单元,直接作为答案来源 | | 实体(Entity) |

  17. synonyms:同义词集合

  18. occur_count:出现频次

  19. confidence/importance:置信度/重要性

  20. neighbors:邻居基数

  21. vector:聚合向量 |

  22. Agg.CollectionConcat()

  23. Agg.Sum()

  24. Agg.QuantileDoubles()

  25. Agg.DistinctCountHllp()

  26. Agg.FloatArrayAdd() | 知识关联核心,支撑跨文档/多跳检索 |

2.2 架构优势分析

三层不同粒度的图谱结构设计,是纯向量方式到文章结构图谱的复杂度折中方案:

Doc类型实体 :包含文章结构信息,用于全局检索•Para类型实体 :包含切片的段落摘要主题(已结合上下文去冗余优化)•Entity类型实体 :包含跨文档的实体细节(自动跨文档信息融合)

三种不同粒度的知识结合可实现粗细粒度的召回互筛,提升检索精度,同时避免了基于纯向量知识库(VectorRAG)精度过低的问题,以及基于纯图谱知识库(GraphRAG)构建过于复杂的维护难题。

2.3 关联关系设计

KnowLion在“Doc→Para→Entity”三级超图的关联关系上采用多对多的轻量级聚合边设计:

•一个实体关联多文档/段落•一个段落包含多实体•重复边自动合并成一条无损事实边•还原知识复杂关联,有效避免“信息孤岛”•串联跨部门知识

边仅存储关联事实和动态权重,实时自动去重能大大减少存储,提升多跳推理速度。实体可通过一跳关系聚合多个邻居的语义,实现实体语义的自动扩增与融合,检索精度随知识积累持续优化。

3 动态图谱核心技术

3.1 动态图谱创新特性

传统RAG图谱多为“静态构建+定期更新”,KnowLion的核心是动态属性驱动的超图模型 。通过8大动态特性实现知识“自生长、自优化”:

| 动态特性 | AbutionGraph内置实现 | 业务价值 | | 时序驱动演化 | updated\_at(Agg.Max())

occur\_count(Agg.Sum()) | 高频实体优先展示,旧知识自动降权 | | 实时向量聚合 | vector(Agg.FloatArrayAdd()) | 新文档立即内可检索,检索精度不衰减 | | 动态邻居发现 | neighbors(Agg.DistinctCountHllp()) | 识别核心实体(如高频关联的“GC03项目”) | | 质量动态评估 | confidence(Agg.QuantileDoubles()) | 业务新词自动标记,支撑NLP模型对查询文本的识别 | | 关系事实演进 | fact(Agg.CollectionConcat()) | 保留关系全量历史,避免描述丢失 | | 权限动态继承 | classify(Agg.RoleConcat()) | 新实体/段落自动继承权限,适配多租户 | | 实时索引更新 | Vector/BM25索引增量更新 | 知识更新无感知,响应速度稳定 | | Agent自动维护 | 重叠率阈值触发 Agg.VectorSimCrudAgent(monitor) | 使用LLM自动更新局部区域子图,减少人工成本,降低知识冗余 |

3.2 聚合函数能力

动态特性的实现得益于Abution时序图谱的聚合策略设计。区别于物联网需要时间窗口的场景,RAG场景没有多维时序的特殊要求,可直接调用Abution的基础聚合函数获得丰富的拓扑图指标:

| 属性类型 | 聚合函数 | 业务意义 | | 数值统计 | Agg.Sum() | 统计实体频次、段落实体密度 | | 语义向量 | Agg.FloatArrayAdd() | 实体向量融合邻居信息,提升匹配度 | | 集合操作 | Agg.CollectionConcat() | 合并标签、同义词,自动去重 | | 高基数统计 | Agg.DistinctCountHllp() | 高效统计实体邻居基数,避免内存溢出 | | 分位数统计 | Agg.QuantileDoubles() | 实时计算置信度/重要性,筛选高质量知识 |

这对召回时的上下文及实体质量评估能起到关键作用。

3.3 动态知识图谱建模

此展示为KnowLion系统的简化版schema,采用AbutionGraph原生建模结构,图查询语言不限于Cypher、Gremlin、SparQL、GraphQL。

  
# 初始化智能维护Agent  
vector_agent =Agg.VectorSimCrudAgent(  
    model_configs={"model":"deepseek-v3","threshold":0.8},  
    enabled=True  
)  
# 核心Schema定义  
schema =(Schema.Builder()  
# 1. 文档实体(Doc)  
.entity("文档",Dimension.label("Doc","粗粒度索引-分布式并行"))  
.property("titles", T.TreeSetString,Agg.CollectionConcat(),"文档目录(去重)")  
.property("vector", T.VectorIndex,Agg.VectorIndexMerge(),"文档聚合向量")  
.property("doc_bm25", T.BM25Index,Agg.BM25Index(),"BM25关键词索引")  
.property("updated_at", T.Long,Agg.Max(),"最新更新时间")  
.property("classify", T.String,Agg.StrConcat("|"),"子图隔离标签")  
.groupBy("user_id","classify")  
  
# 2. 段落实体(Para)  
.entity("段落",Dimension.label("Para","检索最小单元"))  
.property("doc_name", T.String,Agg.Last(),"所属文档")  
.property("content", T.String,Agg.StrConcat("\n"),"动态融合内容")  
.property("type", T.String,Agg.StrConcat("|"),"内容类型(Text/Table等)")  
.property("entity_count", T.Integer,Agg.Sum(),"实体密度统计")  
.property("vector", T.FloatArray,Agg.FloatArrayAdd(),"段落语义向量")  
.property("vector_paras", T.CustomMap,Agg.CustomMap(vector_agent),"相似性检测与合并")  
.property("processing", T.Boolean,Agg.IsTrue(),"段落处理-执行Agent的状态控制")  
.groupBy("user_id","classify","doc_name")  
  
# 3. 实体实体(Entity)  
.entity("实体",Dimension.label("Entity","知识关联核心"))  
.property("labels", T.TreeSetString,Agg.CollectionConcat(),"实体标签(去重)")  
.property("synonyms", T.TreeSetString,Agg.CollectionConcat(),"同义词扩展")  
.property("details", T.CustomMap,Agg.CustomMap(Agg.StrConcat("\n")),"多源描述")  
.property("occur_count", T.Integer,Agg.Sum(),"出现频次")  
.property("confidence", T.QuantileDoubles,Agg.QuantileDoubles(),"置信度分位数")  
.property("neighbors", T.DistinctCountHllp,Agg.DistinctCountHllp(),"邻居高基数统计")  
.property("vector", T.FloatArray,Agg.FloatArrayAdd(),"实体聚合向量")  
.groupBy("user_id","classify")  
  
# 4. 核心关系(Edge)  
.edge("文档","段落",Dimension.label("Doc2Para","文档-段落关联"))  
.edge("段落","段落",Dimension.label("Para2Para","上下文关联"))  
.edge("段落","实体",Dimension.label("Para2Entity","段落-实体关联"))  
.edge("实体","实体",Dimension.label("Entity2Entity","实体-关系关联"))  
.property("fact", T.TreeSet,Agg.CollectionConcat(),"关系事实描述")  
.property("occur_count", T.Integer,Agg.Sum(),"关系频次")  
.groupBy("user_id","classify")  
  
# 5. 权限控制|子图隔离标签  
.dataRoleProperty("classify")  
.build())

4 多路检索架构设计

4.1 整体检索流程

  
用户问题→多路并行召回→ RRF重排序→上下文压缩→生成答案  
↓↓↓↓↓  
查询理解向量/关键词/关联/融合排序信息精炼可解释答案  
上下文/推理召回

4.2 互补性设计原理

KnowLion的五路召回基于“互补性原则”深度协同:

语义↔关键词互补 :Vector覆盖“语义相似”需求,BM25覆盖“术语精准匹配”需求•实体↔上下文互补 :实体关联实现“横向跨文档扩展”,上下文关联实现“纵向同文档深化”•基础↔推理互补 :前四路覆盖“表层信息召回”,多跳推理覆盖“深层逻辑挖掘”

picture.image

HyperGraphRAG-多路检索架构设计

4.2.1 全场景五路召回策略

| 召回路径 | 技术原理 | 优化策略 | 适用场景 | |

  1. Vector语义召回 | 基于语义向量计算余弦相似度 | 文档粗筛→段落精筛,效率提升10倍 | 模糊查询(如"如何优化检索速度") | |
  2. BM25关键词召回 | 实体词典优化分词,统计词频/逆文档频率 | 双输出:文档段落+命中实体,精准匹配术语 | 技术术语(如"API参数配置") | |
  3. 实体关联召回 | 以种子实体为桥梁,串联跨文档段落 | 实体质量分=相似度×重要性×中心性×跨文档奖励 | 跨部门知识关联(如"项目进度") | |
  4. 上下文关联召回 | 基于Para2Para边,召回相邻段落 | 实体密度≥5的段落得分+20%,优先高信息密度 | 步骤类查询(如"部署流程") | |
  5. 多跳推理召回 | 2-3跳路径遍历,路径得分剪枝 | 得分公式:0.4语义+0.3路径+0.2重要性+0.1多样性 | 深层关联(如"项目供应链风险") |

4.3 融合排序与质量评估

4.3.1 RRF融合排序优化

采用RRF算法实现公平融合,并二次排序:RRF得分相同时,按"实体质量分+跨文档权重"排序,实现多路结果去重、多样性保障、动态K值调整。

4.3.2 质量评估体系

| 评估维度 | 评估标准 | | 实体置信度 | 基于出现频次(occur_count)和来源权威性(核心文档+30%得分) | | 路径质量 | 推理路径完整性(≥2个高置信度实体)+关系匹配度(≥0.8) | | 内容质量 | 段落实体密度(entity_count≥5得分+20%)+语义完整性(无截断) | | 多样性 | 结果集来自不同文档/部门的段落+15%得分,避免同质化 |

5 智能维护Agent实现

5.1 核心架构设计

VectorSimCrudAgent是动态维护的核心,负责相似知识检测、合并与图谱更新。每个段落实体都具备自动检测和优化能力,一旦满足条件即触发大模型进行知识图谱更新任务。

5.1.1 核心职责

1.向量相似性检测 :基于余弦相似度(阈值0.8)判断段落/实体是否相似,标记待合并项2.知识合并优化 :调用LLM提取核心语义,生成精简完整的新内容3.图谱一致性更新 :删除旧节点及关联边,插入新节点并重建关系,确保超图结构完整

5.1.2 工作流程

picture.image

KnowLion-VectorSimCrudAgent工作流程

5.2 关键特性

可配置 :支持调整相似度阈值、LLM参数、触发频率•异步处理 :基于CompletableFuture实现非阻塞合并,不影响检索响应•容错机制 :合并失败自动回滚,避免图谱数据损坏•MCP集成 :AbutionGraph已融入MCP体系,未来可优化为推理Agent,让LLM真正成为知识探索与决策智能的知识库"助手"

6 实际应用价值验证

6.1 企业知识管理场景

多租户隔离 :完整数据隔离权限•细粒度权限 :用户级文档访问控制•文档分类管理 :在用户基础上设置文档类别进行子图隔离•版本管理 :时序属性支持文档演化追踪

6.2 智能问答系统

复杂查询处理 :多跳推理解决复杂问题•质量保障 :多维度评估确保答案可靠性•追溯能力 :完整的引用和来源标注

6.3 学术研究支持

术语扩展 :同义词集合支持学术术语变异•文献关联 :跨文献的实体关系发现•可信度评估 :基于引用频次的置信度计算

7 总结:KnowLion核心竞争力

7.1 技术优势

在RAG技术同质化严重的当下,KnowLion的差异化优势集中在三大维度:

1.动态化内核 :从数据建模到检索,全链路动态化,突破传统RAG的静态瓶颈2.多维度融合 :五路召回+RRF融合,覆盖"表层-深层""单一文档-跨文档"全场景3.企业级适配 :细粒度权限、高基数优化、Agent自动维护,满足大规模落地需求

7.2 与传统系统对比

相对于纯向量数据库:

1.结构化语义理解2.可解释性增强3.多粒度检索

相对于传统图数据库:

1.内置语义检索能力2.综合利用结构化和语义信息

7.3 核心价值定位

KnowLion不仅是技术工具,更是企业知识管理的"智能中枢"——通过动态化、全维度的设计,让每一份知识都能被精准检索、实时更新、深度关联,为企业数字化转型提供坚实的知识支撑。

总的来说,KnowLion是第一个在图数据库层次和大语言模型结合的高级检索系统先驱,旨在提供更准确、可解释性更强的检索结果,是企业级知识管理的理想解决方案。

开源地址:https://github.com/ThutmoseAI/KnowLion

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
云原生数据库 veDB 核心技术剖析与展望
veDB 是一款分布式数据库,采用了云原生计算存储分离架构。本次演讲将为大家介绍火山引擎这款云原生数据库的核心技术原理,并对未来进行展望。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论