发布时间:2025年05月17日
RAG
如遇无法添加,请+ vx: iamxxn886
添加注明 DORAG
1、RAG研究现状
问答系统(QA)让用户能用自然语言从海量资料中精准获取信息,主要分为两类:
- 开放域QA依托常识作答
- 封闭域QA则需专业资料支持
随着DeepSeek-R1、Grok-3等大语言模型(LLM)的突破,文本流畅度和语义理解显著提升。但这些模型依赖参数记忆,遇到专业术语或复杂推理时,仍可能"胡言乱语"或答非所问。
检索增强生成(RAG)通过在作答前抓取相关片段提升准确性-,知识图谱(KG)则用结构化关系网络支持多步推理。
但现有方案存在明显缺陷:
- 技术文档中的复杂关联常被割裂检索,导致答案支离破碎;
- 构建高质量领域图谱费时费力,与向量搜索结合又带来巨大工程负担。
为此,清华大学团队推出DO-RAG框架,实现三大创新:
- 构建动态知识图谱:通过多级智能体 流水线,自动从文本、表格等多模态数据中提取实体关系
- 双轨检索融合:结合图谱推理与语义搜索 ,生成信息饱满的提示模板
- 幻觉修正机制:对照知识库校验答案,迭代修正逻辑漏洞
在数据库等专业领域测试中,DO-RAG以94%的准确率碾压主流方案,最高领先33个百分点。模块化设计支持即插即用,无需重训练即可迁移到新领域。
二、什么是DO-RAG?
2.1 系统架构全景
如上图所示,DO-RAG系统由四大核心模块构成:
- 多模态文档解析与分块处理
- 知识图谱(KG)构建中的多层级实体关系抽取
- 图遍历与向量搜索的混合检索机制
- 面向精准回答的多阶段生成引擎
系统首先对日志、技术文档、图表等异构数据进行智能分块,并将文本片段与其向量化表示同步存储于pgvector增强的PostgreSQL数据库。
通过思维链驱动的智能体流程,将文档内容转化为结构化的多模态知识图谱(MMKG),精准捕捉系统参数、行为特征等多维关联。
当用户发起查询时,意图解析模块会将其拆解为若干子查询。系统首先在知识图谱中定位相关实体节点,通过多跳推理扩展检索边界,获取富含领域特性的结构化上下文。
随后,系统运用图谱感知的提示模板对原始查询进行语义精炼,将其转化为无歧义的精准表达。优化后的查询通过向量化检索,从数据库中召回最相关的文本片段。
最终,系统融合原始查询、优化语句、图谱上下文、检索结果及对话历史,构建统一提示输入生成引擎。
答案生成经历三阶段打磨:首轮生成、事实校验与语义优化、最终凝练。系统还会智能预测后续问题,实现自然流畅的多轮对话体验。
2.2 知识库构建
文档处理从多模态输入开始,文本、表格和图像经过标准化处理,分割为语义连贯的片段,同时保留源文件结构、章节层级等元数据以确保可追溯性。
采用多智能体分层流水线并行抽取结构化知识。如上图所示,四个专用智能体各司其职:
- 高层智能体 :解析文档骨架(章节/段落)
- 中层智能体 :抓取领域实体(系统组件/API/参数)
- 底层智能体 :挖掘细粒度操作逻辑(线程行为/错误链路)
- 协变量智能体 :标注节点属性(默认值/性能影响)
最终生成动态知识图谱,以节点表实体、边表关联、权重表置信度。通过余弦相似度比对实体嵌入向量实现去重,并聚合相似实体为摘要节点以简化图谱。
2.3 混合检索与查询分解
如上图所示,当用户提问时,DO-RAG会通过基于大语言模型的意图分析器对问题进行结构化拆解,生成指导知识图谱(KG)和向量库检索的子查询。
系统首先根据语义相似度从KG中提取相关节点,通过多跳遍历构建富含上下文的子图。借助图感知提示,这些图谱证据会优化查询表述并消除歧义。优化后的查询经向量化处理后,即可从向量库中获取语义相近的内容片段。
最终,DO-RAG会将原始查询、优化查询、图谱上下文、向量检索结果及用户对话历史等所有信息,整合成统一的提示框架。
2.4 答案的生成与交付
如上图所示,最终答案通过分阶段提示策略生成。
首先,基础提示要求大语言模型仅依据检索到的证据作答,避免无依据内容。
然后通过优化提示对答案进行结构调整和验证。
最后凝练阶段确保回答的语气、语言和风格与问题保持一致。
为提升交互体验,DO-RAG还会基于优化后的答案生成后续问题。最终交付内容包括:
- (1) 精炼可验证的答案,
- (2) 标注来源的引用,
- (3) 针对性后续问题。
若证据不足,系统会如实返回"我不知道",确保可靠性和准确性。
- 效果对比
选用Client Service国际公司(CSII)研发的SunDB分布式关系数据库作为测试平台。其技术手册、系统日志和规范说明构成的异构数据集,为验证DO-RAG的多模态处理、实体关系挖掘和混合检索能力提供了理想场景。
3.1 实验配置
3.1.1 硬件环境
64GB内存+NVIDIA A100显卡的Ubuntu工作站
3.1.2 软件栈
- 追踪系统:LangFuse(v3.29.0)
- 缓存管理:Redis(v7.2.5)
- 文档存储:MinIO(最新版)
- 分析引擎:ClickHouse(稳定版)
- 向量数据库:PostgreSQL+pgvector组合
3.1.3 测试数据
- SunDB核心数据集:含嵌入式代码的技术文档
- 电气工程辅助集:带电路图的技术手册
每组245道专业题库均标注标准答案及精确出处
3.1.4 评估体系
四大核心指标(达标线0.7分):
- 答案相关性(Answer Relevancy, AR) - 语义匹配度
- 上下文召回(Contextual Recall, CR) - 信息完整度
- 检索精度(Contextual Precision, CP) - 结果纯净度
- 内容忠实度(Faithfulness, F) - 答案可信度
3.1.5 评估工具链
- RAGAS负责指标计算
- DeepEval进行端到端验证
- LangFuse实现全链路追踪
3.1.6 对比方案
- 横向对比:FastGPT/TiDB.AI/Dify.AI三大主流框架
- 纵向对比:知识图谱增强版vs纯向量检索版
3.2 外部基准测试
如上表显示,在跨模型测试中,SunDB.AI的综合评分全面超越FastGPT、TiDB.AI和Dify.AI三大基线系统。
下图通过可视化对比,直观呈现了SunDB.AI的持续领先优势。
3.3 内部优化验证
上表表明集成知识图谱后,DeepSeek-V3的答案相关性提升5.7%,上下文精确度提高2.6%,双模型均实现100%上下文召回。
未启用图谱时,召回率下滑至96.4%-97.7%,且因依赖非结构化搜索导致可信度降低。
DeepSeek-R1在启用图谱后出现5.6%的可信度微降,推测源于其创造性输出特性
3.4 领域专项表现
SunDB与电气领域测试数据(表III/IV)显示,各模型上下文召回率均逼近满分。答案相关性、精确度与可信度的差异化表现,折射出不同模型的特长所在。
小仙女评:
“ 略微有点噱头的意思,测试基准没有包括GraphRAG、lightRAG等经典Graph+RAG的框架。但多Agent设计用于图谱构建的思路可供借鉴。但项目未开源,有点可惜。
-
获取更多最新Arxiv论文更新: https://github.com/HuggingAGI/HuggingArxiv!
-
加入社群,+v: iamxxn886