清华大学新RAG框架：DO-RAG 准确率飙升33%！

发布时间：2025年05月17日

RAG

picture.image

如遇无法添加，请+ vx: iamxxn886

添加注明 DORAG

1、RAG研究现状

问答系统（QA）让用户能用自然语言从海量资料中精准获取信息，主要分为两类：

开放域QA依托常识作答
封闭域QA则需专业资料支持

随着DeepSeek-R1、Grok-3等大语言模型（LLM）的突破，文本流畅度和语义理解显著提升。但这些模型依赖参数记忆，遇到专业术语或复杂推理时，仍可能"胡言乱语"或答非所问。

检索增强生成（RAG）通过在作答前抓取相关片段提升准确性-，知识图谱（KG）则用结构化关系网络支持多步推理。

但现有方案存在明显缺陷：

技术文档中的复杂关联常被割裂检索，导致答案支离破碎；
构建高质量领域图谱费时费力，与向量搜索结合又带来巨大工程负担。

为此，清华大学团队推出DO-RAG框架，实现三大创新：

构建动态知识图谱：通过多级智能体 流水线，自动从文本、表格等多模态数据中提取实体关系
双轨检索融合：结合图谱推理与语义搜索 ，生成信息饱满的提示模板
幻觉修正机制：对照知识库校验答案，迭代修正逻辑漏洞

在数据库等专业领域测试中，DO-RAG以94%的准确率碾压主流方案，最高领先33个百分点。模块化设计支持即插即用，无需重训练即可迁移到新领域。

二、什么是DO-RAG？

2.1 系统架构全景

picture.image

如上图所示，DO-RAG系统由四大核心模块构成：

多模态文档解析与分块处理
知识图谱(KG)构建中的多层级实体关系抽取
图遍历与向量搜索的混合检索机制
面向精准回答的多阶段生成引擎

系统首先对日志、技术文档、图表等异构数据进行智能分块，并将文本片段与其向量化表示同步存储于pgvector增强的PostgreSQL数据库。

通过思维链驱动的智能体流程，将文档内容转化为结构化的多模态知识图谱(MMKG)，精准捕捉系统参数、行为特征等多维关联。

当用户发起查询时，意图解析模块会将其拆解为若干子查询。系统首先在知识图谱中定位相关实体节点，通过多跳推理扩展检索边界，获取富含领域特性的结构化上下文。

随后，系统运用图谱感知的提示模板对原始查询进行语义精炼，将其转化为无歧义的精准表达。优化后的查询通过向量化检索，从数据库中召回最相关的文本片段。

最终，系统融合原始查询、优化语句、图谱上下文、检索结果及对话历史，构建统一提示输入生成引擎。

答案生成经历三阶段打磨：首轮生成、事实校验与语义优化、最终凝练。系统还会智能预测后续问题，实现自然流畅的多轮对话体验。

2.2 知识库构建

文档处理从多模态输入开始，文本、表格和图像经过标准化处理，分割为语义连贯的片段，同时保留源文件结构、章节层级等元数据以确保可追溯性。

picture.image

采用多智能体分层流水线并行抽取结构化知识。如上图所示，四个专用智能体各司其职：

高层智能体 ：解析文档骨架（章节/段落）
中层智能体 ：抓取领域实体（系统组件/API/参数）
底层智能体 ：挖掘细粒度操作逻辑（线程行为/错误链路）
协变量智能体 ：标注节点属性（默认值/性能影响）

最终生成动态知识图谱，以节点表实体、边表关联、权重表置信度。通过余弦相似度比对实体嵌入向量实现去重，并聚合相似实体为摘要节点以简化图谱。

2.3 混合检索与查询分解

picture.image

如上图所示，当用户提问时，DO-RAG会通过基于大语言模型的意图分析器对问题进行结构化拆解，生成指导知识图谱（KG）和向量库检索的子查询。

系统首先根据语义相似度从KG中提取相关节点，通过多跳遍历构建富含上下文的子图。借助图感知提示，这些图谱证据会优化查询表述并消除歧义。优化后的查询经向量化处理后，即可从向量库中获取语义相近的内容片段。

最终，DO-RAG会将原始查询、优化查询、图谱上下文、向量检索结果及用户对话历史等所有信息，整合成统一的提示框架。

2.4 答案的生成与交付

picture.image

如上图所示，最终答案通过分阶段提示策略生成。

首先，基础提示要求大语言模型仅依据检索到的证据作答，避免无依据内容。

然后通过优化提示对答案进行结构调整和验证。

最后凝练阶段确保回答的语气、语言和风格与问题保持一致。

为提升交互体验，DO-RAG还会基于优化后的答案生成后续问题。最终交付内容包括：

(1) 精炼可验证的答案，
(2) 标注来源的引用，
(3) 针对性后续问题。

若证据不足，系统会如实返回"我不知道"，确保可靠性和准确性。

效果对比

选用Client Service国际公司(CSII)研发的SunDB分布式关系数据库作为测试平台。其技术手册、系统日志和规范说明构成的异构数据集，为验证DO-RAG的多模态处理、实体关系挖掘和混合检索能力提供了理想场景。

3.1 实验配置

3.1.1 硬件环境

64GB内存+NVIDIA A100显卡的Ubuntu工作站

3.1.2 软件栈

追踪系统：LangFuse(v3.29.0)
缓存管理：Redis(v7.2.5)
文档存储：MinIO(最新版)
分析引擎：ClickHouse(稳定版)
向量数据库：PostgreSQL+pgvector组合

3.1.3 测试数据

SunDB核心数据集：含嵌入式代码的技术文档
电气工程辅助集：带电路图的技术手册

每组245道专业题库均标注标准答案及精确出处

3.1.4 评估体系

四大核心指标(达标线0.7分)：

答案相关性(Answer Relevancy, AR) - 语义匹配度
上下文召回(Contextual Recall, CR) - 信息完整度
检索精度(Contextual Precision, CP) - 结果纯净度
内容忠实度(Faithfulness, F) - 答案可信度

3.1.5 评估工具链

RAGAS负责指标计算
DeepEval进行端到端验证
LangFuse实现全链路追踪

3.1.6 对比方案

横向对比：FastGPT/TiDB.AI/Dify.AI三大主流框架
纵向对比：知识图谱增强版vs纯向量检索版

3.2 外部基准测试

picture.image

如上表显示，在跨模型测试中，SunDB.AI的综合评分全面超越FastGPT、TiDB.AI和Dify.AI三大基线系统。

下图通过可视化对比，直观呈现了SunDB.AI的持续领先优势。

picture.image

3.3 内部优化验证

picture.image

上表表明集成知识图谱后，DeepSeek-V3的答案相关性提升5.7%，上下文精确度提高2.6%，双模型均实现100%上下文召回。

未启用图谱时，召回率下滑至96.4%-97.7%，且因依赖非结构化搜索导致可信度降低。

DeepSeek-R1在启用图谱后出现5.6%的可信度微降，推测源于其创造性输出特性

3.4 领域专项表现

picture.image

SunDB与电气领域测试数据（表III/IV）显示，各模型上下文召回率均逼近满分。答案相关性、精确度与可信度的差异化表现，折射出不同模型的特长所在。

小仙女评：

“ 略微有点噱头的意思，测试基准没有包括GraphRAG、lightRAG等经典Graph+RAG的框架。但多Agent设计用于图谱构建的思路可供借鉴。但项目未开源，有点可惜。

论文原文: https://arxiv.org/abs/2505.17058
获取更多最新Arxiv论文更新: https://github.com/HuggingAGI/HuggingArxiv!
加入社群，+v: iamxxn886