清华大学新RAG框架:DO-RAG 准确率飙升33%!

向量数据库大模型数据库
清华大学新RAG框架:DO-RAG 准确率飙升33%!

发布时间:2025年05月17日

RAG

picture.image

如遇无法添加,请+ vx: iamxxn886

添加注明 DORAG


1、RAG研究现状

问答系统(QA)让用户能用自然语言从海量资料中精准获取信息,主要分为两类:

  • 开放域QA依托常识作答
  • 封闭域QA则需专业资料支持

随着DeepSeek-R1、Grok-3等大语言模型(LLM)的突破,文本流畅度和语义理解显著提升。但这些模型依赖参数记忆,遇到专业术语或复杂推理时,仍可能"胡言乱语"或答非所问。

检索增强生成(RAG)通过在作答前抓取相关片段提升准确性-,知识图谱(KG)则用结构化关系网络支持多步推理。

但现有方案存在明显缺陷:

  • 技术文档中的复杂关联常被割裂检索,导致答案支离破碎;
  • 构建高质量领域图谱费时费力,与向量搜索结合又带来巨大工程负担。

为此,清华大学团队推出DO-RAG框架,实现三大创新:

  • 构建动态知识图谱:通过多级智能体 流水线,自动从文本、表格等多模态数据中提取实体关系
  • 双轨检索融合:结合图谱推理与语义搜索 ,生成信息饱满的提示模板
  • 幻觉修正机制:对照知识库校验答案,迭代修正逻辑漏洞

在数据库等专业领域测试中,DO-RAG以94%的准确率碾压主流方案,最高领先33个百分点。模块化设计支持即插即用,无需重训练即可迁移到新领域。

二、什么是DO-RAG?

2.1 系统架构全景

picture.image

如上图所示,DO-RAG系统由四大核心模块构成:

  • 多模态文档解析与分块处理
  • 知识图谱(KG)构建中的多层级实体关系抽取
  • 图遍历与向量搜索的混合检索机制
  • 面向精准回答的多阶段生成引擎

系统首先对日志、技术文档、图表等异构数据进行智能分块,并将文本片段与其向量化表示同步存储于pgvector增强的PostgreSQL数据库。

通过思维链驱动的智能体流程,将文档内容转化为结构化的多模态知识图谱(MMKG),精准捕捉系统参数、行为特征等多维关联。

当用户发起查询时,意图解析模块会将其拆解为若干子查询。系统首先在知识图谱中定位相关实体节点,通过多跳推理扩展检索边界,获取富含领域特性的结构化上下文。

随后,系统运用图谱感知的提示模板对原始查询进行语义精炼,将其转化为无歧义的精准表达。优化后的查询通过向量化检索,从数据库中召回最相关的文本片段。

最终,系统融合原始查询、优化语句、图谱上下文、检索结果及对话历史,构建统一提示输入生成引擎。

答案生成经历三阶段打磨:首轮生成、事实校验与语义优化、最终凝练。系统还会智能预测后续问题,实现自然流畅的多轮对话体验。

2.2 知识库构建

文档处理从多模态输入开始,文本、表格和图像经过标准化处理,分割为语义连贯的片段,同时保留源文件结构、章节层级等元数据以确保可追溯性。

picture.image

采用多智能体分层流水线并行抽取结构化知识。如上图所示,四个专用智能体各司其职:

  • 高层智能体 :解析文档骨架(章节/段落)
  • 中层智能体 :抓取领域实体(系统组件/API/参数)
  • 底层智能体 :挖掘细粒度操作逻辑(线程行为/错误链路)
  • 协变量智能体 :标注节点属性(默认值/性能影响)

最终生成动态知识图谱,以节点表实体、边表关联、权重表置信度。通过余弦相似度比对实体嵌入向量实现去重,并聚合相似实体为摘要节点以简化图谱。

2.3 混合检索与查询分解

picture.image

如上图所示,当用户提问时,DO-RAG会通过基于大语言模型的意图分析器对问题进行结构化拆解,生成指导知识图谱(KG)和向量库检索的子查询。

系统首先根据语义相似度从KG中提取相关节点,通过多跳遍历构建富含上下文的子图。借助图感知提示,这些图谱证据会优化查询表述并消除歧义。优化后的查询经向量化处理后,即可从向量库中获取语义相近的内容片段。

最终,DO-RAG会将原始查询、优化查询、图谱上下文、向量检索结果及用户对话历史等所有信息,整合成统一的提示框架。

2.4 答案的生成与交付

picture.image

如上图所示,最终答案通过分阶段提示策略生成。

首先,基础提示要求大语言模型仅依据检索到的证据作答,避免无依据内容。

然后通过优化提示对答案进行结构调整和验证。

最后凝练阶段确保回答的语气、语言和风格与问题保持一致。

为提升交互体验,DO-RAG还会基于优化后的答案生成后续问题。最终交付内容包括:

  • (1) 精炼可验证的答案,
  • (2) 标注来源的引用,
  • (3) 针对性后续问题。

若证据不足,系统会如实返回"我不知道",确保可靠性和准确性。

  1. 效果对比

选用Client Service国际公司(CSII)研发的SunDB分布式关系数据库作为测试平台。其技术手册、系统日志和规范说明构成的异构数据集,为验证DO-RAG的多模态处理、实体关系挖掘和混合检索能力提供了理想场景。

3.1 实验配置

3.1.1 硬件环境

64GB内存+NVIDIA A100显卡的Ubuntu工作站

3.1.2 软件栈

  • 追踪系统:LangFuse(v3.29.0)
  • 缓存管理:Redis(v7.2.5)
  • 文档存储:MinIO(最新版)
  • 分析引擎:ClickHouse(稳定版)
  • 向量数据库:PostgreSQL+pgvector组合

3.1.3 测试数据

  • SunDB核心数据集:含嵌入式代码的技术文档
  • 电气工程辅助集:带电路图的技术手册

每组245道专业题库均标注标准答案及精确出处

3.1.4 评估体系

四大核心指标(达标线0.7分):

  • 答案相关性(Answer Relevancy, AR) - 语义匹配度
  • 上下文召回(Contextual Recall, CR) - 信息完整度
  • 检索精度(Contextual Precision, CP) - 结果纯净度
  • 内容忠实度(Faithfulness, F) - 答案可信度

3.1.5 评估工具链

  • RAGAS负责指标计算
  • DeepEval进行端到端验证
  • LangFuse实现全链路追踪

3.1.6 对比方案

  • 横向对比:FastGPT/TiDB.AI/Dify.AI三大主流框架
  • 纵向对比:知识图谱增强版vs纯向量检索版

3.2 外部基准测试

picture.image

如上表显示,在跨模型测试中,SunDB.AI的综合评分全面超越FastGPT、TiDB.AI和Dify.AI三大基线系统。

下图通过可视化对比,直观呈现了SunDB.AI的持续领先优势。

picture.image

3.3 内部优化验证

picture.image

上表表明集成知识图谱后,DeepSeek-V3的答案相关性提升5.7%,上下文精确度提高2.6%,双模型均实现100%上下文召回。

未启用图谱时,召回率下滑至96.4%-97.7%,且因依赖非结构化搜索导致可信度降低。

DeepSeek-R1在启用图谱后出现5.6%的可信度微降,推测源于其创造性输出特性

3.4 领域专项表现

picture.image

SunDB与电气领域测试数据(表III/IV)显示,各模型上下文召回率均逼近满分。答案相关性、精确度与可信度的差异化表现,折射出不同模型的特长所在。


小仙女评:

“ 略微有点噱头的意思,测试基准没有包括GraphRAG、lightRAG等经典Graph+RAG的框架。但多Agent设计用于图谱构建的思路可供借鉴。但项目未开源,有点可惜。


0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 NoSQL 的实践与探索
随着 NoSQL 的蓬勃发展越来越多的数据存储在了 NoSQL 系统中,并且 NoSQL 和 RDBMS 的界限越来越模糊,各种不同的专用 NoSQL 系统不停涌现,各具特色,形态不一。本次主要分享字节跳动内部和火山引擎 NoSQL 的实践,希望能够给大家一定的启发。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论