多模态RAG长文档问答的检索增强生成方案:层级索引与跨页证据整合-MMRAG-DocQA

向量数据库大模型NoSQL数据库

前期分享了多模态rag相关思路及实现如:《多模态GraphRAG初探:文档智能+知识图谱+大模型结合范式》、《开源多模态RAG的视觉文档(OCR-Free)检索增强生成方案-VDocRAG》、《一图看懂基于ColPali与Qwen2.5-VL的文档多模态RAG技术流程》。

picture.image

多模态长文档问答面临的两大挑战

多模态rag的挑战归纳两点:

  • 挑战 1:跨模态信息脱节 多模态文档(如文本、表格、图表、图像)中,相关证据可能分散在不同模态中,但现有方法难以建立文本与视觉信息(如图表中的数据)的关联。例如,问题可能需要结合文本描述和图表中的视觉数据才能回答,但传统检索方法因缺乏模态间关联,无法有效定位图表中的关键信息。
  • 挑战 2:跨页证据整合与推理能力不足 回答问题所需的证据可能分散在多个页面,且涉及不同模态(如一页的文本说明和另一页的表格数据),现有方法难以跨页关联这些证据并进行长距离推理。例如,用户询问某服务的联系方式时,说明性文本可能在第 54 页,而具体电话号码在第 55 页的表格中,传统方法无法有效关联这两部分信息。

picture.image

多模态长文档问答方法中,多模态连接与长距离推理的必要性

下面看一个新思路,如何解决这两个挑战。

MMRAG-DocQA方法

picture.image

MMRAG-DocQA是一种针对多模态长文档问答任务的检索增强生成方法,核心是通过构建层级索引结构和多粒度检索机制,解决多模态信息割裂和跨页证据推理难题 。任务的目标是基于包含文本、表格、图表、图像 等多模态内容的文档,回答可能涉及跨页、跨模态证据的问题。因此输入:一个查询

和包含

页的文档

(其中

表示第

页)。输出:基于文档证据生成的答案

picture.image

其中,

是检索到的多模态证据,由多模态检索器(MMRetriever)从文档的层级索引(HierIndex)中获取;

是思维链提示策略,用于引导模型分步推理。

1、层级索引构建

为建立多模态信息关联和跨页依赖,MMRAG-DocQA设计了扁平化页内索引

)和拓扑跨页索引

)的双层结构:

1.1 多模态内容编码
  • **文本内容(

)** :整合四种文本形式

  • 纯文本(

):原始文本内容;

  • 表格(

):序列化表格结构(保留行列关系);

  • 布局文本(

):基于页面布局的文本信息;

  • 视觉描述文本(

):通过LVLM将图像、图表等视觉内容转换为文本描述。

  • **视觉内容(

)** :保留原始视觉特征(

),避免信息丢失。

1.2 扁平化页内索引(

目的是建立单页内多模态信息关联(如文本与图表的对应)。 将每页文本内容(

)分割为固定大小的文本块(

),通过语言模型(LM)编码为语义向量(

),并构建索引。

1.3 拓扑跨页索引(

目的是捕捉跨页长距离语义关联,支持跨页证据整合。

方法:

  1. 将全文档文本内容(

)聚类为语义相似的文本块(

); 2. 通过高斯混合模型(GMM)对文本块进行层级聚类,形成拓扑树结构:

  • 叶节点:原始文本块;
  • 中间节点:聚合语义相关的跨页块;
  • 根节点:通过LLM生成文档主题级摘要。
  • 对各层节点编码(

)并构建索引。

2. 多粒度检索

结合层级索引,MMRAG-DocQA设计了页级父页检索文档级摘要检索 ,分别解决多模态关联和跨页推理问题:

2.1 页级父页检索

目的是关联单页内的文本与视觉证据(如通过文本定位图表)。

大体步骤:

  1. 基于扁平化页内索引(

),计算查询

与文本块的语义相似度,检索Top-K相关文本块(

); 2. 定位这些文本块所属的“父页”(

),父页包含与文本关联的视觉内容(如图表、图像); 3. 通过LLM对父页进行重排序(评分0-1),筛选最相关的父页(

); 4. 从父页中提取视觉内容(

),并通过LVLM生成与查询相关的视觉证据(

)。

2.2 文档级摘要检索(Document-level Summary Retrieval)

目的是整合跨页分散的证据(如不同页面的文本与表格)。 首先基于拓扑跨页索引(

),计算查询

各层节点的语义相似度 ; 然后检索Top-K相关的摘要节点,作为跨页证据的整合结果(

)。

3. 答案生成

检索到的证据(

)、查询

和思维链提示(

)。 整合的证据和提示,生成分步推理过程和最终答案

实验性能

picture.image

picture.image

picture.image

参考文献:MMRAG-DocQA: A Multi-Modal Retrieval-Augmented Generation Method for Document Question-Answering with Hierarchical Index and Multi-Granularity Retrievalhttps://arxiv.org/pdf/2508.00579v2

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论