前期分享了多模态rag相关思路及实现如:《多模态GraphRAG初探:文档智能+知识图谱+大模型结合范式》、《开源多模态RAG的视觉文档(OCR-Free)检索增强生成方案-VDocRAG》、《一图看懂基于ColPali与Qwen2.5-VL的文档多模态RAG技术流程》。
多模态长文档问答面临的两大挑战
多模态rag的挑战归纳两点:
- 挑战 1:跨模态信息脱节 多模态文档(如文本、表格、图表、图像)中,相关证据可能分散在不同模态中,但现有方法难以建立文本与视觉信息(如图表中的数据)的关联。例如,问题可能需要结合文本描述和图表中的视觉数据才能回答,但传统检索方法因缺乏模态间关联,无法有效定位图表中的关键信息。
- 挑战 2:跨页证据整合与推理能力不足 回答问题所需的证据可能分散在多个页面,且涉及不同模态(如一页的文本说明和另一页的表格数据),现有方法难以跨页关联这些证据并进行长距离推理。例如,用户询问某服务的联系方式时,说明性文本可能在第 54 页,而具体电话号码在第 55 页的表格中,传统方法无法有效关联这两部分信息。
多模态长文档问答方法中,多模态连接与长距离推理的必要性
下面看一个新思路,如何解决这两个挑战。
MMRAG-DocQA方法
MMRAG-DocQA是一种针对多模态长文档问答任务的检索增强生成方法,核心是通过构建层级索引结构和多粒度检索机制,解决多模态信息割裂和跨页证据推理难题 。任务的目标是基于包含文本、表格、图表、图像 等多模态内容的文档,回答可能涉及跨页、跨模态证据的问题。因此输入:一个查询
和包含
页的文档
(其中
表示第
页)。输出:基于文档证据生成的答案
。
其中,
是检索到的多模态证据,由多模态检索器(MMRetriever)从文档的层级索引(HierIndex)中获取;
是思维链提示策略,用于引导模型分步推理。
1、层级索引构建
为建立多模态信息关联和跨页依赖,MMRAG-DocQA设计了扁平化页内索引 (
)和拓扑跨页索引 (
)的双层结构:
1.1 多模态内容编码
- **文本内容(
)** :整合四种文本形式
- 纯文本(
):原始文本内容;
- 表格(
):序列化表格结构(保留行列关系);
- 布局文本(
):基于页面布局的文本信息;
- 视觉描述文本(
):通过LVLM将图像、图表等视觉内容转换为文本描述。
- **视觉内容(
)** :保留原始视觉特征(
),避免信息丢失。
1.2 扁平化页内索引(
)
目的是建立单页内多模态信息关联(如文本与图表的对应)。 将每页文本内容(
)分割为固定大小的文本块(
),通过语言模型(LM)编码为语义向量(
),并构建索引。
1.3 拓扑跨页索引(
)
目的是捕捉跨页长距离语义关联,支持跨页证据整合。
方法:
- 将全文档文本内容(
)聚类为语义相似的文本块(
); 2. 通过高斯混合模型(GMM)对文本块进行层级聚类,形成拓扑树结构:
- 叶节点:原始文本块;
- 中间节点:聚合语义相关的跨页块;
- 根节点:通过LLM生成文档主题级摘要。
- 对各层节点编码(
)并构建索引。
2. 多粒度检索
结合层级索引,MMRAG-DocQA设计了页级父页检索 和文档级摘要检索 ,分别解决多模态关联和跨页推理问题:
2.1 页级父页检索
目的是关联单页内的文本与视觉证据(如通过文本定位图表)。
大体步骤:
- 基于扁平化页内索引(
),计算查询
与文本块的语义相似度,检索Top-K相关文本块(
); 2. 定位这些文本块所属的“父页”(
),父页包含与文本关联的视觉内容(如图表、图像); 3. 通过LLM对父页进行重排序(评分0-1),筛选最相关的父页(
); 4. 从父页中提取视觉内容(
),并通过LVLM生成与查询相关的视觉证据(
)。
2.2 文档级摘要检索(Document-level Summary Retrieval)
目的是整合跨页分散的证据(如不同页面的文本与表格)。 首先基于拓扑跨页索引(
),计算查询
与各层节点的语义相似度 ; 然后检索Top-K相关的摘要节点,作为跨页证据的整合结果(
)。
3. 答案生成
检索到的证据(
、
、
)、查询
和思维链提示(
)。 整合的证据和提示,生成分步推理过程和最终答案
实验性能
参考文献:MMRAG-DocQA: A Multi-Modal Retrieval-Augmented Generation Method for Document Question-Answering with Hierarchical Index and Multi-Granularity Retrievalhttps://arxiv.org/pdf/2508.00579v2