本公众号主要关注NLP、CV、LLM、RAG、Agent等AI前沿技术,免费分享业界实战案例与课程,助力您全面拥抱AIGC。
文档问答太难了
含有丰富文本和视觉元素(如图表、图像等)的长文档,在进行文档问答时,现有的方案有其局限性:
- 传统的大型语言模型(LLMs)仅能处理文本信息
- 大型视觉语言模型(LVLMs)虽然能够处理视觉内容,但在处理长文档时往往效率低下,并且难以对文本和视觉信息进行有效的融合与推理。
- 现有的检索增强生成(RAG)方法虽然能够从长文档中提取关键信息,但它们通常仅依赖于单一模态(文本或图像)进行检索,缺乏跨模态的信息整合能力。
MDocAgent
5个智能体
MDocAgent通过引入多个专门的智能体(agents),协同处理文本和图像信息,以实现对文档内容的深入理解。 具体而言,MDocAgent 包含以下五个智能体:
- 通用智能体(General Agent):负责初步的多模态信息整合,为后续的分析提供基础。
- 关键信息提取智能体(Critical Agent):识别并提取对回答问题至关重要的文本和视觉信息,为其他智能体提供指导。
- 文本智能体(Text Agent):专注于文本信息的分析,从文本中提取与问题相关的细节。
- 图像智能体(Image Agent):专注于图像信息的分析,从图像中提取与问题相关的视觉细节。
- 总结智能体(Summarizing Agent):综合所有智能体的输出,生成最终的答案。
MDocAgent架构
- MDocAgent 通过多模态多智能体的协同工作,实现对文档内容的全面理解。
- 该框架不仅关注文本和图像信息的独立分析,还强调跨模态信息的融合与推理。
- 通过将文档预处理、多模态上下文检索、关键信息提取、专门智能体处理以及答案合成等步骤有机结合,MDocAgent 能够在复杂的文档环境中,精准地定位和整合关键信息,从而生成准确的答案。
- 文档预处理:
- 文档预处理的目的是,将文档转换为适合后续分析的格式。
- 对于文档中的每一页,使用 OCR 技术识别图像中的文本内容,同时通过 PDF 解析技术提取数字化文本。
- 将提取的文本表示为文本段落序列,每个段落包含一页中的部分或全部文本。
- 同时,将每一页的原始图像保留下来,以便后续的视觉分析。
- 多模态上下文检索:
- 多模态上下文检索阶段的目标是,从文档中检索与问题最相关的文本和图像信息。
- 使用 ColBERT 对文档中的文本段落进行索引,并根据问题检索出最相关的文本段落。
- 使用 ColPali 对文档中的图像页面进行处理,生成视觉嵌入向量,并根据问题检索出最相关的图像页面。
- 通过比较文本和图像的相关性得分,选择最相关的文本段落和图像页面作为后续分析的上下文。
- 这一阶段通过结合文本和图像检索,为后续的智能体分析提供了丰富的上下文信息。
- 关键信息提取:
- 关键信息提取阶段目的是,从检索到的上下文中提取对回答问题至关重要的信息。
- 通用智能体对检索到的文本和图像信息进行初步分析,生成初步答案。
- 关键信息提取智能体则进一步分析这些信息,提取出对回答问题至关重要的文本和视觉信息。
- 提取的关键信息将作为后续专门智能体处理的输入,指导它们的分析过程。
- 这一阶段通过提取关键信息,为后续的专门智能体处理提供明确的指导,提高系统的效率和准确性。
- 专门智能体处理:
- 专门智能体处理的目的是,对提取的关键信息进行深入分析。
- 文本智能体接收提取的关键文本信息和相关的文本上下文,通过分析文本内容,生成详细的文本答案。
- 图像智能体接收提取的关键视觉信息和相关的图像上下文,通过分析图像内容,生成详细的视觉答案。
- 文本智能体和图像智能体分别从文本和图像的角度对问题进行分析,生成的答案将作为后续答案合成阶段的输入。
- 这一阶段通过专门智能体的协同工作,实现对文本和图像信息的深入分析,为最终答案的生成提供了丰富的依据。
- 答案合成:
- 答案合成阶段目的是,综合所有智能体的输出,生成最终的答案。
- 总结智能体接收来自通用智能体、文本智能体和图像智能体的答案。
- 总结智能体分析这些答案,识别其中的共同点、差异和互补信息。
- 总结智能体根据这些分析结果,生成一个综合性的答案,该答案不仅考虑了文本和图像信息,还考虑了它们之间的关系。
- 这一阶段通过综合分析所有智能体的输出,生成了一个全面且准确的答案。
MDocAgent方案VS M3DocRAG & ColBERT+Llama3.1
案例1
- 要求比较文档中两个不同拉丁裔群体的人口数量:外国出生的拉丁裔和通过手机采访的拉丁裔。
- 文档中包含了相关的文本描述和表格数据,但这些信息分散在不同的位置,需要同时从文本和图像中提取并整合。
- 检索阶段:
- ColBERT 和 ColPali 成功检索到了包含相关信息的页面,但仅检索到页面是不够的,还需要进一步分析页面中的具体内容。
- ColBERT:仅依赖文本信息,未能准确解析文本中的数值数据,错误地得出“外国出生的拉丁裔人口更多”的结论。
- M3DocRAG:虽然结合了文本和图像信息,但由于缺乏对关键信息的细致提取和跨模态整合能力,未能正确回答问题。
- MDocAgent 通过多模态上下文检索,同时利用文本和图像信息,避免了单一模态方法的局限性。
- 初步分析与关键信息提取:
- 通用智能体(General Agent)生成了一个初步但较为模糊的答案,指出“通过手机采访的拉丁裔人口更多”。
- 关键信息提取智能体(Critical Agent)识别出关键信息,包括文本中的“外国出生(排除波多黎各)”和图像中的“手机抽样框架”表格。
- 专门智能体处理:
- 文本智能体(Text Agent)根据关键信息提取智能体提供的线索,从文本中提取到“外国出生(排除波多黎各)的人数为 795”。
- 图像智能体(Image Agent)从表格中提取到“通过手机采访的人数为 1051”。
- 答案合成:
- 总结智能体(Summarizing Agent)整合所有智能体的输出,生成最终答案:“通过手机采访的拉丁裔人数(1051)大于外国出生的拉丁裔人数(795)”。
案例2:
- 要求从一个列表中识别出唯一一个没有包含人员的相应图像的原因。
- 文档中包含了一个关于 NTU 智慧校园的列表,但列表没有明确编号,且每个原因旁边都有相应的图像。
- 检索阶段:
- ColBERT 未能检索到正确的证据页面,导致 ColBERT + Llama-3.1-8B 无法回答问题。
- ColPali 成功检索到了包含证据的页面,但由于缺乏对关键信息的细致提取和跨模态整合能力,未能正确回答问题。
- MDocAgent 通过多模态检索,成功定位到包含关键信息的页面。
- 初步分析与关键信息提取:
- 通用智能体(General Agent)生成了一个初步答案,但未能准确识别。
- 关键信息提取智能体(Critical Agent)识别出关键文本线索“Most Beautiful Campus”和相应的视觉元素(NTU 校园的图像)。
- 专门智能体处理:
- 文本智能体(Text Agent)根据关键信息提取智能体提供的线索,尝试从文本中找到相关信息,但由于文本中没有明确的列表编号,未能直接找到答案。
- 图像智能体(Image Agent)利用关键信息,正确识别出“NTU campus without people”作为答案。
- 答案合成:
- 总结智能体(Summarizing Agent)综合所有智能体的输出,最终确定答案为“Most Beautiful Campus”,并指出该原因的图像中没有人员
案例3:
- 要求从文档中识别出 Professor Lebour 的学位。
- 文档中包含相关文本描述和图像,但信息分散在不同的位置,需要同时从文本和图像中提取并整合。
- 检索阶段:
- ColBERT 成功检索到了包含相关信息的页面,但 ColBERT + Llama-3.1-8B 在生成答案时错误地将 “F.G.S.” 识别为一个学位,导致答案不准确。
- ColPali 未能检索到正确的页面,导致 M3DocRAG 无法回答问题。
- MDocAgent 通过多模态检索,成功定位到包含关键信息的页面。
- 初步分析与关键信息提取:
- 通用智能体(General Agent)生成了一个初步答案,但未能准确识别所有信息,错误地将 “F.G.S.” 识别为一个学位。
- 关键信息提取智能体(Critical Agent)识别出关键文本线索 “M.A.”,并从图像中提取了相关的视觉线索。
- 专门智能体处理:
- 文本智能体(Text Agent)根据关键信息提取智能体提供的线索,从文本中提取到 “G. A. Lebour, M.A., F.G.S.”,并确认 “M.A.” 是一个学位。
- 图像智能体(Image Agent)利用关键信息,确认图像中没有提供额外的学位信息,但支持文本中的 “M.A.”。
- 答案合成:
- 总结智能体(Summarizing Agent)综合所有智能体的输出,最终确定答案为 “Prof. Lebour holds a Master of Arts (M.A.) degree.”。
推荐阅读
本公众号主要关注NLP、CV、LLM、RAG、Agent等AI前言技术,免费分享业界实战案例与课程,助力您全面拥抱AIGC。