DocLLM：布局感知的大模型，摒弃昂贵视觉编码，低成本重塑文档理解 - 文章 - 开发者社区


          
论文题目：DOCLLM: A LAYOUT-AWARE GENERATIVE LANGUAGE MODEL FOR MULTIMODAL DOCUMENT UNDERSTANDING
          
论文链接：https://arxiv.org/pdf/2401.00908.pdf

概要

研究背景：

企业文档（如表格、发票、收据、报告、合同等）通常在文本和空间模态的交叉点上携带丰富的语义信息。
这些文档的复杂布局提供了视觉线索，对于有效理解这些文档至关重要。
文档智能（DocAI）在提取、分类和问答等任务中取得了显著进展，但在实际应用中仍存在显著的性能差距，特别是在准确性、可靠性、上下文理解和对未见领域的泛化能力方面。在大模型（LLM）之前，微软系列多模态模型LayoutLM、LayoutLMV2、LayoutXLM、LayoutLMV3取得了不错的效果。

模型结构：

DocLLM是一个轻量级的扩展，基于大型语言模型（LLMs），用于处理视觉文档，同时考虑文本语义和空间布局。
与传统的多模态LLMs不同，DocLLM避免了昂贵的图像编码器，专注于使用文本标记的边界框信息来整合空间布局结构。
通过分解经典Transformers中的注意力机制，DocLLM捕获文本和空间模态之间的交叉对齐。
为了解决视觉文档中常见的不规则布局和异构内容，DocLLM采用了一种预训练目标，即学习填充文本段。

picture.image

实验设计：

DocLLM首先在大量未标记文档上进行自监督预训练。
使用大规模指令数据集进行微调，覆盖四个核心文档智能任务：视觉问答（VQA）、自然语言推理（NLI）、关键信息提取（KIE）和文档分类（CLS）。
实验设置包括在相同数据集的不同分割（SDDS）和相同任务的不同数据集（STDD）上进行评估。

实验结论：

DocLLM在SDDS设置中在14个数据集中超越了最先进的LLMs，并在5个之前未见的数据集中有4个表现出良好的泛化能力。
在STDD设置中，DocLLM在4个数据集中超越了Llama2，并在DocVQA和KLC上超越了mPLUG-DocOwl和UReader。
DocLLM-1B和DocLLM-7B两个版本的模型在性能上都表现出色，其中DocLLM-7B在布局密集型任务（如KIE和CLS）中表现尤为突出。

未来规划：

将视觉信息以轻量级的方式融入DocLLM。
探索更准确的OCR引擎以提升VQA性能。
研究如何提高模型的泛化能力和可解释性。

讨论

1、DocLLM如何通过解耦的注意力机制来处理文档中的空间布局信息？

答案： DocLLM通过将注意力机制在经典Transformer中的注意力计算分解为四部分来处理空间布局信息。这四部分包括文本到文本、文本到空间、空间到文本和空间到空间的注意力。通过这种方式，DocLLM能够捕获文本和空间模态之间的交叉对齐，从而有效地处理文档的空间布局结构。

2、DocLLM的预训练目标是如何帮助模型处理不规则布局和异构内容的？

答案： DocLLM的预训练目标是通过学习填充文本块来实现的。这种目标允许模型在预训练阶段考虑较大的上下文，而不是单个标记。这种方法使得模型能够更好地处理文档中的不规则布局和异构内容，因为它可以处理更复杂的文档结构，并且能够生成上下文相关的完成，提供鲁棒性以应对OCR噪声或错位的标记。

3、DocLLM在哪些方面超越了现有的多模态LLMs，特别是在处理视觉文档时？

答案： DocLLM通过专注于使用文本标记的边界框信息来整合空间布局结构，而不是昂贵的图像编码器，从而超越了现有的多模态LLMs。这种方法使得DocLLM在处理视觉文档时更加高效和经济。此外，DocLLM通过其解耦的注意力机制和预训练目标，能够更好地处理文档中的不规则布局和异构内容，这在视觉文档理解任务中尤为重要。