论文题目:DOCLLM: A LAYOUT-AWARE GENERATIVE LANGUAGE MODEL FOR MULTIMODAL DOCUMENT UNDERSTANDING
论文链接:https://arxiv.org/pdf/2401.00908.pdf
概要
研究背景:
- 企业文档(如表格、发票、收据、报告、合同等)通常在文本和空间模态的交叉点上携带丰富的语义信息。
- 这些文档的复杂布局提供了视觉线索,对于有效理解这些文档至关重要。
- 文档智能(DocAI)在提取、分类和问答等任务中取得了显著进展,但在实际应用中仍存在显著的性能差距,特别是在准确性、可靠性、上下文理解和对未见领域的泛化能力方面。在大模型(LLM)之前,微软系列多模态模型LayoutLM、LayoutLMV2、LayoutXLM、LayoutLMV3取得了不错的效果。
模型结构:
- DocLLM是一个轻量级的扩展,基于大型语言模型(LLMs),用于处理视觉文档,同时考虑文本语义和空间布局。
- 与传统的多模态LLMs不同,DocLLM避免了昂贵的图像编码器,专注于使用文本标记的边界框信息来整合空间布局结构。
- 通过分解经典Transformers中的注意力机制,DocLLM捕获文本和空间模态之间的交叉对齐。
- 为了解决视觉文档中常见的不规则布局和异构内容,DocLLM采用了一种预训练目标,即学习填充文本段。
实验设计:
- DocLLM首先在大量未标记文档上进行自监督预训练。
- 使用大规模指令数据集进行微调,覆盖四个核心文档智能任务:视觉问答(VQA)、自然语言推理(NLI)、关键信息提取(KIE)和文档分类(CLS)。
- 实验设置包括在相同数据集的不同分割(SDDS)和相同任务的不同数据集(STDD)上进行评估。
实验结论:
- DocLLM在SDDS设置中在14个数据集中超越了最先进的LLMs,并在5个之前未见的数据集中有4个表现出良好的泛化能力。
- 在STDD设置中,DocLLM在4个数据集中超越了Llama2,并在DocVQA和KLC上超越了mPLUG-DocOwl和UReader。
- DocLLM-1B和DocLLM-7B两个版本的模型在性能上都表现出色,其中DocLLM-7B在布局密集型任务(如KIE和CLS)中表现尤为突出。
未来规划:
- 将视觉信息以轻量级的方式融入DocLLM。
- 探索更准确的OCR引擎以提升VQA性能。
- 研究如何提高模型的泛化能力和可解释性。
讨论
1、DocLLM如何通过解耦的注意力机制来处理文档中的空间布局信息?
答案: DocLLM通过将注意力机制在经典Transformer中的注意力计算分解为四部分来处理空间布局信息。这四部分包括文本到文本、文本到空间、空间到文本和空间到空间的注意力。通过这种方式,DocLLM能够捕获文本和空间模态之间的交叉对齐,从而有效地处理文档的空间布局结构。
2、DocLLM的预训练目标是如何帮助模型处理不规则布局和异构内容的?
答案: DocLLM的预训练目标是通过学习填充文本块来实现的。这种目标允许模型在预训练阶段考虑较大的上下文,而不是单个标记。这种方法使得模型能够更好地处理文档中的不规则布局和异构内容,因为它可以处理更复杂的文档结构,并且能够生成上下文相关的完成,提供鲁棒性以应对OCR噪声或错位的标记。
3、DocLLM在哪些方面超越了现有的多模态LLMs,特别是在处理视觉文档时?
答案: DocLLM通过专注于使用文本标记的边界框信息来整合空间布局结构,而不是昂贵的图像编码器,从而超越了现有的多模态LLMs。这种方法使得DocLLM在处理视觉文档时更加高效和经济。此外,DocLLM通过其解耦的注意力机制和预训练目标,能够更好地处理文档中的不规则布局和异构内容,这在视觉文档理解任务中尤为重要。