DocLLM:布局感知的大模型,摒弃昂贵视觉编码,低成本重塑文档理解

智能语音交互视频服务机器学习

          
论文题目:DOCLLM: A LAYOUT-AWARE GENERATIVE LANGUAGE MODEL FOR MULTIMODAL DOCUMENT UNDERSTANDING
          
论文链接:https://arxiv.org/pdf/2401.00908.pdf
      

概要

研究背景:

  • 企业文档(如表格、发票、收据、报告、合同等)通常在文本和空间模态的交叉点上携带丰富的语义信息。
  • 这些文档的复杂布局提供了视觉线索,对于有效理解这些文档至关重要。
  • 文档智能(DocAI)在提取、分类和问答等任务中取得了显著进展,但在实际应用中仍存在显著的性能差距,特别是在准确性、可靠性、上下文理解和对未见领域的泛化能力方面。在大模型(LLM)之前,微软系列多模态模型LayoutLM、LayoutLMV2、LayoutXLM、LayoutLMV3取得了不错的效果。

模型结构:

  • DocLLM是一个轻量级的扩展,基于大型语言模型(LLMs),用于处理视觉文档,同时考虑文本语义和空间布局。
  • 与传统的多模态LLMs不同,DocLLM避免了昂贵的图像编码器,专注于使用文本标记的边界框信息来整合空间布局结构。
  • 通过分解经典Transformers中的注意力机制,DocLLM捕获文本和空间模态之间的交叉对齐。
  • 为了解决视觉文档中常见的不规则布局和异构内容,DocLLM采用了一种预训练目标,即学习填充文本段。

picture.image

实验设计:

  • DocLLM首先在大量未标记文档上进行自监督预训练。
  • 使用大规模指令数据集进行微调,覆盖四个核心文档智能任务:视觉问答(VQA)、自然语言推理(NLI)、关键信息提取(KIE)和文档分类(CLS)。
  • 实验设置包括在相同数据集的不同分割(SDDS)和相同任务的不同数据集(STDD)上进行评估。

实验结论:

  • DocLLM在SDDS设置中在14个数据集中超越了最先进的LLMs,并在5个之前未见的数据集中有4个表现出良好的泛化能力。
  • 在STDD设置中,DocLLM在4个数据集中超越了Llama2,并在DocVQA和KLC上超越了mPLUG-DocOwl和UReader。
  • DocLLM-1B和DocLLM-7B两个版本的模型在性能上都表现出色,其中DocLLM-7B在布局密集型任务(如KIE和CLS)中表现尤为突出。

未来规划:

  • 将视觉信息以轻量级的方式融入DocLLM。
  • 探索更准确的OCR引擎以提升VQA性能。
  • 研究如何提高模型的泛化能力和可解释性。

讨论

1、DocLLM如何通过解耦的注意力机制来处理文档中的空间布局信息?

答案: DocLLM通过将注意力机制在经典Transformer中的注意力计算分解为四部分来处理空间布局信息。这四部分包括文本到文本、文本到空间、空间到文本和空间到空间的注意力。通过这种方式,DocLLM能够捕获文本和空间模态之间的交叉对齐,从而有效地处理文档的空间布局结构。

2、DocLLM的预训练目标是如何帮助模型处理不规则布局和异构内容的?

答案: DocLLM的预训练目标是通过学习填充文本块来实现的。这种目标允许模型在预训练阶段考虑较大的上下文,而不是单个标记。这种方法使得模型能够更好地处理文档中的不规则布局和异构内容,因为它可以处理更复杂的文档结构,并且能够生成上下文相关的完成,提供鲁棒性以应对OCR噪声或错位的标记。

3、DocLLM在哪些方面超越了现有的多模态LLMs,特别是在处理视觉文档时?

答案: DocLLM通过专注于使用文本标记的边界框信息来整合空间布局结构,而不是昂贵的图像编码器,从而超越了现有的多模态LLMs。这种方法使得DocLLM在处理视觉文档时更加高效和经济。此外,DocLLM通过其解耦的注意力机制和预训练目标,能够更好地处理文档中的不规则布局和异构内容,这在视觉文档理解任务中尤为重要。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动客户端性能优化最佳实践
在用户日益增长、需求不断迭代的背景下,如何保证 APP 发布的稳定性和用户良好的使用体验?本次分享将结合字节跳动内部应用的实践案例,介绍应用性能优化的更多方向,以及 APM 团队对应用性能监控建设的探索和思考。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论