AWS 提出 TAP-VL: 针对增强视觉语言模型的文本布局感知预训练 !

大模型向量数据库机器学习

备注好友: 方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

picture.image

视觉语言(VL)模型引起了大量研究兴趣,然而,它们在有效处理图像中的文本仍面临挑战。为了解决这一限制,研究行人提出了两种方法。

第一种方法涉及利用外部光学字符识别(OCR)工具从图像中提取文本信息并将其添加到文本输入之前。

第二种策略是OCR无痕,它专注于使用极高分辨率的图像来提高文本识别能力。

在本文中,作者通过引入一种名为TAP-VL的新方法来增强第一种策略,该方法将OCR信息视为一种独立的模态,并将其无缝集成到任何VL模型中。

TAP-VL采用了一种轻量级基于 Transformer 的OCR模块来接收带有布局信息的OCR,将其压缩为一种短固定长度的序列,作为LLM的输入。

为此,作者在未标注文档上对OCR模块进行模型无关的预训练,然后通过短期微调将其集成到任何VL架构中。

大量实验表明,在将TAP-VL应用于顶级VL模型时,无论是在场景文本和基于文档的基准测试中,性能始终有所提高。

1 Introduction

大型视觉语言(VL)模型已成为人工智能领域的一个关键研究领域,在多模态推理方面取得了显著进展。这些架构通过将视觉编码器与大型语言模型(LLM)通过翻译模块集成,在视觉和文本数据之间建立桥梁。这个模块将视觉编码器投影到文本嵌入空间。

由于VL模型可以根据视觉和文本信息生成内容,它们在各种应用和任务中发挥着关键作用,包括图像描述(CAPS)[15]和视觉问答(VQA)[5]。虽然开源VL模型在各种任务上都表现出令人印象的性能,但它们在处理面向OCR的任务,如TextVQA[50],TextCaps[49]和DocVQA[43]时仍然面临挑战。

解决这个挑战有两种主要策略:

(1)集成外部OCR系统以提取OCR Token 并将其用作额外输入,以及(2)使用非常高分辨率的图像并结合广泛预训练来提高文本识别。每种方法都有其优势和局限性,两者都是研究热点。

在将OCR集成到VL系统的主导范式中,涉及将原始OCR提取的单词添加到LLM(图1左侧)。尽管这种策略在面向OCR的基准测试上提高了性能,但它存在关键缺陷。首先,它完全依赖于OCR Token ,忽视了在面向OCR的任务中具有高度益处的关键空间布局信息[6, 10, 24, 27]。

此外,当应用于文本丰富的图像领域时,将过长的OCR序列插入到LLM中会导致计算开销显著增加,因为注意力机制具有平方复杂度。

picture.image

在本研究中,作者针对这些限制并引入了TAP-VL,一种通过短期微调(图1右侧)将OCR信息无缝集成到任何VL模型中的技术。通过将2D位置数据与OCR提取的词 Token 相结合,该模型可以理解不同文本元素之间的关系,并理解对准确信息提取和整体文档理解至关重要的层次结构。

从概念上讲,作者的方法将OCR视为一个独立的模式,因此采用了一个OCR模块,类似于为编码视觉输入而使用专门的视觉模块。接下来,作者引入了一个基于 Transformer 的轻量级OCR-Q,用于根据用户 Query 生成有意义的表示。OCR编码器捕获了重要的空间布局信息,而OCR-Q将较长的OCR详细信息压缩成固定大小的序列长度表示。这个压缩表示作为LLM的输入,与视觉和文本数据一起(图2右侧)。TAP-VL使用这些压缩表示将OCR与空间信息集成到VL模型中。

picture.image

首先,作者提出了一种独立的、模型无关的布局感知预训练方法,如图2左侧所示。这一阶段独立于VL模型运行,提高了效率,并允许在不引入VL模型分布偏移的情况下,专注于OCR理解。

旨在提炼和提取最相关的OCR信息,作者提出了一种专门的布局感知预训练方法,该方法利用了丰富的无标签文档数据和丰富的布局文本[10, 11]。具体而言,作者在一个三目标方案中预训练OCR-Q,灵感来自以前的工作[6, 10, 34]。更详细地,作者的方法包括以下布局感知任务:

(1)OCR-Grounded Mask Denoising,它根据噪声OCR输入预测被 Mask 的子区间;

(2)OCR-Mask Contrastive Learning,旨在在同一文档中对OCR和词向量进行对齐,同时区分不同文档的表示;

(3)OCR-Mask Matching,将噪声OCR文本与缺失的子区间对齐。结合这些目标,推动了模型在获得深入的布局和OCR理解的同时,提供了一个紧凑的表示。

接下来,作者将使用一个短的多任务微调过程,将同一预训练模型集成到各种领先的VL模型中。具体来说,作者将研究一些著名的VL模型,如 InstructBLIP [20],LLaVA [38]和 Qwen-VL [8]。作者的广泛实验表明,TAP-VL在文档理解和场景-文本VL基准测试方面具有有效性,与各种基准测试上的不同 Baseline 方法相比,取得了显著的改进,包括零样本场景。

此外,作者提出了TAP-VL,这是TAP-VL的一个轻量级版本,它仅利用作者压缩的OCR表示,而不向LLM提供原始OCR Token 。这种方法在涉及密集文本图像的文档理解任务中特别有效。值得注意的是,作者证明了应用TAP-VL不仅比相关 Baseline 显著降低了计算成本(将FLOPs降低到了七分之一),而且还能带来显著的性能提升。值得注意的是,作者展示了TAP-VL在没有特定多页训练的情况下,将能力扩展到多页场景的能力。在多页文档理解的最困难案例中,TAP-VL实现了性能提升高达4.8%,同时显著降低了计算成本。

总的来说,作者的贡献包括:

介绍TAP-VL,一种新颖的方法,可将OCR信息无缝集成到任何预训练VL模型中,实现对文本和空间信息的有效推理。

提出一种独特的布局感知模型无关预训练策略,利用无标签文档数据获取丰富的、紧凑的OCR特征。

展示作者的方法在增强各种最先进的VL架构性能方面的有效性,展示其在场景文本和文档理解任务中提升性能的能力,包括在零样本多页面设置方面的挑战。

作者提出了TAP-VL,这是TAP-VL的一个轻量级版本,能够在没有特定训练的情况下处理多页文档。与依赖未压缩OCR序列的方法相比,TAP-VL降低了四倍的FLOPs,同时仍实现了优越的性能。

2 Related work

Vision-Language Models

视觉语言模型(VL models)经历了显著的发展,从特定任务的模型转变为更通用的方法,得益于大型语言模型(LLMs )。这些现代模型在多样任务之间表现出适应性,并具有出色的泛化能力[18, 20, 34, 38]。从架构上看,这些模型通常包括三个基本部分。首先,一个视觉架构从图像中提取有意义的信息,通常采用一个冻结的视觉 Transformer 作为视觉编码器。其次,一个翻译模块在视觉和语言之间建立桥梁,将视觉特征转换为语言模型可以理解和处理表示。这个模块可以包括一个简单的线性层或MLP[38],或者是一个基于交叉关注的 Transformer 架构[7, 20, 34]。

最后,将投影的视觉信息和文本指令(通常以问题或 Prompt 的形式)输入到LLM以执行任务。具体来说,BLIP-2[34]建议将 Query Transformer (Q-Former)集成到LLM中,以有效地将视觉编码器中的视觉 Prompt 添加到LLM中,而InstructBLIP[20]将其适应为遵循指令。LaVA[38, 39]引入了一个简单的投影层,用于在视觉模式和语言模式之间进行翻译,并利用GPT-4生成的多模态数据。Qwen-VL[8]提出了一个单一的交叉注意力层,并执行全模态微调阶段,以使模式对齐。此外,其他工作已经探索将这些方法扩展到包括多个模态,如音频和视频。

Integrating OCR information into VL Models

在大型视觉语言模型出现之前,许多方法试图解决面向OCR的视觉挑战。TAP [55]引入了一个预训练目标,以更好地对齐不同的表示。在[24]中,OCR信息通过辅助损失集成到编码器-解码器框架的解码器中。LaTr [10]提出了一种布局感知Transformer,使用无监督预训练在文本和布局线索上进行推理。然而,这些工作没有考虑VL模型[8, 20]的近期进展,并且无法充分利用其能力。

另一种方法可以避免假定OCR提取系统,而不像以前的方法那样。在这种场景下,VL模型仅依赖于视觉线索。例如,无OCR的Qwen-VL和LLaVAR [8, 57]观察到开源全功能视觉编码器在这方面表现不佳,并提出了一个包含明确OCR导向任务的训练范式。尽管性能有所提高,但他们仍然没有超过利用OCR系统的做法。因此,大多数VL方法都包含了这些OCR系统。

传统将OCR信息集成到这些模型中的方法是使用OCR提取的原始文本作为输入 Prompt 的一部分提供给LLM 。由于现代VL模型能够理解这些词与图像相关,因此需要进行最小程度的修改和训练即可无缝集成OCR衍生文本。然而,这种方法忽视了一个事实,即OCR提取还提供了词边界框,布局信息至关重要 [6, 10, 24]。此外,将整个OCR序列输入到 LLM 在计算上是耗时的,特别是对于OCR密集型图像,如文档理解任务,可能导致性能不佳。因此,作者引入了TAP-VL,一种有效且高效地将OCR和布局信息集成到任何VL模型中的方法。

3 Method

在本节中,作者介绍了TAP-VL,它包括一个OCR模块和一个新颖的布局感知预训练范式,使VL模型具有OCR理解能力。OCR模块的架构设计是通过将OCR视为一个额外的、独立的模态,以解决其固有的复杂性。布局感知的预训练旨在使OCR模块产生简洁但丰富的OCR表示。重要的是,这一阶段独立于VL模型运行,提高了效率并确保与各种VL架构的兼容性。

在布局感知预训练之后,作者通过参数高效的微调将作者的OCR模块集成到任何VL架构中。这种集成在OCR基准测试中带来了显著的改进。此外,作者提出了一种额外的设计选择,与现有方法相比可以显著减少计算资源,同时保持可比性能优势。在以下各节中,作者将详细介绍作者提出的OCR模块、布局感知的模态无关预训练以及将其集成到任何VL模型中。

Model Architecture

为了提高VL架构的OCR理解能力,作者提出了一种OCR模块,该模块由两个关键组件组成:一个OCR编码器和一个OCR压缩器,作者称之为OCR-Q。OCR编码器基于 Token 及其2D位置生成嵌入,涵盖布局信息。OCR-Q是一个基于transformer的模块,旨在根据 Query 产生OCR的紧凑表示。

它由两个共享相同自注意力层(i)的transformer子模块组成:

(i)与编码OCR嵌入的OCR Transformer 模块;

(ii)处理自由文本输入(如用户的问题)的文本 Transformer 模块。具体而言,OCR-Q通过可学习的 Query 和文本 Prompt 将OCR嵌入转换为固定数量的代表。

作者将K定义为作为OCR-Q输入的可学习 Query 的数量。将此压缩表示集成到VL模型中,这些压缩表示与用户指令连接,并输入到VL模型中,如图2右侧所示。

Layout-Aware pretraining

布局感知预训练阶段的目标是生成一个OCR-Q,能够压缩OCR内容并基于文本输入提取有意义的信息。受BLIP2[34]预训练的启发,作者采用了一个三目标方案:OCR-Grounded Mask Denoising、OCR-Mask Contrastive Learning和OCR-Mask Matching。为此,作者利用了众多公开可用的文档及其OCR信息。图2左边的整体方案如下所示。

本文提出的策略利用公开可用的无标签文档语料库,通过随机 Mask OCR(光学字符识别)的span,包括文本和布局信息。从而创建一组包括OCR的 Mask 版本及其对应 Mask 词汇的配对,在预训练过程中使用。

对于每个预训练目标,作者遵循大致相同的框架(见图3至5):OCR编码器根据 Mask 的OCR产生丰富的嵌入。这些嵌入随后通过交叉注意力层输入到OCR Transformer 模块,从而在文档上产生固定数量的代表(由K确定)。文本 Transformer 模块接收 Mask 词汇作为输入和特定于预训练任务的一个特殊 Token 。这些 Token 的空间信息被省略,因为文本 Transformer 模块处理自由形式非结构化文本。其输出随后被输入到任务特定的投影层,位于损失之前。文本和OCR Transformer 模块之间的交互由采用的 Mask 机制控制,这取决于所选的预训练目标的特点。接下来作者详细说明每个预训练任务,有关更多细节请参阅附录A.5。

picture.image

OCR-Grounded Mask Denoising 任务要求 OCR-Q 恢复从嘈杂 OCR 输入中的 Mask 词,如图3 所示。这鼓励使用具有意义的压缩表示,利用文本和布局信息。在整个任务中,文本变换模块通过中间学习的 Query 表示间接 Query 嘈杂的 OCR 输入。由于文本变换模块无法直接访问 OCR 内容,只有在可学习 Query 对应的表示中增加相关 OCR 信息时,才能最小化此损失。作者在自注意力层中使用多模态 Mask [22, 34] 来访问压缩的 OCR 信息(如图3)。该 Mask 限制可学习 Query 关注文本 Token ,但允许它们之间的交互,而文本 Token 只能通过因果 Mask 与可学习 Query 进行自交互。 Mask 词任务前缀的特殊Token 被添加到 Mask 词中。

OCR-Mask Contrastive Learning 旨在将OCR Transformer 模块的输出与OCR-Q的文本 Transformer 模块对齐(图4)。OCR Transformer 模块可以访问带有噪声的OCR内容,而文本 Transformer 模块接收一个特殊 Token 后跟被遮挡的词语。这种对齐的主要目的是增强OCR编码信息和文本表示之间的相互理解。在这个任务中,作者使用单模态遮挡,其中可学习的 Query 和被遮挡的词语只能关注自己。

picture.image

OCR-Mask Matching任务涉及一个二分类目标,即匹配压缩后的噪声OCR信息和被遮挡的词(图5)。具体来说,对于一个给定的噪声文档,作者以概率p将其与相应的被遮挡的词配对,并以概率1-p将其与不匹配的硬负样本配对。值得注意的是,对于这个目标,作者应用了双向自注意力 Mask ,允许所有 Query 和被遮挡的词相互关注。

picture.image

Incorporating OCR QFormer in VL Models

在作者模型无关的预训练之后,作者在两阶段微调过程中将作者的OCR模块与任何VL模型对齐。首先,作者使用 OCR-to-language alignment ,将OCR编码器OCR-Q集成到一个冻结的LLM中。在这个阶段,作者使用OCR-centric VQA数据集通过微调训练OCR模块以适应LLM。作者使用这些数据集,因为大多数答案仅可以通过OCR信息推理,而不需要直接访问视觉输入。接下来,作者进行_OCR-vision-to-language alignment ,考虑整个VL模型,如图2所示。在这个设置中,LLM 从 OCR 和视觉模块接收文本指令以及视觉和OCR特征,除了文本指令外,还可以附加原始OCR词列表,这在VL工作中通常这样做。为了在两种选择之间展示权衡,作者引入了 TAP-VLLight,省略了输入到LLM的原始OCR词列表,使其比TAP-VL 更具有计算效率。在这个阶段,作者使用OCR定向和非 OCR定向的VQA和描述数据集(包括文档和自然图像)进行多任务微调,以对系统的构建模块进行对齐。具体来说,作者训练OCR组件并使用低秩适应到LLM[28],同时保持视觉模块冻结。结果是一个能够有效推理视觉和OCR信息的VL系统。

4 Experiments

在本节中,作者展示了使用TAP-VL将OCR信息无缝集成到最先进的VL模型中的优势,这些模型在场景文本和文档理解基准测试中表现出色。首先,作者对各种最先进的VL方法进行了评估,比较了有和无TAP-VL时的性能,包括跨任务和领域的多样性和零样本场景。

然后,作者强调了将TAP-VLLight集成到VL中的有效性,它创建了一个丰富的压缩表示,解决了长OCR序列的挑战,如多页文档问答。

Experimental Setting

对于所有实验,作者使用开源的VL架构的开放源代码版本,并从各自的权重中初始化。除非另有说明,否则OCR解码器基于T5大型编码器[48],其二维布局嵌入最初在类似DocFormerv2[6]的方式下预训练。作者从BERT[21]的预训练权重中初始化OCR-Q,交叉注意力权重从零开始训练。

为了使OCR-Q与OCR解码器对齐,作者在扩展的无标签文档数据集IDL[11]上进行作者的预训练协议。这些模型同时在一个多种领域和任务上进行微调:文档问答、场景文本视觉问答、通用视觉问答、场景文本描述和图像描述。请参阅附录A以获取更多实现细节。

Integrating TAP-VL into leading VL methods

在表1中,作者报告了各种VL模型在多个场景文本和文档理解任务上的结果。在场景文本领域,提供了TextVQA和STVQA的问答结果以及TextCaps的描述结果。在文档理解领域,作者使用了 DocVQA 和 InfoVQA。此外,作者在多页面文档理解数据集DUDE[31]上提供了零样本结果。首先,作者列出每个数据集上的专业模型,这些模型是通过独立微调各个数据集获得的。

这些模型参数范围从几亿到550亿[16],并且在不同的数据集上进行预训练。因此,作者仅将这些数字作为参考,因为它们不一定具有可比性。在表格的下半部分,作者对比了作者的方法与基准方法,这些方法在相同的环境下进行训练。这种比较包括性能差距,以强调获得的利益。具体来说,作者针对VL模型(如InstructBLIP[20],LaVA[39]和Qwen-VL[8])评估了作者的方法,并将TAP-VL集成到其中。对于InstructBLIP Baseline ,作者考虑了Flan-T5-XL和Flan-T5-XXL架构[19]。

picture.image

作者的分析结果表明,与 Baseline 相比,作者的方法在各种架构和基准上的性能优越。例如,与LLaVA集成后,TAP-VL在TextVQA,DocVQA和InfoVQA上取得了提升,分别提高了 +2.2% +5.5% +7.6% 。此外,作者在场景文本和文档数据集上计算平均分数,发现即使与表现最强的方法 Qwen-VL相比,也呈现出一致的优势。此外,作者将在表5中提供非OCR相关的基准测试结果,与 Baseline 相比,其性能可媲美或甚至略胜一筹。

picture.image

在文档分析领域,作者观察到显著的改进,平均性能差距达到了8.2%。尽管TAP-VL在场景文本和文档数据集上都显示出改进,但在文档数据集上的改进更大。这表明在文档领域,专门的OCR编码器起着关键作用。这与文档中通常密集的文本内容和复杂的结构相吻合。因此,配备空间信息作为输入的专门OCR编码器,相较于单独的VL模型,能够提供更全面的答案。因此,通过作者的方法有效地整合这一关键组件,为VL模型配备了应对任务所需的补充信息。

为了在零样本设置下评估性能,作者选择了多页DocVQA场景。特别是,作者将每个页面的OCR结合起来,创建一个单一的长期OCR序列,该序列代表整个文档。对每个页面分别应用视觉编码,然后将它们 ConCat 在一起,再输入到VL模型的LLM(见图6)。如表1所示,作者的方法在多页零样本场景下取得了显著的改进(最多可达**4.6%**的改进)。

picture.image

在呈现使用TAP-VL的定量影响后,作者现在引入了定性发现。在图7中,作者展示了作者的方法如何集成到LLaVA-1.6中。顶行显示来自场景文本基准测试的示例,而底行则包含与文档相关的基准测试。作者的方法显著增强了VL模型的OCR和布局理解,从而提高了性能。例如,在第二行的顶行示例中,基础模型在识别_"从底部第二本"_的书上存在困难,而TAP-VL有效利用了布局信息来理解它。同样,在底行,作者的模型在理解复杂的结构如表格方面取得了显著改进。

picture.image

在本节中,作者提出了在TAP-VLlight上的结果,TAP-VLlight是TAP-VL的一个轻量级版本,它提高了面向OCR的任务效率,同时减少了计算负载。处理扩展序列需要大量的计算资源,这在 Transformer 中尤为重要,因为 Transformer 由需要平方复杂度计算的注意力块组成。TAP-VLlight仅使用压缩表示,省略了原始文本OCR输入。这对文档特别重要,因为文档由密集文本图像组成。在TAP-VLlight中,输入到LLM的序列长度不受OCR的长度影响,并且受限于K个 Token 。表2显示了TAP-VLlight在文档理解任务上的结果。

picture.image

作者的方法在所有基准测试中提高了性能,同时具有计算优势。DUDE基准因其包含包含多达10K Token 的多页文档VQA数据集而闻名,这对VL系统构成了巨大挑战,迫使它们达到极限。例如,在将 TAP-VL 集成到 LLaVA时,作者的压缩OCR版本在DocVQA、InfoVQA和DUDE上的分别取得了 +3.2% +4.8% +2.9% 的改进,同时将TFLOPs从20.3降低到5.5。此外,在Qwen-VL的情况下,将原始OCR序列输入到LLM带来的好处微不足道。

5 Ablation studies

这一节分析了从作者提出的架构和预训练框架中获得的性能改进。作者检查了TAP-VL的单个组件、预训练目标以及数据数量对带有T5基础OCR编码器的InstructBlip(Flan-T5-XL)架构的影响。

TAP-VL组件: 在表3中,作者从InstructBlip Baseline 开始逐步将TAP-VL的组件整合进来,以评估它们各自的效应。最初,作者探索了一种简单的方法,将布局信息整合到OCR中,通过在残差模块中使用特定位置的嵌入层为每个OCR Token 添加二维嵌入。这种方法的表现类似于 Baseline ,表明残余或编码信息的利用率不完全。随后,在不进行额外预训练的情况下整合作者的OCR模块,可以提高文档结果0.8%,但降低场景文本结果1.7%。进一步,作者分析了预训练和OCR到语言对齐步骤的影响。单独应用每个步骤在场景文本和文档上都取得了改进,但导致了两者的一致下降。然而,同时应用这两个步骤可以实现两个领域的持续增强。

picture.image

预训练目标:作者进行了一项关于作者预训练任务不同配置的消融研究。作者逐步引入了三个预训练目标:OCR-Grounded Mask Denoising,OCR Mask Contrastive和OCR-Grounded Mask Matching。如表4所示,每个预训练任务都为提高最终模型的整体有效性做出了贡献。

picture.image

预训练数据规模: 作者在表4中研究了在预训练过程中数据量的变化,结果表明数据量与模型在场景文本和文档基准测试上的性能之间存在关联。这种关系在文档基准测试中尤为明显,随着预训练长度的增加,结果呈现上升趋势,从2M个预训练样本时的62.8上升到31M个预训练样本时的65.7。尽管在场景文本基准测试中,关联关系仍然存在,但当预训练样本从13M增加到22M时,性能出现下降。然而,最佳结果是在最大预训练样本,即31M时达到,表明在文档上进行预训练有可能提升面向OCR的场景文本性能。

在通用基准测试上的性能: 作者在通用VQA数据集(VQAv2)和CAPS数据集(COCO)上评估了作者的系统。这些数据集并不特别需要OCR。作者的分析表明,TAP-VL要么保留了 Baseline 视觉语言模型的非OCR能力,要么提升了它们。与InstructBlip(XXL)的集成在COCO数据集上导致了3.1%的性能提升,而在VQAv2上的下降仅为0.1%。

6 Discussion and Conclusion

在本研究中,作者提出了TAP-VL,一种将OCR信息集成到VL模型中的新方法。

作者的方法将OCR视为一种独立的模态,利用轻量级Transformer基础OCR Adapter 将OCR和布局信息压缩成固定长度的序列,以供VL模型输入。

通过大量实验,作者在各种基准测试中证明了性能一致性的改进,包括自然图像和基于文档的VL任务。此外,作者还提出了TAP-VLLight,通过使用OCR的简洁表示,可显著降低计算成本。

总的来说,作者的发现表明将OCR信息集成到VL模型中可以带来显著的性能提升和计算节省,这使得它在未来的研究中成为一个有前景的方向。

参考文献

[0]. TAP-VL: Text Layout Aware Pretraining for Enriched Vision-Language Models.

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论