百度提出 PPDocLayout | 跨文档泛化/复杂布局双突破,端到端推理8ms刷新性能,重构智能文档分析生态

大模型向量数据库机器学习

点击下方卡片,关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

picture.image

picture.image

picture.image

picture.image

picture.image

导读

文档布局分析是文档智能的关键预处理步骤,它能够检测和定位标题、文本块、表和公式等结构元素。尽管其重要性不言而喻,但现有的布局检测模型在跨不同文档类型泛化、处理复杂布局以及实现大规模数据处理实时性能方面仍面临重大挑战。为了解决这些局限性,作者提出了PPDocLayout,该模型在识别多种文档格式下的23种布局区域时实现了高精度和效率。

为了满足不同的需求,作者提供了三种不同规模的模型。PP-DocLayout-L是基于RT-DETR-L检测器的高精度模型,在T4 GPU上实现了90.4%的mAP@0.5和每页13.4毫秒的端到端推理时间。PP-DocLayout-M是一个平衡模型,提供75.2%的mAP@0.5,在T4 GPU上每页的推理时间为12.7毫秒。PP-DocLayout-S是一个针对资源受限环境和实时应用的高效模型,在T4 GPU上的推理时间为每页8.1毫秒,在CPU上的推理时间为14.5毫秒。这项工作不仅推进了文档布局分析领域的最新进展,还为构建高质量训练数据提供了稳健的解决方案,从而促进了文档智能和多模态AI系统的发展。

代码和模型:https://github.Com/PaddlePaddle/PaddleX

  1. 引言

大语言模型(LLMs)和多模态文档理解系统[10, 11]的快速发展,导致对高质量结构化训练数据的需求显著增加。文档布局检测,即识别和定位结构元素(例如,文本块、表和图像),在将原始文档图像转换为机器可读格式中发挥着关键作用。如图1所示,布局检测是包括表识别、公式识别、OCR和信息提取在内的各种下游任务的基础步骤。例如,在表识别的情况下,布局检测模型能够准确定位和定义文档图像中表的边界,从而为后续处理(如解析表结构和提取底层数据)提取表区域。这种结构化表数据对于从数据分析到信息检索等应用极为宝贵。同样,对于公式识别,布局检测模型检测并定位文档中的公式区域。这允许提取这些区域,然后将其输入到专门的公式识别系统中。由此产生的结构化公式数据不仅增强了机器对数学内容的理解,还丰富了训练数据集,提高了模型在各种情境下识别和解释公式的能力。

然而,尽管具有潜力,现有的布局检测模型面临三个关键限制。

(1) 在不同文档类型上的泛化能力较差。当前方法主要针对学术论文,导致在杂志、报纸和财务报告等其他文档类型上的性能不佳。

(2) 处理复杂布局的能力不足。缺乏全面的类别定义——例如,缺乏对行内和行间数学公式的单独标签——需要辅助模型,导致复杂性增加和效率降低。

(3) 对于实时应用的处理速度不足。这些挑战阻碍了布局检测在实际场景中的有效应用,尤其是在需要高效获取大量高质量数据以训练大型模型的领域。

为解决这些挑战,作者提出了PPDocLayout,这是一个统一的布局检测模型,实现了最先进的准确率和实时推理能力。PP-DocLayout能够在包括中文或英文学术论文、研究报告、试卷、书籍、报纸和杂志在内的多种文档格式中实现高精度布局区域的识别和定位。这一进步显著增强了大规模模型训练数据获取的多样性和质量。此外,PPDocLayout系列支持23种常见的布局类别,涵盖了各种文档中广泛存在的布局元素。这种清晰的类别层次结构有助于提高语义理解和逻辑解析,而包含高价值信息的结构化数据则使得数据处理和分析更加精确。为了满足大规模数据构建的关键效率需求,利用高性能的PaddleX推理引擎,轻量级模型展示了卓越的处理能力——在T4 GPU上每秒处理约123页。这些性能显著优于现有的开源解决方案,在准确性和计算效率方面为文档布局分析设定了新的基准。

  1. 相关工作

文档布局分析(DLA)的演变反映了从孤立组件检测到整体语义理解的范式转变。早期的单模态方法将DLA定位为一个专门的计算机视觉任务,通过领域特定的修改来适配通用的目标检测框架(Faster RCNN [7],YOLO [8])。最近,基于YOLOv10 [8]的先进方法DocLayout-YOLO [14],在多样化的文档数据上进行预训练,并设计了GL-CRM模块,实现了10个类别布局检测的高精度。

多模态学习的出现从根本上改变了文档布局分析(DLA)的方法。LayoutLM系列[3, 10, 11]展示了统一预训练策略的威力,它整合了 Mask 视觉语言建模和空间感知位置嵌入。最近的研究进一步探索了自监督范式,DiT[4]通过新颖的预训练目标利用大量 未标注 的文档,而VGT[1]引入基于网格的文本编码以保留细粒度的排版特征。值得注意的是,该领域正在见证DLA与文档智能的融合,其中布局理解是High-Level语义任务的基础。

尽管取得了这些进展,但仍存在一些挑战。首先,大多数现有方法专注于特定文档类型,如学术论文,缺乏对杂志、报纸和手写笔记等多样化文档类别的泛化。其次,对细粒度元素(如公式、脚注和页眉)的检测仍处于探索阶段。最后,布局检测方法的计算效率仍然是一个重大挑战,因为许多最先进的模型计算成本高昂且速度慢,限制了它们在实时或大规模文档处理场景中的应用。

作者的工作通过提出一个支持广泛文档类型和细粒度元素类别的统一框架来解决这些局限性。通过利用先进的深度学习技术和整合上下文信息,PP-DocLayout在保持计算效率的同时,实现了对多样化布局的鲁棒性能。

  1. 方法

作者引入了PP-DocLayout,这是一个通过数据整理和算法设计创新实现最先进性能的统一检测模型。PP-DocLayout结合了三种关键改进策略。

3.1 知识蒸馏框架

PP-DocLayout-L采用了一种知识蒸馏[2]范式来提升文档布局理解性能,如图2所示。在该框架中,GOT-OCR2.0[9]的视觉编码器Vary-VIT-B模型充当教师模型,这是一个经过良好训练且鲁棒的模型,具备先进的文档理解能力。学生模型,在本例中是PP-DocLayout-L的PPHGNetV2-B4 Backbone 网络,其设计目的是从教师模型中学习。

picture.image

蒸馏过程涉及通过对齐特征表示将知识从教师模型传递到学生模型。具体来说,在训练PP-HGNetV2-B4时,教师网络参数保持冻结,通过全连接层利用特征级监督。令

分别表示教师模型和学生模型的特征张量,其中

代表它们对应的特征维度,

表示批量大小。为了弥合维度差异

,作者引入一个可学习的线性投影

。蒸馏损失被定义为:

蒸馏框架是在一个包含500,000个文档样本的多样化语料库上训练的,这些样本涵盖了五个领域:

  • • 数学公式(包括方程推导和符号表示)
  • • 财务文件(报告和资产负债表)
  • • 科学文献(STEM领域的arXiv论文)
  • • 学术论文(具有复杂布局结构)
  • • 表数据(统计报告和电子表)

训练在

分辨率下进行,共50个epoch,使用AdamW优化器(

)。精炼后的PP-HGNetV2-B4在仅含

参数的情况下实现了有效的特征提取能力。

3.2 半监督学习

在本节中,作者介绍了用于提升PP-DocLayout-M和PP-DocLayout-S模型性能的半监督学习方法。该方法利用PPDocLayout-L模型的高精度能力生成伪标签,随后将这些伪标签用于扩充较简单模型的训练数据。

基于 未标注 的文档图像

,作者首先使用训练好的参数

的教师模型 PP-DocLayout-L 生成原始预测,具体如下:

其中,

包含了

个潜在区域在

个布局类别中的预测得分。

自适应阈值选择

传统的固定阈值方法往往受到类别不平衡和学习难度不同类别的问题。因此,作者提出了一种自适应阈值选择方法,以获得高质量的伪标签。作者的阈值选择策略通过一个系统化的优化过程,显式地最大化 Token 数据

上的 F 分数。对于每个布局类别

,作者通过求解以下方程来确定最优阈值

其中,

表示使用阈值

对类别

在验证集

上计算的 F1 分数。在确定每个类别的最优阈值后,作者为 未标注 数据生成伪标签。对于文档图像

中的每个潜在区域,如果预测分数超过相应的最优阈值

,则分配一个伪标签。

伪标签生成与训练使用优化阈值

,对于 未标注 的文档图像

的伪标签

定义为:

表示第

个区域是否被分配了任何类别的伪标签。伪标签数据与真实标签数据共同构成一个全面的训练集,该训练集增强了学生模型 PP-DocLayout-S 和 PP-DocLayout-M 的学习过程。通过将高质量的伪标签与标签数据相结合,模型可以更好地泛化,学习到提高文档布局检测的鲁棒性特征。

  1. 实验结果

4.1 数据集

作者收集了一个包含多种类型文档图像的综合性数据集,例如中英文学术论文、杂志、报纸、研究报告、试卷、手写笔记、合同和书籍等。这个多样化的数据集确保了PP-DocLayout在不同文档格式和结构上的鲁棒性和泛化能力。数据集包含用于训练的30,000张图像和用于评估的500张图像。图像来自百度图片搜索和公共数据集,包括Doclaynet[6]和PublayNet[15]。图像标注了23种常见的布局类别,这些类别的分布详见附录中的表5。

如表1所示,与DocLayout-YOLO[14]相比,PP-DocLayout定义了一套更全面、粒度更细的分类。虽然DocLayout-YOLO将许多文档元素简化为“标题”、“文本”和“图表”等宽泛类别,但PP-DocLayout区分了具有语义意义的元素,如文档标题、段落标题、页码、页眉、页脚和脚注。这种粒度使得对文档的层次结构和逻辑关系的解析更加精准。此外,PP-DocLayout能够准确识别和分类如公式、图表和印章等高价值元素,而DocLayout-YOLO要么将它们误分类,要么忽略它们(例如,将它们 Token 为“废弃”或“图表”)。这种全面的分类支持更广泛的下游任务,包括文档理解、信息提取和格式转换。

4.2 实施细节

PP-DocLayout-L模型基于RT-DETR-L[13]目标检测架构,并使用经过知识蒸馏的预训练PPHGNetV2-B4模型。训练配置为恒定学习率0.0001。模型使用2个GPU每个GPU的批大小进行训练,共使用8个GPU,在NVIDIA V100 GPU上总训练时间约为26小时。PP-DocLayout-M和PPDocLayout-S模型分别基于PicoDet-M和PicoDet-S[12]目标检测架构。两种模型都进行了100个epoch的训练,每个GPU的批大小为2,共使用8个GPU。学习率分别设置为PP-DocLayout-M为0.02,PPDocLayout-S为0.06,并使用CosineDecay[5]学习率调度器动态调整。

4.3 主要结果

PP-DocLayout-L模型在IoU阈值为0.5时,实现了最高的准确率,平均平均精度(mAP)达到90.4%。然而,这种准确率是以模型大小为30.94百万参数和推理时间为代价的,在T4 GPU上需要13.39毫秒,大约74.6 FPS,而在CPU上则需要约759.76毫秒,相当于大约1.32 FPS。参考附录中的图4,作者提供了额外的可视化结果,以进一步展示PP-DocLayout在多种文档类型和布局上的有效性。具体来说,作者可视化了PP-DocLayout在论文、杂志、报纸、研究报告、书籍、笔记本、合同和试卷等文档上的性能。可视化结果清晰地显示,PP-DocLayout能够准确地识别和分类各种元素。

PP-DocLayout-S模型提供了一个显著更小的模型尺寸,为121万个参数,在T4 GPU上的推理时间更快,为8.11毫秒,大约123 FPS,在CPU上的推理时间为14.49毫秒,相当于大约69.04 FPS。尽管其体积紧凑,但仍然保持了可观的mAP值,为70.9%。

PP-DocLayout-M模型在两种极端之间取得了平衡,实现了

的mAP。它具有适中的模型大小,参数量为565万个,在T4 GPU上的推理时间为12.73毫秒,在CPU上的推理时间约为59.82毫秒,相当于大约16.72FPS。

这些结果说明了模型设计内在的权衡,其中准确性的提高往往以模型大小和推理速度的降低为代价。因此,模型的选择可能取决于实际应用中对准确度、计算资源和延迟的具体需求。

4.4 定性分析

在本节中,作者通过可视化比较了所PP-DocLayout与High-Level方法DocLayout-YOLO[14]的结果。由于标签类别存在差异,传统的量化指标无法直接应用。因此,作者采用可视化技术来展示每种方法的性能,以便进行直观的比较。

可视化结果如图3所示。第一行展示了DocLayout-YOLO[14]的结果,而第二行展示了PP-DocLayout的结果。从图像的第一列可以看出,作者的结果包括文档标题、摘要、段落标题和文本等元素,这些对于理解文档的语义层次和逻辑结构至关重要。相比之下,DocLayout-YOLO将这些元素仅划分为两个宽泛类别,“标题”和“纯文本”,这限制了其有效解析文档语义层次的能力。此外,作者的PP-DocLayout可以准确定位页码、页眉、页脚和脚注,而DocLayout-YOLO经常将这些内容归类为“废弃”,忽视了它们的潜在价值。

picture.image

第二列突出了公式识别的差异。PP-DocLayout能够识别行内和块级公式,这对于下游任务,如PDF转Markdown转换至关重要。相比之下,DocLayout-YOLO在识别行内公式方面存在困难,它只关注显眼的块级公式,这阻碍了其在需要全文识别的任务中的实用性。

在第三列中,比较显示了PP-DocLayout在处理手写笔记方面的优越性能。虽然PP-DocLayout能够正确识别和分类手写内容,但DocLayout-YOLO将其错误地归类为“图表”,未能捕捉其文本意义。

最后,第四列展示了PP-DocLayout区分自然图像、图表和印章的能力。图表和印章尤为重要,因为它们通常包含高价值信息,而PP-DocLayout确保它们被单独分类。另一方面,DocLayout-YOLO没有进行这种区分,可能会忽略关键细节。

总体而言,PP-DocLayout提供了对文档元素更为细致和精确的表示,从而实现了更好的语义理解,并支持比DocLayout-YOLO更广泛的下游任务。

4.5 消融研究

为了评估半监督学习和知识蒸馏对模型性能的影响,作者使用PPDocLayout模型变体进行了一系列消融实验。作者比较了采用和不采用这些技术的每个模型的性能,并在IoU阈值为0.5的情况下测量了平均精度均值(mAP)。

知识蒸馏作者考察了知识蒸馏对PP-DocLayout-L变体的效果,如表3所示。使用知识蒸馏使得mAP从89.3%提升到90.4%,证明了其对模型准确性的积极影响。

picture.image

半监督学习如表4所示,对于PP-DocLayout-M和PP-DocLayout-S模型,引入半监督学习显著提升了性能。具体来说,PP-DocLayout-M的mAP从73.8%提升至75.2%,反映了1.4%的增长。

picture.image

同样,PP-DocLayout-S的得分从66.2%上升至70.9%,实现了4.7%的显著提升。

这些结果强调了半监督学习和知识蒸馏在提升模型性能方面的有效性,从而支持它们在文档布局分析任务中的应用。

  1. 结论

作者引入了PP-DocLayout,这是一个在PaddlePaddle框架内开发的文档布局检测模型,旨在解决现有文档智能模型面临的重大挑战。PP-DocLayout在文档布局分析方面迈出了重要一步,提供了一种灵活高效的解决方案,以应对文档结构的复杂性和多样性。PP-DocLayout不仅推动了现有技术的边界,还为实际应用提供了实用工具,为文档智能及相关领域的未来发展铺平了道路。

参考

[1]. PP-DocLayout: A Unified Document Layout Detection Model to Accelerate Large-Scale Data Construction

picture.image

扫码加入👉「集智书童」交流群

(备注:方向+学校/公司+昵称)

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论