Mesh-candidate BestFit 算法助力DocLayout-YOLO 提升文档理解性能！

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

想要了解更多：

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」

行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码，加入「 集智书童-知识星球 」，日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑，期待交流！

免责声明

凡本公众号注明“来源：XXX（非集智书童）”的作品，均转载自其它媒体，版权归原作者所有，如有侵权请联系我们删除，谢谢。

picture.image

文档布局分析对实际文档理解系统至关重要，但它面临着速度与准确性之间的挑战性权衡：利用文本和视觉特征的多模态方法可以实现更高的准确性，但存在明显的延迟，而仅依赖视觉特征的单模态方法在处理速度上具有优势，但准确性会受到影响。

为了解决这个问题，作者提出了DocLayout-YOLO，这是一种通过在预训练和模型设计中进行文档特定优化来提高准确性的新颖方法，同时保持速度优势。

对于强大的文档预训练，作者引入了Mesh-candidate BestFit算法，将文档合成视为一个二维货架堆积问题，生成了大规模、多样化的DocSynth-300K数据集。

在生成的DocSynth-300K数据集上进行预训练，可以显著提高各种文档类型的微调性能。

在模型优化方面，作者提出了一种全局到局部可控制的感受野模块，能够更好地处理文档元素的多尺度变化。

此外，为了验证在不同文档类型上的性能，作者引入了一个复杂且具有挑战性的基准测试，名为DocStructBench。在下游数据集上的大量实验表明，DocLayout-YOLO在速度和准确性方面均表现出色。

代码、数据和模型可在https://github.com/opendatalab/DocLayout-YOLO中找到。

1 Introduction

随着大型语言模型和检索增强生成（RAG）研究的迅速发展，对高质量文档内容解析（Wang等，2024b）的需求日益迫切。文档解析中的一个核心步骤是文档布局分析（DLA），该步骤旨在准确地定位文档中的不同类型区域（文本，标题，表格，图形等）。在过去的几年里，DLA算法取得了显著的进步，在常见文档类型上表现良好。然而，当面对多样化的文档格式时，现有的布局分析算法在速度和准确性方面仍存在困难。

目前，文档解析有两种主要方法：多模态方法，结合视觉和文本信息；单模态方法，仅依赖视觉特征。多模态方法通常涉及在文档图像上使用统一的文本图像编码器进行预训练，通常实现更高的准确率，但由于其架构的复杂性，往往较慢。相比之下，单模态方法仅依赖视觉特征，提供了更快的处理速度，但由于缺乏针对文档数据的专门预训练和模型设计，往往准确性不足。为了在满足实时应用需求的同时，在各种实际文档上实现强大的性能，本文引入了DocLayout-YOLO布局检测算法。

这种方法利用多模态和单模态方法的优势，快速准确地识别文档中的各种区域。如图1所示，DocLayout-YOLO在各种评估数据集上的准确率超过了现有的所有方法，包括单模态DINO-4scale（Zhang等，2023）、YOLO-v10（Wang等，2024a）、多模态LayoutLMv3（Huang等，2022）和DiT-Cascade（Li等，2022）。具体而言，作者在两个维度上优化了YOLOv10算法：在具有视觉标注的多样化文档数据上进行预训练，并优化文档布局分析的目标检测网络结构。

picture.image

作者观察到，如LayoutLMv3和DiT-Cascade等多模态布局分析方法，通过在大规模无监督文档数据上进行预训练，显著提高了模型的泛化能力。然而，对于单模态布局分析方法，现有的数据集主要包含单一类型的文档，如PubLayNet（Zhong等人，2019年）和DocBank（Li等人，2020年）。这些经过优化的模型往往过度拟合到单一分布，无法泛化到实际场景中遇到的多样布局。为了解决这个问题，作者提出了一种构建多样化文档布局数据的自动化流程，并引入了Mesh-candidate BestFit算法。该算法通过利用二维装箱问题的原则，使用一组丰富的基本组件（文本、图像、表格等）生成大规模、多样化的预训练语料库，DocSynth-300K。

YOLO，作为目标检测领域的领先算法，在自然图像上同时具备较高的准确性和速度。为了进一步提高YOLO在文档图像上的性能，作者将网络适应于文档数据的特定特性。在各种文档中，不同元素的规模可以显著变化，从小型单行标题到整页段落、图像和表格。为了更好地处理这些多尺度变化，作者引入了全局到局部可控制感受野模块（GL-CRM），使模型能够有效地检测出不同尺度目标。本文的贡献可以总结如下：

这篇论文提出了DocLayout-YOLO，一种适用于多种布局分析任务的新颖模型，该模型利用了大规模且多样的文档布局数据集DocSynth-300K，并融入了GL-CRM以提高检测性能。

本文介绍了Mesh-candidate BestFit算法，该算法从各种组件（文本、图像、表格等）合成多样化的布局文档，从而创建了DocSynth-300K数据集。该数据集将开源，以支持进一步的研究，研究文档布局分析。

这项工作设计了GL-CRM，它增强了模型检测不同尺度元素的能力，从而提高了检测精度。

进行了广泛实验的DLA、DocLayNet和作者的内部多样评估数据集（DocStructBench）。提出的DocLayout-YOLO模型分别实现了70.3%、79.7%和78.8%的mAP分数，以及每秒85.5帧（FPS）的推理速度，从而实现了对多种文档的实时布局分析。

3 Diverse DocSynth-300K Dataset Construction

现有的单模态预训练数据集主要是由学术论文组成，具有显著的同质性，这极大地限制了预训练模型的泛化能力。为了提高模型对多样化下游文档类型的适应性，迫切需要开发一个更加多元化的预训练文档数据集。

预训练数据的多样性主要体现在两个维度上：

(1) 元素多样性：这包括各种文档元素，如不同字号的文本、各种形式的表格等。

(2) 布局多样性：这涵盖各种文档布局，包括但不限于单栏、双栏、多栏以及针对学术论文、杂志和报纸的特定格式。在本论文中，作者提出了一种新颖的方法称为Mesh-candidate BestFit ，该方法通过利用元素和布局多样性自动合成多样且组织良好的文档。所产生的数据集，称为DocSynth-300K ，显著提高了模型在各种真实世界文档类型的性能。

Mesh-candidate BestFit的整体流程如图2所示，并详细说明如下：

picture.image

Preprocessing: Ensuring Element Diversity

在预处理阶段，为了确保包含各种文档元素，作者使用MDoc测试（Cheng等人，2023年），该测试包含约2800个不同文档页面的74个不同文档元素作为初始数据。因此，作者将页面碎片化，并根据细粒度类别提取和构建元素池。同时，为了保持同一类别内元素多样性，作者设计了一个扩充 Pipeline ，用于扩充数据池中 rare 类别（元素数量少于100个）的数量（附录A.2.2）。

Layout Generation: Ensuring Layout Diversity

在应对合成多样化布局的挑战时，最直接的方法是随机排列。然而，随机排列产生的是杂乱无章和令人困惑的布局，这严重阻碍了在实际文档上的改进。关于基于扩散或GAN（Jiang等人，2023；Gupta等人，2021）的布局生成模型，现有方法仅能生成如学术论文等均匀布局，这显然不足以涵盖各种实际文档的布局。

为了确保布局的多样性和与现实文档的一致性，受到二维箱子分组问题的启发，作者将当前布局构建的可用网格视为“不同大小”的“箱子”，并迭代执行最佳匹配，以生成更多多样化和合理文档布局，同时平衡布局多样性（随机性）和美学（如填充率和对齐）。以下是布局生成的详细步骤：

每张空白的页面，通过基于元素大小的分层采样从元素池中获取子集，作为候选集。然后，从候选集中随机选择一个元素，并将其放置在页面上的某个位置。

网格构造 根据布局构建网格，并筛选出与插入元素重叠的有效网格。只有剩余的网格才能在后续步骤中与候选人进行匹配。

对于每个候选项，遍历所有满足大小要求的网格，并搜索具有最大填充率的网格-候选项对。然后从候选项集中删除最优候选项并更新布局。

重复执行2~3步，直到所有有效的网格候选项满足大小要求。最终，所有填充元素将分别应用随机中心缩放。

通过上述过程，元素在最佳位置不断填充，最终创建出一个组织严密、视觉上美观的文档图像，如图3所示。生成的文档具有很高的多样性，使预训练模型能有效地适应各种实际文档类型。同时，定量分析表明，生成的文档紧密遵循了人类设计原则，如对齐和密度（附录A.3.1）。上述布局生成的详细算法如图1所示。

picture.image

4 Global-to-Local Model Architecture

不同于自然图像，文档图像中的不同元素在尺度上可能会有显著差异，例如一行标题和整页表格。为应对这种尺度变化的挑战，作者提出了一种分层架构GL-CRM，它主要由两个主要组成部分构成：可控制感受模块（CRM）和全局到局部设计（GL）。CRM能够灵活地提取和集成具有多种尺度和细度的特征，而GL架构则具有从全局上下文（整页尺度）到子块区域（中尺度）再到局部语义信息的分层感知过程。

Controllable Receptive Module

CRM 在图4中得到说明。详细来说，对于每个层的特征X，作者首先使用权重共享卷积层w（核大小为k）提取特征。为了捕捉不同粒度的特征，作者采用一组变化的膨胀率。这种方法使作者能够得到一组不同粒度的特征，记作：

picture.image

提取不同粒度的特征后，作者继续整合这些特征，并允许网络自主学习融合不同特征组件：

picture.image

轻量级卷积层采用核大小为 1 的组，用于提取值范围在 0 到 1 之间的 Mask 。可被视为不同特征的重要性权重。接下来，被应用于融合特征，然后使用轻量级输出 Projector 。此外，还使用一条快捷路径连接集成特征与初始特征：

picture.image

CRM被连接到传统的CSP Bottleneck （Wang等人，2020年）以提取和增强不同粒度的特征，如图4所示。CRM的功能由两个参数k和d控制，它们分别控制提取特征的粒度和规模。

Global-to-Local Design

全局 Level . 在浅层次中，由于含有丰富的纹理细节，作者使用CRM并扩大核大小和膨胀率(, )。较大的核有助于捕捉更多的纹理细节并保留全局元素的局部模式。

_Block级。在中间阶段，特征图下采样并减少纹理特征，作者使用CRM，使用较小的核(, )。在这种情况下，扩大的 dilation 率足够感知中等尺寸的元素，如文档子块。

局部层面. 在深度阶段，语义信息占主导地位时，作者使用一个基本的 Bottleneck 作为轻量级模块，专注于局部语义信息。

5 Experiments

Experimental Metrics and Datasets

对于评估指标，作者报告了COCO风格的mAP ，用于准确性，以及FPS（每秒处理图像数量）用于速度。对于评估数据集，作者在两个最复杂的公共DLA数据集上进行实验，即DLA 和DocLayNet（Pfitzmann等人，2022年）。DLA包括11,092张带有27个类别标签的噪声图像，这些图像来自IIT-CDIP（Lewis等人，2006年）的不同12种文档类型。训练集包含8,868张图像，测试集包含2,224张图像。至于DocLayNet，它包含了7种文档类型的80,863页，并手动标注了11个类别。图像被分为69,103/6,480/4,994用于训练/验证/测试，分别。DocLayNet的验证集用于评估。

与此同时，为了定量评估模型在不同文档类型上的性能，作者构建了一个内部数据集，称为DocStructBench ，该数据集旨在评估各种实际场景文档。它包含四个子集，根据文档的来源进行分类：学术文档、教科书、市场分析文档和金融文档（这些文档的示例如图6所示）。DocStructBench的数据来源显著多样化，包括来自不同机构、出版商和网站的广泛领域。DocStructBench包含7,310个训练图像和2,645个测试图像。每个图像在10个不同的类别上进行了手动标注：标题、纯文本、废弃文本、图表、图表标题、表格标题、表格脚注、独立公式和公式标题。在DocStructBench上的实验中，作者在所有四个子集上进行训练，并分别报告每个子集的结果。有关DocStructBench的更多详细信息，请参阅附录A.1。

picture.image

Comparison DLA Methods & Datasets

文档布局YOLO与多模态和单模态方法进行了比较。多模态方法包括LayoutLMv3（Huang等人，2022年），DiT-Cascade（Li等人，2022年），VGT（Da等人，2023年）。对于单模态比较方法，作者使用鲁棒的目标检测器DINO-4scale-R50（Zhang等人，2023年）。对于DLA预训练数据集，作者将DocSynth-300K与公开的DLA预训练数据集PubLayNet（Zhong等人，2019年）和DocBank（Li等人，2020年）进行了比较。

Implementation Details

对于DocLayout-YOLO，作者在DocSynth-300K上进行预训练，图像较长边被缩放到1600，批量大小为128，学习率为0.02，共训练30个周期。在DocLayNet上进行微调，图像较长边被缩放到1120，学习率设置为0.02。在DLA上进行进一步的微调，图像较长边设置为1600，学习率设置为0.04。在DocStructBench上进行进一步的微调，图像较长边设置为1280，学习率设置为0.04。训练过程在8个A100 GPU上以100个周期的耐心进行。至于比较模型，DINO采用了MMDetection（Chen等人，2019年），使用多尺度训练，图像较长边为1280，AdamW优化器设置为1.0×10^-4。LayoutLMv3和DiT使用了Detectron2 Cascade R-CNN（Wu等人，2019年），图像较长边为1333，SGD优化器设置为2.0×10^-4，迭代次数为60k次。

Main Results

5.4.1 Effectiveness of Proposed Optimization Strategies

作者首先分析了在DocLayout-YOLO中实施的不同的改进策略，实验结果如表1所示。结果表明，DocSynth-300K在各种文档类型上显著提高了性能。DocSynth-300K预训练模型在DLA和DocLayNet上分别取得了1.2和2.6的改进，涵盖了多种文档类型。同时，DocSynth-300K预训练模型还使得DocStructBench的四个子集得到了改进。

picture.image

通过结合CRM和DocSynth-300K预训练，得到的DocLayout-YOLO相比 Baseline YOLO-v10模型实现了1.7/2.6/1.3/3.5/0.5/0.3的改进。

5.4.2 Comparison with Current DLA Methods

接下来，作者在多个数据集上与现有DLA方法进行比较。DLA和DocLayNet的结果如表2所示。作者可以得出以下结论：(1) DocLayout-YOLO在单模态DLA方法中表现出色。例如，它在DocLayNet上的改进比DINO（第二好的结果）提高了2.0。_(2) DocLayout-YOLO在多模态SOTA方法中也表现出色。例如，在DLA数据集上，DocLayout-YOLO实现了70.3 mAP，超过了VGT的68.8（第二好的结果）。同时，作者在DocStructBench上进行了实验，结果如表3所示。DocLayout-YOLO在四个子集中的三个上取得了优越的性能，超过了现有的单模态（DINO）和多模态（DIT-Cascade-L）方法。至于市场分析，DocLayout-YOLO在DIT-Cascade-L之前排名第二，作者怀疑这是因为DocSynth-300K预训练对大多数复杂布局仍不够充分。

picture.image

关于推理速度，作者仔细评估了各种DLA方法（3）的FPS，结果显示，（ DocLayout-YOLO）相对于目前的DLA方法显著更高效。尽管与基准YOLO-v10相比略微降低，但DocLayout-YOLO在速度上仍明显优于其他方法。例如，与最佳多模态方法DIT-Cascade-L相比，DocLayout-YOLO实现了14.3倍的FPS提升。对于最佳单模态方法DINO，DocLayout-YOLO也实现了3.2倍的FPS提升。

Ablation Studies

5.5.1 Comparisons with different document synthetic methods

在本节中，作者将DocSynth-300K与不同的文档合成方法进行比较，以评估合成文档数据的质量。具体而言，作者使用不同的方法生成文档，同时保持渲染元素与DocSynth-300K一致。因此，预训练模型的性能将在下游微调数据集上进行评估。比较的布局生成方法包括两种方法：_Random_和_Diffusion_。随机方法涉及任意安排文档布局，而对于扩散，作者使用基于扩散的布局生成方法LACE（Chen等人，2024年）训练SOTA扩散型布局生成方法，使用来自七个下游数据集的100万文档图像生成布局（训练数据见表5）。结果将在基准YOLO-v10模型上进行，实验结果见表4。

picture.image

从结果中，作者可以得出以下结论：

(1) 随机布局不适合文档预训练。尽管观察到一定程度的改进，但由于与真实文档存在较大的错位，随机布局的性能仍不理想。

(2) Diffusion布局仅适用于某些文档类型。使用Diffusion布局预训练的模型优于Random，这可能是因为Diffusion生成的布局更接近实际文档。然而，这些布局的多样性有限，导致在学术和教科书等有限类型的改进。

(3) DocSynth-300K在各种文档类型之间表现出优越的泛化能力。与Diffusion和Random相比，使用DocSynth-300K预训练的模型在所有四个子集上都有改进，并显示出优越的泛化能力。如图7所示的定量和可视化结果表明，作者提出的合成 Pipeline 可以生成具有更高多样性和更高质量的文档。

picture.image

5.5.2 Comparisons with Public Document Pre-training Datasets

表格4展示了与公共文档预训练数据集的比较结果。可以得出结论，DocSynth-300K相对于公共数据集具有更有效的文档预训练数据集。首先，对于MDoc测试数据集，其中DocSynth-300K的元素来源，由于其规模有限，出现了严重的过拟合。其次，对于PubLayNet和DocBank，尽管它们具有大量数据，但由于元素多样性（不到10个类别）和布局多样性（仅学术论文），预训练模型中的特征表示较为单一，这限制了进一步改进（尽管某些改进可见）并未能在所有下游数据集上始终提高泛化能力。相比之下，对于DocSynth-300K，预训练模型在大多数下游数据集上实现了全面改进，并超过了PubLayNet和DocBank，表明DocSynth-300K在改进各种下游文档方面效果更佳。

5.5.3 Ablations on Effects of GL-CRM

最后，作者对提出的GL-CRM进行了消融研究，结果如图6所示。实验表明，将全局 Level 纳入模型显著提升了中等和大型物体的检测精度。此外，将块 Level 的结果整合到模型中，对于中等物体取得了最大的改进，这对应于文档中的子块。实验验证了GL-CRM从全局到局部设计的有效性。

6 Conclusion

在本文中，作者提出了一种名为DocLayout-YOLO的AI技术，该技术在速度和准确性方面都表现出色。

DocLayout-YOLO 从预训练和模型优化的角度进行了改进：在预训练阶段，作者提出了一种名为Mesh-candidate BestFit的方法，该方法合成了一种高质量、多样化的DLA预训练数据集，名为DocSynth-300K。

在模型优化阶段，作者引入了GL-CRM，以分层全局块-局部方式增强网络对文档图像的感知。

在广泛的应用数据集上的实验结果表明，DocLayout-YOLO在速度和准确性方面都显著优于现有的DLA方法。

参考文献

[0]. DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception。

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image

点击下方“ 阅读原文 ”，

了解更多AI学习路上的「武功秘籍」

Mesh-candidate BestFit 算法助力DocLayout-YOLO 提升文档理解性能 ！

1 Introduction

3 Diverse DocSynth-300K Dataset Construction

4 Global-to-Local Model Architecture

5 Experiments

6 Conclusion