PP-DocBee:最强中文文档识别模型来了!开源!

大模型向量数据库数据中台
PP-DocBee:最强中文文档识别模型来了!开源!

发布时间:2025 年 03 月 05 日

开发了一种针对文档场景的高效数据合成策略,构建了多样化数据集,显著提升了模型的泛化能力。其次,我们采用了多种训练技术,包括动态比例采样、数据预处理和 OCR 后处理策略。经过全面评估,PP-DocBee 表现出色,在英文文档理解基准测试中达到了最先进的水平,甚至在中文文档理解方面超越了现有的开源和商业模型。

https://arxiv.org/abs/2503.04065

picture.image

添加请注明PP

如遇无法添加,请+ vx: iamxxn886


为什么需要 PP-DocBee 技术?

1.1 文档图像理解的迫切需求

随着数字化进程的加速,文档图像在生产生活中的应用越来越广泛。无论是企业流程中的财务数据提取、学术研究中的文献分析,还是个人生活中的票据处理,都需要高效的文档理解技术。举个例子,企业在处理财务报表时,传统的人工录入方式不仅耗时,还容易出错。而文档图像理解技术可以自动提取关键数据,大幅提高效率和准确性。

1.2 现有技术的局限性

现有的多模态大语言模型(Multimodal Large Language Models, MLLMs)在处理文本丰富的视觉内容(如文档、表格、图表)时存在显著局限性。主要原因包括:

  • • 现有视觉到文本模块主要针对 自然图像特征优化 ,而非文本/结构表示;
  • • 现有模型在中文场景下的表现较弱。例如,在处理中文财务报表时,现有模型往往无法准确识别复杂的表格结构和中文文本。

1.3 PP-DocBee 的解决方案

PP-DocBee 通过创新的数据合成策略和一系列训练技巧,有效解决了上述问题,显著提升了模型在复杂文档图像处理和理解方面的能力。例如,PP-DocBee 在处理中文财务报表时,能够准确识别表格结构和中文文本,并自动提取关键数据,大幅提高了处理效率和准确性。

二、PP-DocBee 技术解析

2.1 数据合成策略

PP-DocBee 提出了一种专门针对文档场景的数据合成策略,生成了一个包含 47.7 万高质量中文文档理解数据的数据集,命名为 PP Infinity Doc Data。这一策略通过多模态协作生成机制,平衡了数据质量和生成效率。

picture.image

在数据质量方面,现有的开源文档数据集存在显著缺陷,尤其是在 中文语料库的缺乏图像和文本质量不均信息提取能力的缺失 以及 场景多样性不足 等方面。为了解决这些问题,PP-DocBee 设计了一个数据生成管道,针对三种典型的文档类型:文本丰富的文档、表格和图表,分别设计了差异化的数据生成流程。

picture.image

picture.image

文字

picture.image

图表

picture.image

表格

picture.image

具体来说,PP-DocBee 采用了以下核心策略:

构建级联处理架构 :结合小型 OCR(Optical Character Recognition,光学字符识别)模型和大型语言模型(LLM),弥补各自的不足。

开发基于语义控制的渲染引擎 :帮助扩展中文图表图像。

设计文档类型敏感的提示工程模板 :生成高质量的中文文档问答对(QA pairs)。

通过这些策略,PP-DocBee 成功生成了大量高质量的中文文档数据,显著提升了模型在中文文档理解任务中的表现。

2.2 核心技术原理

PP-DocBee 采用了“ViT + MLP + LLM”的技术范式,其中:

  • ViT(Vision Transformer) :负责图像处理,提取视觉特征。
  • MLP(多层感知机) :负责处理和整合这些视觉特征。
  • LLM(Large Language Model,大型语言模型) :负责理解和生成文本。

这种协同组合使模型能够同时处理图像和文本信息,促进对多模态文档的理解。

ViT 将图像分解为多个小块(patch),每个小块通常为 28×28 像素,类似于视觉 Transformer 的处理方式。MLP 则对这些小块进行进一步处理,提取出更高层次的视觉特征。最后,LLM 根据这些特征生成或理解文本内容。

这种技术范式在文档理解任务中表现出色,尤其是在处理复杂的文档布局、表格和图表时,PP-DocBee 能够有效克服传统 OCR 模型在处理中文文档时的局限性。

2.3 开源地址

PP-DocBee 的源代码和预训练模型已经公开,访问地址为:https://github.com/PaddlePaddle/PaddleMIX。

三、PP-DocBee 应用评估

3.1 训练数据

picture.image

PP-DocBee 的训练数据涵盖了多种文档理解数据集,包括:

  • • 通用 VQA(Visual Question Answering,视觉问答)图像
  • • OCR(Optical Character Recognition,光学字符识别)图像
  • • 图表
  • • 富文本文档
  • • 数学和复杂推理任务
  • • 合成数据
  • • 纯文本数据

通过动态数据比例采样机制,PP-DocBee 优化了训练过程,平衡了不同数据集之间的数量差异。这种机制确保了高质量数据在训练中的比例,从而提升了模型的泛化能力。例如,在处理中文文档时,PP-DocBee 使用了 477k 的高质量合成数据(PP Infinity Doc Data),这些数据覆盖了文本丰富的文档、表格和图表等多种类型,显著提升了模型在中文场景下的表现。

3.2 性能评估

picture.image

PP-DocBee 在五个英文文本丰富图像基准测试和内部中文业务场景图像基准测试中表现出色。在 TextVQA 任务中,PP-DocBee 取得了 81.2 的高分,而在 OCRBench 任务中,其得分为 82.8,使用 OCR 后处理辅助后更是达到了 83.5 分。这些结果表明,PP-DocBee 在处理文本丰富的图像任务时具有显著优势。特别是在 OCRBench 任务中,OCR 后处理策略有效提升了模型性能,证明了该策略在处理清晰且文本有限的图像时的有效性。

3.3 中文场景表现

picture.image

在内部中文业务评估集中,PP-DocBee 在“印刷文本”类别中取得了 517 分的领先成绩,在“表格”类别中取得了 202 分的高分,整体得分 765 分,是所有模型中最高的。这表明 PP-DocBee 在处理中文多模态数据时具有较高的综合准确性。例如,在处理财务报告、法律文件等中文文档时,PP-DocBee 能够准确提取和分析文本、表格和图表中的信息,展现了其在中文场景下的强大能力。

3.4 消融研究

picture.image

通过消融研究,验证了数据合成策略和动态比例采样的有效性。添加 47.7 万合成数据的设置在中文场景评估中取得了 725 分,而添加 3.3M 开源数据的设置也达到了 726 分。这表明合成数据在提升中文文档理解能力方面具有显著作用。此外,动态比例采样策略的优化使得模型在综合准确性上进一步提升,最高得分达到 765 分。这些实验结果表明,合理的数据合成和采样策略能够显著提升模型在特定任务中的表现。


picture.image


picture.image

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论