多模态文档智能解析-MonkeyOCR v1.5框架、数据构造及特点

机器学习算法图像处理

多模态的解析大家的方案越来越趋近相同,继续看《文档智能》,快速过一下基于多模态视觉语言模型-MonkeyOCR v1.5的两阶段文档解析技术报告及数据设计。ps:模型权重暂未开源。

picture.image

性能对比

文档解析进展》如下:

picture.image

整体框架

如下图,两阶段的pipline框架,与mineru一样,VLM同时负责layout、阅读顺序和版面元素识别解析。

picture.image

第一阶段

picture.image

picture.image

  
{"label": "Table", "bbox": [187, 98, 517, 111], "index": 0},  
{"label": "Image", "bbox": [xx, 1xx, 5x0, 140], "index": 1},  
{"label": "Text", "bbox": [1xx, 1x8, xx9, 338], "index": 2},  

从上述给到的信息看,VLM在第一阶段同时输出:元素位置+元素类别+阅读顺序+元素角度(方便后处理)

第二阶段

通过VLM分别解析表格、公式、文本类别,最终通过后处理整合成markdown/html等格式。picture.image

训练trick-基于视觉一致性的强化学习

picture.image

为提升复杂表格识别能力,通过“视觉对比”引导模型自我优化,在不依赖大量人工标注的前提下,提升表格识别的准确性和鲁棒性。

核心逻辑是:表格识别结果是否准确,可通过“原始表格图像”与“识别结果渲染图像”的视觉一致性来判断,以此构建奖励信号,用强化学习优化模型。

该方法主要通过两个步骤:

  1. 训练视觉一致性奖励模型
  • 构建正负样本对:用已标注数据的真实标签(GT)生成视觉不一致的变体(比如修改单元格内容、打乱结构),再用微调后的VLM生成多个识别结果,将错误结果与GT配对,形成大量正负样本。
  • 奖励计算逻辑:输入原始表格图像(I⁰)、模型识别结果(y)、识别结果的渲染图像(Iᴿ),通过VLM判断三者的视觉一致性,输出奖励值(reward = VLM(I⁰, y, Iᴿ)),一致则奖励高,不一致则奖励低。
  • 用GRPO算法优化模型

以有监督微调(SFT)后的VLM为基础政策模型(πθ)。将无标注数据输入政策模型生成识别结果,用第一步训练好的奖励模型给出奖励信号,通过GRPO算法(带KL约束的强化优化)更新模型参数,让模型逐渐倾向于生成“视觉一致”的准确结果。

表格带图片情况

这一块额外用yolo训练了一个检测模型,用于检测表格中的图片,用< img >作为占位符替换表格中的图片,用于后面重建是插回去。

picture.image

表格合并

这一块再训练一个分类模型预测要不要合并:采用基于 BERT 的分类器,预测后续片段 的首行是否在语义上延续前一个片段的尾行。若判断为正向延续,则触发行级单元合并(模 式 3);若为负向结果,则执行无表头的拼接(模式 2)。

picture.image

实验性能

picture.image

picture.image

参考文献:MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patternshttps://arxiv.org/pdf/2511.10390

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论