多模态的解析大家的方案越来越趋近相同,继续看《文档智能》,快速过一下基于多模态视觉语言模型-MonkeyOCR v1.5的两阶段文档解析技术报告及数据设计。ps:模型权重暂未开源。
性能对比
《文档解析进展》如下:
整体框架
如下图,两阶段的pipline框架,与mineru一样,VLM同时负责layout、阅读顺序和版面元素识别解析。
第一阶段
{"label": "Table", "bbox": [187, 98, 517, 111], "index": 0},
{"label": "Image", "bbox": [xx, 1xx, 5x0, 140], "index": 1},
{"label": "Text", "bbox": [1xx, 1x8, xx9, 338], "index": 2},
从上述给到的信息看,VLM在第一阶段同时输出:元素位置+元素类别+阅读顺序+元素角度(方便后处理)
第二阶段
通过VLM分别解析表格、公式、文本类别,最终通过后处理整合成markdown/html等格式。
训练trick-基于视觉一致性的强化学习
为提升复杂表格识别能力,通过“视觉对比”引导模型自我优化,在不依赖大量人工标注的前提下,提升表格识别的准确性和鲁棒性。
核心逻辑是:表格识别结果是否准确,可通过“原始表格图像”与“识别结果渲染图像”的视觉一致性来判断,以此构建奖励信号,用强化学习优化模型。
该方法主要通过两个步骤:
- 训练视觉一致性奖励模型
- 构建正负样本对:用已标注数据的真实标签(GT)生成视觉不一致的变体(比如修改单元格内容、打乱结构),再用微调后的VLM生成多个识别结果,将错误结果与GT配对,形成大量正负样本。
- 奖励计算逻辑:输入原始表格图像(I⁰)、模型识别结果(y)、识别结果的渲染图像(Iᴿ),通过VLM判断三者的视觉一致性,输出奖励值(reward = VLM(I⁰, y, Iᴿ)),一致则奖励高,不一致则奖励低。
- 用GRPO算法优化模型
以有监督微调(SFT)后的VLM为基础政策模型(πθ)。将无标注数据输入政策模型生成识别结果,用第一步训练好的奖励模型给出奖励信号,通过GRPO算法(带KL约束的强化优化)更新模型参数,让模型逐渐倾向于生成“视觉一致”的准确结果。
表格带图片情况
这一块额外用yolo训练了一个检测模型,用于检测表格中的图片,用< img >作为占位符替换表格中的图片,用于后面重建是插回去。
表格合并
这一块再训练一个分类模型预测要不要合并:采用基于 BERT 的分类器,预测后续片段 的首行是否在语义上延续前一个片段的尾行。若判断为正向延续,则触发行级单元合并(模 式 3);若为负向结果,则执行无表头的拼接(模式 2)。
实验性能
参考文献:MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patternshttps://arxiv.org/pdf/2511.10390
