多模态文档智能解析-MonkeyOCR v1.5框架、数据构造及特点 - 文章 - 开发者社区

多模态的解析大家的方案越来越趋近相同，继续看《文档智能》，快速过一下基于多模态视觉语言模型-MonkeyOCR v1.5的两阶段文档解析技术报告及数据设计。ps：模型权重暂未开源。

picture.image

性能对比

《文档解析进展》如下：

picture.image

整体框架

如下图，两阶段的pipline框架，与mineru一样，VLM同时负责layout、阅读顺序和版面元素识别解析。

picture.image

第一阶段

picture.image

  
{"label": "Table", "bbox": [187, 98, 517, 111], "index": 0},  
{"label": "Image", "bbox": [xx, 1xx, 5x0, 140], "index": 1},  
{"label": "Text", "bbox": [1xx, 1x8, xx9, 338], "index": 2},

从上述给到的信息看，VLM在第一阶段同时输出：元素位置+元素类别+阅读顺序+元素角度（方便后处理）

第二阶段

通过VLM分别解析表格、公式、文本类别，最终通过后处理整合成markdown/html等格式。 picture.image

训练trick-基于视觉一致性的强化学习

picture.image

为提升复杂表格识别能力，通过“视觉对比”引导模型自我优化，在不依赖大量人工标注的前提下，提升表格识别的准确性和鲁棒性。

核心逻辑是：表格识别结果是否准确，可通过“原始表格图像”与“识别结果渲染图像”的视觉一致性来判断，以此构建奖励信号，用强化学习优化模型。

该方法主要通过两个步骤：

训练视觉一致性奖励模型

构建正负样本对：用已标注数据的真实标签（GT）生成视觉不一致的变体（比如修改单元格内容、打乱结构），再用微调后的VLM生成多个识别结果，将错误结果与GT配对，形成大量正负样本。
奖励计算逻辑：输入原始表格图像（I⁰）、模型识别结果（y）、识别结果的渲染图像（Iᴿ），通过VLM判断三者的视觉一致性，输出奖励值（reward = VLM(I⁰, y, Iᴿ)），一致则奖励高，不一致则奖励低。

用GRPO算法优化模型

以有监督微调（SFT）后的VLM为基础政策模型（πθ）。将无标注数据输入政策模型生成识别结果，用第一步训练好的奖励模型给出奖励信号，通过GRPO算法（带KL约束的强化优化）更新模型参数，让模型逐渐倾向于生成“视觉一致”的准确结果。

表格带图片情况

这一块额外用yolo训练了一个检测模型，用于检测表格中的图片，用< img >作为占位符替换表格中的图片，用于后面重建是插回去。

picture.image

表格合并

这一块再训练一个分类模型预测要不要合并：采用基于 BERT 的分类器，预测后续片段的首行是否在语义上延续前一个片段的尾行。若判断为正向延续，则触发行级单元合并（模式 3）；若为负向结果，则执行无表头的拼接（模式 2）。

picture.image

实验性能

picture.image

参考文献:MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patternshttps://arxiv.org/pdf/2511.10390