继上次《字节开源的多模态端到端文档解析模型-Dolphin》开源以来,最近新开源了Dolphin-v2版本,这个版本基于qwen2.5vl-3B训练得到,该模型的分两个阶段:版式分析、阅读顺序和OCR format,与mineru2.5一样,各阶段训练在一个模型,通过prompt控制。
Dolphin-v2
文档解析的开源项目模型技术方案都在《文档智能专栏》,如:
- 再看两阶段多模态文档解析大模型-PaddleOCR-VL架构、数据、训练方法
- 如何打造一个文档解析的多模态大模型?MinerU2.5架构、数据、训练方法
- 端到端的多模态文档解析模型-DeepSeek-OCR架构、数据、训练方法
dolphin-v2改进
Dolphin-v2 在原始 Dolphin 的基础上引入了几个主要增强功能:
- 🌐 通用文档支持:处理带有真实失真的数字原生和拍摄文档
- 📊 扩展元素覆盖:支持 21 种元素类别(从 14 种增加),包括专用代码块和公式
- 🎯 增强精度:使用绝对像素坐标以实现更准确的空间定位
- ⚡ 混合解析策略:数字文档的逐元素并行解析 + 拍摄文档的整体解析
- 🔬 专用模块:保留缩进的代码块专用解析
模型架构
Dolphin-v2
Dolphin-v2 基于 Qwen2.5-VL-3B 主干构建:遵循文档类型感知的两阶段范式:
- 第一阶段:联合分类和布局分析
- 文档类型分类:区分数字原生和拍摄文档
- 布局分析:生成 21 种支持类别的按阅读顺序排列的元素序列
- 第二阶段:混合内容解析
- 拍摄文档:整体页面级解析以处理失真
- 数字文档:使用类型特定提示的高效逐元素并行解析
- P_formula:公式的专用 LaTeX 生成
- P_code:保留缩进的代码块解析
- P_table:表格的 HTML 表示
- P_paragraph:段落的文字识别
