文档智能解析新进展:字节多模态解析模型dolphin-v2开源

大模型图像处理机器学习

继上次《字节开源的多模态端到端文档解析模型-Dolphin》开源以来,最近新开源了Dolphin-v2版本,这个版本基于qwen2.5vl-3B训练得到,该模型的分两个阶段:版式分析、阅读顺序和OCR format,与mineru2.5一样,各阶段训练在一个模型,通过prompt控制。

picture.image

Dolphin-v2

文档解析的开源项目模型技术方案都在《文档智能专栏》,如:

dolphin-v2改进

Dolphin-v2 在原始 Dolphin 的基础上引入了几个主要增强功能:

  • 🌐 通用文档支持:处理带有真实失真的数字原生和拍摄文档
  • 📊 扩展元素覆盖:支持 21 种元素类别(从 14 种增加),包括专用代码块和公式

picture.image

  • 🎯 增强精度:使用绝对像素坐标以实现更准确的空间定位
  • ⚡ 混合解析策略:数字文档的逐元素并行解析 + 拍摄文档的整体解析
  • 🔬 专用模块:保留缩进的代码块专用解析

模型架构

picture.image

Dolphin-v2

Dolphin-v2 基于 Qwen2.5-VL-3B 主干构建:遵循文档类型感知的两阶段范式:

  • 第一阶段:联合分类和布局分析
  • 文档类型分类:区分数字原生和拍摄文档
  • 布局分析:生成 21 种支持类别的按阅读顺序排列的元素序列
  • 第二阶段:混合内容解析
  • 拍摄文档:整体页面级解析以处理失真
  • 数字文档:使用类型特定提示的高效逐元素并行解析
  • P_formula:公式的专用 LaTeX 生成
  • P_code:保留缩进的代码块解析
  • P_table:表格的 HTML 表示
  • P_paragraph:段落的文字识别

性能

picture.image

参考文献:https://github.com/bytedance/Dolphin

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
veRL for Training Coding Agent
随着DeepSeek R1的火热,强化学习的训练范式成为目前LLM post training的主流。本次分享将介绍如何使用开源框架verl训练一个foundation model来服务coding agent。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论