字节开源的多模态端到端文档解析模型-Dolphin - 文章 - 开发者社区

前期介绍了一些pipline的文档解析实现路线和端到端的多模态解析方案，整理在：《文档智能专栏》。

下面来看一下字节最新开源的多模态文档解析方案，笔者实际测下来性能还有待提升（鉴于合成数据，泛化性还较差，存在幻觉），不过思路可以借鉴下，供参考。

picture.image

Dolphin性能

创新点

picture.image

Dolphin 的两阶段文档图像解析范式概述

类似donut，基于VisionEncoderDecoderModel架构，视觉编码器：donut-swin + 解码器：mbart，因此可以看出，模型侧并没有什么创新，创新点主要在于数据构建策略上。

分两个阶段：

1.1 第一阶段：页面级布局分析

(1) 图像编码（Page Image Encoding）

，其中：

(2) 布局序列生成（Layout Sequence Generation）

使用 mBart 解码器 ，在 布局分析提示（Playout） 的引导下，按阅读顺序生成文档元素的序列 L = {l₁, l₂, ..., lₙ}，其中每个元素 lᵢ 包含：

  
Parse the reading order of this document.

1.2 第二阶段：元素级内容解析

(1) 元素图像编码（Element Image Encoding） ：对第一阶段提取的每个元素 lᵢ，从原图中裁剪出对应的区域 Iᵢ，并用 Swin Transformer 编码，得到该元素的视觉特征。

(2) 并行内容解析（Parallel Content Parsing） ：对每个裁剪后的元素图像 Iᵢ，结合 特定类型的提示（pᵢ） ，由解码器并行生成解析结果：

picture.image

小结：并行解码的优势 ：并行处理多个元素，比串行解析更快（实验显示速度提升 ~2×）。每个元素的解析独立进行，减少长序列建模的误差累积。

1.3. 数据集构建

Dolphin 使用 3000万+ 样本 进行训练，涵盖多种文档类型和解析任务：

数据来源

picture.image

picture.image

参考文献：Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting，https://arxiv.org/pdf/2505.14059

关于我：余俊晖，主要研究方向为自然语言处理、大语言模型、文档智能。曾获CCF、Kaggle、ICPR、ICDAR、CCL、CAIL等国内外近二十项AI算法竞赛/评测冠亚季军。发表SCI、顶会等文章多篇，专利数项。