端到端的多模态文档解析模型-DeepSeek-OCR架构、数据、训练方法 - 文章 - 开发者社区

最近接连开源多模态文档解析模型：

DeepSeek-OCR是一个端到端 的多模态文档解析模型，是Vary、GOT-OCR2.0的后续，前期也有详细介绍《【多模态&文档智能】OCR-free感知多模态大模型技术链路及训练数据细节》。其核心目标是用极少的视觉 token（vision tokens）解码出大量文本 token（text tokens）。

picture.image

视觉token压缩比和性能比较

picture.image

VLMs中的典型视觉编码器：处理长文本时视觉 token 过多、激活内存大的问题

多模态文档解析相关就不再过多介绍了，详细可以看专栏《文档智能》

模型架构

如下图，DeepSeek-OCR的架构由编码器（DeepEncoder）和解码器（DeepSeek3B-MoE-A570M）组成。

picture.image

DeepSeek-OCR的架构

DeepEncoder

DeepEncoder设计

DeepEncoder是DeepSeek-OCR的最核心部分（高分辨率下的轻量视觉压缩器），专门解决现有VLMs视觉编码器（如Vary、InternVL2.0）的痛点：高分辨率输入时token过多、激活内存大、不支持多分辨率。包含三个组件：

模块1：视觉感知（窗口注意力主导）

采用SAM-base（Segment Anything Model，80M参数），输入图像被分割为16×16的patch（如1024×1024图像生成4096个patch token）。这个在vary和got中均使用。

作用：通过窗口注意力（局部注意力）捕捉图像细节（如文本位置、字体），避免全局注意力的高内存消耗。

模块2：16×卷积压缩器

位于SAM和CLIP之间，由2层卷积构成（核大小3×3，步长2，通道数从256→1024），实现视觉token的16倍下采样。

作用：将SAM输出的4096个token压缩为256个（1024×1024输入场景），大幅减少后续全局注意力模块的计算量，控制激活内存。

模块3：视觉知识（全局注意力主导）

采用CLIP-large（300M参数），但移除第一层patch嵌入层（输入改为压缩后的token）。

作用：通过全局注意力整合压缩后的token，提炼图像全局语义（如文档布局、文本逻辑），为解码提供结构化视觉知识。

多分辨率支持：适配不同压缩比需求

picture.image

DeepEncoder的多分辨率支持。为了研究和应用目的，设计了具有多种原生分辨率和动态分辨率模式的DeepEncoder

picture.image

Base/Large模式通过“ padding 保留宽高比”，有效token数按公式下面公式计算（避免无效token浪费）。 picture.image

MoE解码器

解码器使用的是DeepSeek3B-MoE ，由3B参数的MoE模型，包含64个routed experts和2个shared experts。推理时仅激活6个routed experts+2个shared experts，实际激活参数约570M（仅为3B模型的19%）。这样做既保留3B模型的文本生成能力，又将推理速度提升至“500M小模型”级别，适合大规模部署。

数据

1. OCR 1.0数据

OCR 1.0数据和前面的vary、got-ocr数据构建相似，主要用于训练模型识别传统OCR场景（文档、自然场景文本）。构成如下：

文档数据：30M页多语言PDF（100种语言，中英占25M页），含“粗标注”（fitz工具提取，教模型识别文本）和“细标注”（2M页中英，用PP-DocLayout+MinerU2.0标注布局+文本，教模型理解排版）；
自然场景数据：20M页图像（LAION+Wukong数据集，用PaddleOCR标注，支持中英场景文本识别）；
Word数据：3M页，无布局干扰，优化公式、HTML表格的识别。

picture.image

OCR 1.0示例：将真实值格式化为交错布局和文本格式，其中每段文本前都附有其在原始图像中的坐标和标签。所有坐标都归一化到1000个区间内。

2. OCR 2.0数据

支持图表、化学公式、几何图形的结构化解析。

图表数据：10M张（线图、柱状图等），标注为HTML表格（而非字典格式，节省token）；
化学公式：5M对图像-文本（SMILES格式数据源，RDKit工具渲染图像）；
平面几何：1M张（Slow Perception方法生成，标注线段、端点坐标，支持几何结构重建）。

picture.image

示例

3. 通用视觉数据

避免模型仅适配OCR场景，保留VLMs的通用视觉能力（如图像描述、目标检测）。数据构成参考DeepSeek-VL2，生成图像描述、目标检测、视觉定位任务数据，占总数据20%。

4. 纯文本数据

目的是提升解码器的文本流畅度，避免“视觉-文本”映射导致语言能力退化。 10%的内部纯文本数据，统一处理为8192 token长度（与模型序列长度一致）。

训练流程

训练分两阶段进行，先优化编码器质量，再训练端到端模型。

1. 阶段1：独立训练DeepEncoder

与vary相似，让编码器学会“高分辨率输入→压缩视觉token”的映射，保证token质量。使用上述所有OCR 1.0和2.0数据，以及从LAION数据集中抽取的1亿条通用数据。

2. 阶段2：训练端到端DeepSeek-OCR

联合优化“编码器→解码器”的映射，提升OCR精度与泛化性。采用流水线并行（PP=4），DeepEncoder占2段（SAM+压缩器冻结，CLIP解冻），解码器占2段（12层MoE分6层/段）；

Gundam-M模式微调适配超高清文档（如报纸），但避免与其他模式共训拖慢速度。在预训练好的DeepSeek-OCR上，用6M采样数据继续训练Gundam-M模式（1024×1024局部+1280×1280全局）。

实验

picture.image

视觉-文本压缩比

picture.image

OmniDocBench评测

picture.image

OmniDocBench中不同类别文档的编辑距离

参考文献：DeepSeek-OCR: Contexts Optical Compression，https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek\_OCR\_paper.pdf
权重地址：https://huggingface.co/deepseek-ai/DeepSeek-OCR