端到端的多模态文档解析模型-DeepSeek-OCR架构、数据、训练方法

机器学习算法大模型

最近接连开源多模态文档解析模型:

DeepSeek-OCR是一个端到端 的多模态文档解析模型,是Vary、GOT-OCR2.0的后续,前期也有详细介绍《【多模态&文档智能】OCR-free感知多模态大模型技术链路及训练数据细节》。其核心目标是用极少的视觉 token(vision tokens)解码出大量文本 token(text tokens)。

picture.image

视觉token压缩比和性能比较

picture.image

VLMs中的典型视觉编码器:处理长文本时视觉 token 过多、激活内存大的问题

多模态文档解析相关就不再过多介绍了,详细可以看专栏《文档智能

模型架构

如下图,DeepSeek-OCR的架构由编码器(DeepEncoder)和解码器(DeepSeek3B-MoE-A570M)组成。

picture.image

DeepSeek-OCR的架构

DeepEncoder

DeepEncoder设计

DeepEncoder是DeepSeek-OCR的最核心部分(高分辨率下的轻量视觉压缩器),专门解决现有VLMs视觉编码器(如Vary、InternVL2.0)的痛点:高分辨率输入时token过多、激活内存大、不支持多分辨率。包含三个组件:

  • 模块1:视觉感知(窗口注意力主导)

采用SAM-base(Segment Anything Model,80M参数),输入图像被分割为16×16的patch(如1024×1024图像生成4096个patch token)。这个在vary和got中均使用。

作用:通过窗口注意力(局部注意力)捕捉图像细节(如文本位置、字体),避免全局注意力的高内存消耗。

  • 模块2:16×卷积压缩器

位于SAM和CLIP之间,由2层卷积构成(核大小3×3,步长2,通道数从256→1024),实现视觉token的16倍下采样。

作用:将SAM输出的4096个token压缩为256个(1024×1024输入场景),大幅减少后续全局注意力模块的计算量,控制激活内存。

  • 模块3:视觉知识(全局注意力主导)

采用CLIP-large(300M参数),但移除第一层patch嵌入层(输入改为压缩后的token)。

作用:通过全局注意力整合压缩后的token,提炼图像全局语义(如文档布局、文本逻辑),为解码提供结构化视觉知识。

多分辨率支持:适配不同压缩比需求

picture.image

picture.image

DeepEncoder的多分辨率支持。为了研究和应用目的,设计了具有多种原生分辨率和动态分辨率模式的DeepEncoder

picture.image

Base/Large模式通过“ padding 保留宽高比”,有效token数按公式下面公式计算(避免无效token浪费)。picture.image

MoE解码器

解码器使用的是DeepSeek3B-MoE ,由3B参数的MoE模型,包含64个routed experts和2个shared experts。推理时仅激活6个routed experts+2个shared experts,实际激活参数约570M(仅为3B模型的19%)。这样做既保留3B模型的文本生成能力,又将推理速度提升至“500M小模型”级别,适合大规模部署。

数据

1. OCR 1.0数据

OCR 1.0数据和前面的vary、got-ocr数据构建相似,主要用于训练模型识别传统OCR场景(文档、自然场景文本)。 构成如下:

  • 文档数据:30M页多语言PDF(100种语言,中英占25M页),含“粗标注”(fitz工具提取,教模型识别文本)和“细标注”(2M页中英,用PP-DocLayout+MinerU2.0标注布局+文本,教模型理解排版);
  • 自然场景数据:20M页图像(LAION+Wukong数据集,用PaddleOCR标注,支持中英场景文本识别);
  • Word数据:3M页,无布局干扰,优化公式、HTML表格的识别。

picture.image

OCR 1.0示例:将真实值格式化为交错布局和文本格式,其中每段文本前都附有其在原始图像中的坐标和标签。所有坐标都归一化到1000个区间内。

2. OCR 2.0数据

支持图表、化学公式、几何图形的结构化解析。

  • 图表数据:10M张(线图、柱状图等),标注为HTML表格(而非字典格式,节省token);
  • 化学公式:5M对图像-文本(SMILES格式数据源,RDKit工具渲染图像);
  • 平面几何:1M张(Slow Perception方法生成,标注线段、端点坐标,支持几何结构重建)。

picture.image

示例

3. 通用视觉数据

避免模型仅适配OCR场景,保留VLMs的通用视觉能力(如图像描述、目标检测)。数据构成参考DeepSeek-VL2,生成图像描述、目标检测、视觉定位任务数据,占总数据20%。

4. 纯文本数据

目的是提升解码器的文本流畅度,避免“视觉-文本”映射导致语言能力退化。 10%的内部纯文本数据,统一处理为8192 token长度(与模型序列长度一致)。

训练流程

训练分两阶段进行,先优化编码器质量,再训练端到端模型。

1. 阶段1:独立训练DeepEncoder

与vary相似,让编码器学会“高分辨率输入→压缩视觉token”的映射,保证token质量。使用上述所有OCR 1.0和2.0数据,以及从LAION数据集中抽取的1亿条通用数据。

2. 阶段2:训练端到端DeepSeek-OCR

联合优化“编码器→解码器”的映射,提升OCR精度与泛化性。采用流水线并行(PP=4),DeepEncoder占2段(SAM+压缩器冻结,CLIP解冻),解码器占2段(12层MoE分6层/段);

Gundam-M模式微调适配超高清文档(如报纸),但避免与其他模式共训拖慢速度。在预训练好的DeepSeek-OCR上,用6M采样数据继续训练Gundam-M模式(1024×1024局部+1280×1280全局)。

实验

picture.image

视觉-文本压缩比

picture.image

OmniDocBench评测

picture.image

OmniDocBench中不同类别文档的编辑距离

参考文献:DeepSeek-OCR: Contexts Optical Compression,https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek\_OCR\_paper.pdf
权重地址:https://huggingface.co/deepseek-ai/DeepSeek-OCR

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大模型解决方案白皮书:社交陪伴场景全流程落地指南
随着大模型技术持续突破,AI正加速重塑社交娱乐的形态与体验。其中,陪伴式聊天因用户黏性强、互动频次高,成为大模型商业化落地的关键赛道。随着模型能力跃升至万亿参数级,AI从工具属性正迈向情感交互生态,现象级产品的诞生条件逐渐成熟。 本白皮书聚焦AI陪伴聊天应用开发,面向“从何起步、如何落地”的新手困惑,系统拆解从需求定义到产品上线的关键流程。我们结合工程化实践路径,打造模块化知识体系与渐进式开发框架,帮助开发者在30天内完成从技术认知到产品原型的跃升,快速构建具备基础交互能力的Web或App应用,迈出大模型
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论