DeepSeek又开源,这次是OCR模型!附论文解读!

大模型机器学习图像处理

大家好,我是刘聪NLP。

刚刚,DeepSeek又开源了,这次是OCR模型,整个模型大小在3B。

DeepSeek-OCR的提出,是为了探索,是否可以通过视觉模态进行文本信息的高效压缩,

也就是把文档内容,用图像Token表示,其Token数量会远小于原始文本Tokens数,

说白了,你1w字,可能需要5000个Token,但用图像来表示,可能只需要512 个 Token。

实话实说,直接升华了,

我之前研究VLM做OCR,就是解决PDF转成文本的问题,没想到DeepSeek,是在想用图像视觉压缩文本。

秀~

先说结论,

  • 这次DeepSeek提出了一个新的视觉编码结构DeepEncoder,
  • 同时做了一个关于视觉-文本token压缩比的全面定量分析,
  • DeepSeek-OCR的整体也很不错,在OmniDocBench上,使用更少的视觉token达到最好的效果。

picture.image

模型地址,HF:https://huggingface.co/deepseek-ai/DeepSeek-OCR

picture.image

DeepSeek-OCR模型也是三件套,图像编码器、映射层和文本解码器组成,其中图像编码器时特色,为DeepEncoder,参数为380M,文本解码器是一个deepseekv2-3b的模型-,参数为3B,2个共享专家,64个激活专家,每次激活6个专家,激活参数为570M。

现有VLM的视觉部分,主要是三种,双塔架构,tile-based方法,自适应分辨率编码方法,如下,存在多次预处理、高分辨率时Token数量过多等问题。

picture.image

提出DeepEncoder,为了可以能够处理高分辨率图像、在高分辨率下激活值低、输出视觉Token少、支持多分辨率输入。结构如下,参数量为380M,主要由一个80M的SAM-base模型和一个300M的CLIP-large模型串联构成。

其中,SAM-base模型以窗口注意力感知局部特征,CLIP-large模型以密集全局注意力提取全局语义信息。

模型之间,采用一个两层卷积模块对视觉token进行16倍下采样,每个卷积层的kernel size为3,stride为2,padding为1,通道数从256增加到1024。

举例,输入图像大小为1024×1024,DeepEncoder首先划分为1024/16 × 1024/16 = 4096个patch token,在对4096个token进行压缩,数量变为4096/16 = 256。

picture.image

DeepEncoder支持多分辨率,有两种,原生分辨率和动态分辨率。

picture.image

原始分辨率,包括Tiny-512×512(64 token)、Small-640×640(100 token)、Base-1024×1024(256 token)、Large-1280×1280(400 token)四种。

Tiny和Small模式是直接对图像进行resize处理,Base和Large模式是保持原始图像的宽高比利用padding方式处理。

picture.image

动态分辨率包括Gundam-640×640+1024×1024(n x 100 + 256)、Gundam-M-1024×1024+1280×1280(n x 256 + 400)两种,是由n个局部视图+一个全局视图,其中局部的tile数在2到9之间。对于宽高都小于640的图像,n设为0,Gundam退化成Base,Gundam-M退化成Large。

整体训练数据由4部分组成,

OCR1.0数据(43M张图片-文本对),由传统OCR任务组成,如图像OCR和文档OCR;

OCR2.0数据(16M张图片-文本对),包含复杂的图像解析任务,如图表、化学公式、平面几何等;

通用视觉数据(占比20%),用于注入通用图像理解能力;

纯文本数据(占比10%),用于确保模型的语言能力。

模型训练采用两阶段训练,先训练DeepEncoder部分,再全部参数联合训练。

训练DeepEncoder阶段,采用OCR1.0和OCR2.0数据,以及从LAION数据集中采样的100M通用数据,训练 2 个 epoch,BS为1280,优化器为AdamW,学习率调度器为cosine annealing ,初始学习率为 5e-5,最大长度为 4096。

全部参数训练阶段,采用20个A100-40G*8的节点进行PP训练,BS为 640,优化器为 AdamW,初始学习率为3e-5。

最后,

还没测,后面看看跟新出的PaddleOCR-VL 0.9B哪个更强。

OCR也是卷起来了~

PS:都看到这里,来个点赞、在看、关注吧。 您的支持是我坚持的最大动力!

欢迎多多关注公众号「刘聪NLP」,交个朋友吧,一起学习,一起进步!

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
基于 Ray 的大模型离线推理
大模型离线推理,是指在具有数十亿或数万亿参数的大规模模型上进行分布式推理的过程。相较于常规模型推理,在模型切分、数据处理和数据流、提升 GPU 利用率方面面临了很大挑战。本次分享将介绍如何利用 Ray 及云原生优势助力大模型离线推理。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论