多模态文档智能解析模型进展-英伟达开源NVIDIA-Nemotron-Parse-v1.1

大模型机器学习数据库

往期相关：

模型架构

模型整体架构与mBART类似，遵循vision-encoder-decoder架构，这点和之前字节开源的dolphin架构类似。

视觉编码器：ViT-H模型（https://huggingface.co/nvidia/C-RADIO）
适配层：一维卷积和归一化，以压缩潜在空间的维度和序列长度（13184个token到3201个token）
解码器：mBart [1] 10个块
分词器：使用此模型中包含的分词器受CC-BY-4.0许可证的约束
参数数量：< 1B

功能

版式分析识别的标签：标题、节、图例、索引、脚注、列表、表格、参考文献、图像

picture.image

布局理解

picture.image

表格提取

picture.image

格式和方程提取

权重（已支持vllm推理）：https://huggingface.co/nvidia/NVIDIA-Nemotron-Parse-v1.1

0

0

0

0

关于作者

关于作者

文章

0

获赞

0

收藏

0

评论

未登录

暂无评论