往期相关:
模型架构
模型整体架构与mBART类似,遵循vision-encoder-decoder架构,这点和之前字节开源的dolphin架构类似。
- 视觉编码器:ViT-H模型(https://huggingface.co/nvidia/C-RADIO)
- 适配层:一维卷积和归一化,以压缩潜在空间的维度和序列长度(13184个token到3201个token)
- 解码器:mBart [1] 10个块
- 分词器:使用此模型中包含的分词器受CC-BY-4.0许可证的约束
- 参数数量:< 1B
功能
版式分析识别的标签:标题、节、图例、索引、脚注、列表、表格、参考文献、图像
布局理解
表格提取
格式和方程提取
权重(已支持vllm推理):https://huggingface.co/nvidia/NVIDIA-Nemotron-Parse-v1.1
