allenai开源多模态的文档智能解析大模型(OLMOCR)方法、效果浅析

向量数据库大模型云存储

先说结论,实际体验一般,如果是下游rag文档的元素不是特别复杂可以用一用这个端到端的多模态模型,如果版式元素丰富,还是老实进行文档解析吧。 但通过pdfparser工具结合prompt结合的方式值得一看

笔者测试case:

picture.image

原图

picture.image

OLMOCR解析后,红色框表格缺失部分

核心问题与背景

PDF文档蕴含海量高质量文本数据,但因其复杂的视觉布局(多栏、表格、公式等)和元数据缺失,传统OCR工具难以准确提取内容。现有解决方案存在以下痛点:

picture.image

pipline系统

  • 端到端模型 (如Nougat)仅依赖图像输入,忽略PDF原生元数据,成本高昂(如GPT-4o处理百万页需$6,200);
  • 数据稀缺 :缺乏大规模、多样化的PDF训练数据。

OLMOCR创新点

  1. DOCUMENT-ANCHORING技术

picture.image

picture.image

Prompt

如:原图:

picture.image

通过pdfpaser得到元数据拼接提示词得到:

picture.image

  • 兼容性 :对无元数据的扫描文档仍保持高精度,仅依赖图像输入。

  • 元数据提取 :通过pypdf库解析PDF结构,提取关键元素的位置信息,动态注入模型提示(Prompt)。

  • 多模态输入融合(通过提示词) :同时利用PDF原生元数据(文本块坐标、图像位置)和页面图像,显著减少模型幻觉。

  • 蒸馏模型
  • 模型架构 :基于Qwen2-VL-7B-Instruct微调,支持Markdown结构化输出(公式LaTeX、表格Markdown)。
  • 训练数据 :构建 olmOCR-mix-0225 数据集(26万页PDF),涵盖学术论文、法律文件、手册等多样化来源(表1-2)。

picture.image

实验结果

与教师模型GPT-4o的文本对齐度达87.5%,优于GPT-4o mini(83.3%)。温度(τ=0.8)下对齐度略降(85.9%),但减少生成重复。picture.image

在2,017份PDF的对比测试中,OLMOCR以ELO 1800+显著优于Marker、MinerU等工具(图6)。使用OLMOCR数据微调OLMo-2模型,在MMLU、ARC等基准上平均提升1.3%。picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论