allenai开源多模态的文档智能解析大模型（OLMOCR）方法、效果浅析 - 文章 - 开发者社区

先说结论，实际体验一般，如果是下游rag文档的元素不是特别复杂可以用一用这个端到端的多模态模型，如果版式元素丰富，还是老实进行文档解析吧。 但通过pdfparser工具结合prompt结合的方式值得一看 。

笔者测试case：

picture.image

原图

picture.image

OLMOCR解析后，红色框表格缺失部分

核心问题与背景

PDF文档蕴含海量高质量文本数据，但因其复杂的视觉布局（多栏、表格、公式等）和元数据缺失，传统OCR工具难以准确提取内容。现有解决方案存在以下痛点：

pipline系统 （如Grobid）依赖多组件串联，对复杂布局泛化性差；笔者前期分享了很多相关技术链路《文档智能系列栏目》、《【文档智能 & RAG】RAG增强之路：增强PDF解析并结构化技术路线方案及思路》

picture.image

pipline系统

picture.image

Prompt

如：原图：

picture.image

通过pdfpaser得到元数据拼接提示词得到：

picture.image

picture.image

与教师模型GPT-4o的文本对齐度达87.5%，优于GPT-4o mini（83.3%）。温度（τ=0.8）下对齐度略降（85.9%），但减少生成重复。 picture.image

在2,017份PDF的对比测试中，OLMOCR以ELO 1800+显著优于Marker、MinerU等工具（图6）。使用OLMOCR数据微调OLMo-2模型，在MMLU、ARC等基准上平均提升1.3%。 picture.image