之前的文档智能专栏介绍了文档解析全链路方案,现将涉及了这些技术的方案项目汇总一下。
Pipline式文档解析
- MinerU: https://github.com/opendatalab/MinerU
- ppstructure: https://github.com/PaddlePaddle/PaddleOCR/blob/main/docs/version3.x/algorithm/PP-StructureV3/PP-StructureV3.md
- Docling: https://github.com/docling-project/docling
- Marker: https://github.com/VikParuchuri/marker
...
总结:pipline的可解释性强,更贴近落地解法,但泛化能力有限
多模态端到端的文档解析(finetune)
- Dolphin: https://github.com/bytedance/Dolphin
- olmOCR: https://github.com/allenai/olmocr
- GOT-OCR: https://github.com/Ucas-HaoranWei/GOT-OCR2.0
- SmolDocling: https://huggingface.co/ds4sd/SmolDocling-256M-preview
- Unstructured: https://github.com/Unstructured-IO/unstructured
- OpenParse: https://github.com/Filimoa/open-parse
- Mistral-OCR: https://mistral.ai/news/mistral-ocr?utm\_source=ai-bot.cn
- Nougat: https://github.com/facebookresearch/nougat
...
总结:存在幻觉问题、速度慢,没有自媒体宣传的那么夸张,离落地距离还远
通用多模态大模型代表
- GPT4o
- Gemini
- Qwen2.5-VL-72B
...
总结:贵
后语:文档解析还是工业界一个难以攻克的研究方向,符合自身业务场景的才是最好的。
关于我:余俊晖,主要研究方向为自然语言处理、大语言模型、文档智能。曾获CCF、Kaggle、ICPR、ICDAR、CCL、CAIL等国内外近二十项AI算法竞赛/评测冠亚季军。发表SCI、顶会等文章多篇,专利数项。