文档备案控制台登录立即注册

首页文章活动开发者计划镜像站

发布

文档智能解析项目汇总（含pipline、多模态端到端解析）

大模型向量数据库机器学习

之前的文档智能专栏介绍了文档解析全链路方案，现将涉及了这些技术的方案项目汇总一下。

Pipline式文档解析

MinerU: https://github.com/opendatalab/MinerU
ppstructure: https://github.com/PaddlePaddle/PaddleOCR/blob/main/docs/version3.x/algorithm/PP-StructureV3/PP-StructureV3.md
Docling: https://github.com/docling-project/docling
Marker: https://github.com/VikParuchuri/marker

...

picture.image

总结：pipline的可解释性强，更贴近落地解法，但泛化能力有限

多模态端到端的文档解析（finetune）

Dolphin: https://github.com/bytedance/Dolphin
olmOCR: https://github.com/allenai/olmocr
GOT-OCR: https://github.com/Ucas-HaoranWei/GOT-OCR2.0
SmolDocling: https://huggingface.co/ds4sd/SmolDocling-256M-preview
Unstructured: https://github.com/Unstructured-IO/unstructured
OpenParse: https://github.com/Filimoa/open-parse
Mistral-OCR: https://mistral.ai/news/mistral-ocr?utm\_source=ai-bot.cn
Nougat: https://github.com/facebookresearch/nougat

...

picture.image

总结：存在幻觉问题、速度慢，没有自媒体宣传的那么夸张，离落地距离还远

通用多模态大模型代表

GPT4o
Gemini
Qwen2.5-VL-72B

...

总结：贵

后语：文档解析还是工业界一个难以攻克的研究方向，符合自身业务场景的才是最好的。

关于我：余俊晖，主要研究方向为自然语言处理、大语言模型、文档智能。曾获CCF、Kaggle、ICPR、ICDAR、CCL、CAIL等国内外近二十项AI算法竞赛/评测冠亚季军。发表SCI、顶会等文章多篇，专利数项。

0

0

0

0

关于作者

关于作者

文章

0

获赞

0

收藏

0

相关资源

CV 技术在视频创作中的应用

本次演讲将介绍在拍摄、编辑等场景，我们如何利用 AI 技术赋能创作者；以及基于这些场景，字节跳动积累的领先技术能力。

相关产品

推荐阅读

DeepSeek、豆包、Kimi、文心一言、腾讯元宝、通义千问、讯飞星火-优缺点分析以及分别怎么应用

猎影计划：从密流中捕获 Cobalt Strike 的隐秘身影

DeepSeek职场100个提示词指令模板（数据分析、PPT制作...）建议收藏

Spring AI爆发，Java开发者如何抢占AI风口？

Poe – Fast AI Chat 一款集成AI工具

评论

未登录

看完啦，登录分享一下感受吧～

暂无评论