pdf转markdown，一个高质量的开源项目！ - 文章 - 开发者社区

今天分享一个开源框架，之前分享过类似的工具，但是这个做的更深入，可以将各种格式如pdf中的文本、图片、表格、公式转成markdown。

MinerU 是一款一站式、开源、高质量的数据提取工具，包含Magic-PDF、Magic-Doc 2大组件，分别用于 PDF文档提取、网页与电子书提取。

主要功能包含

太厉害了，看视频介绍~

架构图：

picture.image

支持多格式文献：

picture.image

支持176种语言准确识别

picture.image

开源地址：


          
            
https://github.com/opendatalab/MinerU

PS：给公众号添加【星标⭐️】不迷路！您的点赞、在看、关注 是我坚持的最大动力！

欢迎多多关注公众号「NLP前沿」，加入交流群，交个朋友吧，一起学习，一起进步！