今天分享一个开源框架,之前分享过类似的工具,但是这个做的更深入,可以将各种格式如pdf中的文本、图片、表格、公式转成markdown。
MinerU 是一款一站式、开源、高质量的数据提取工具,包含Magic-PDF、Magic-Doc 2大组件,分别用于 PDF文档提取、网页与电子书提取。
主要功能包含
- 支持多种前端模型输入
- 删除页眉、页脚、脚注、页码等元素
- 符合人类阅读顺序的排版格式
- 保留原文档的结构和格式,包括标题、段落、列表等
- 提取图像和表格并在markdown中展示
- 将公式转换成latex
- 乱码PDF自动识别并转换
- 支持cpu和gpu环境
- 支持windows/linux/mac平台
太厉害了,看视频介绍~
架构图:
支持多格式文献:
支持176种语言准确识别
开源地址:
https://github.com/opendatalab/MinerU
PS:给公众号添加【星标⭐️】不迷路!您的点赞、在看、关注 是我坚持的最大动力!
欢迎多多关注公众号「NLP前沿」,加入交流群,交个朋友吧,一起学习,一起进步!
最新文章推荐阅读