pdf转markdown,一个高质量的开源项目!

火山方舟向量数据库大模型

今天分享一个开源框架,之前分享过类似的工具,但是这个做的更深入,可以将各种格式如pdf中的文本、图片、表格、公式转成markdown。

MinerU 是一款一站式、开源、高质量的数据提取工具,包含Magic-PDF、Magic-Doc 2大组件,分别用于 PDF文档提取、网页与电子书提取。

主要功能包含

  • 支持多种前端模型输入
  • 删除页眉、页脚、脚注、页码等元素
  • 符合人类阅读顺序的排版格式
  • 保留原文档的结构和格式,包括标题、段落、列表等
  • 提取图像和表格并在markdown中展示
  • 将公式转换成latex
  • 乱码PDF自动识别并转换
  • 支持cpu和gpu环境
  • 支持windows/linux/mac平台

太厉害了,看视频介绍~

架构图:

picture.image

支持多格式文献:

picture.image

支持176种语言准确识别

picture.image

开源地址:


          
            
https://github.com/opendatalab/MinerU  

          
        

PS:给公众号添加【星标⭐️】不迷路!您的点赞、在看、关注 是我坚持的最大动力!

欢迎多多关注公众号「NLP前沿」,加入交流群,交个朋友吧,一起学习,一起进步!

最新文章推荐阅读

RAG全景图:从RAG启蒙到高级RAG之36技,再到终章Agentic RAG!

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
云原生数据库 veDB 核心技术剖析与展望
veDB 是一款分布式数据库,采用了云原生计算存储分离架构。本次演讲将为大家介绍火山引擎这款云原生数据库的核心技术原理,并对未来进行展望。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论