MinerU-利用专用LLM模型提取PDF内容的工具实测

机器学习数据库大模型

机器学习及大模型微调中,数据处理是不得不面对的比较繁琐的问题。很多数据内容以pdf文档、word文档等形式存在,需要做预处理。今天尝试了一款开源处理工具 MinerU:

picture.image

MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。 MinerU诞生于书生-浦语的预训练过程中。开源地址:

https://github.com/opendatalab/MinerU

安装

建议一开始就在有GPU的机器上安装,纯CPU会比较慢

裸机安装,以 conda 隔离环境为例,依次执行如下命令:

  
conda create -n mineru 'python=3.12' -y  
conda activate mineru  
pip install -U "magic-pdf[full]" -i https://mirrors.aliyun.com/pypi/simple  
pip install modelscope  
wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download_models.py -O download_models.py  
python download_models.py

其中下载的模型放在这里:

  
# du -sh ~/.cache/modelscope/hub/models/*  
1.8G /root/.cache/modelscope/hub/models/opendatalab  
681M /root/.cache/modelscope/hub/models/ppaanngggg

应该是一个专为文档识别训练的小模型。

以上都是官方文档的安装步骤,下面是需要适配的部分:

mac下可能需要降级 Numpy 库到 1.x, 否则执行命令会有报错:

  
pip uninstall numpy -y  
pip install numpy==1.26.4  

安装 libreoffice

  
# mac 环境:  
brew install libreoffice  
# ubuntu 环境:  
apt install libreoffice -y

安装后可以修改生成的配置文件: ~/magic-pdf.json,可以修改其中LLM辅助部分的配置:

  
    "llm-aided-config": {  
        "formula_aided": {  
            "api_key": "your_api_key",  
            "base_url": "https://dashscope.aliyuncs.com/compatible-mode/v1",  
            "model": "qwen2.5-7b-instruct",  
            "enable": false  
        },  
        "text_aided": {  
            "api_key": "your_api_key",  
            "base_url": "https://dashscope.aliyuncs.com/compatible-mode/v1",  
            "model": "qwen2.5-7b-instruct",  
            "enable": false  
        },  
        "title_aided": {  
            "api_key": "your_api_key",  
            "base_url": "https://dashscope.aliyuncs.com/compatible-mode/v1",  
            "model": "qwen2.5-32b-instruct",  
            "enable": false  
        }  
    },

可以将里面的 enable 改为 true,并配置上自己能用的模型API接口。

如果要使用 GPU,修改其中的 device-mode 值为 cuda:

  
# grep device ~/magic-pdf.json  
    "device-mode": "cuda",
运行

命令样例:

  
magic-pdf \  
-p "./GAOKAO-2025-CME/2025年高考全国1卷数学高考真题解析(完整版)/" \  
-o GAOKAO-2025-CME-mineru/math

我们来看数学前3题的解析结果:

  
# 2025 年普通高等 (新 1 卷)家学习生活愉  
  
意事项:  
  
1.答卷前, 上 .用 2B 铅笔将试卷类型和考生号填涂在 答题相应位置上  
2.选择题每小题选出答案后,用 2B 铅 案不能答在试卷上.  
3.非选择题必须用黑色字迹的钢笔或  
案,不  
一 选择题:本大题共 8 小题,每小题 5 分,共计 40 分.每小题  
上.  
  
1. 的虚部为(   )  
  
A. B. 0 C. 1 D. 6  
  
【】答案】C  
【】解析】【】分析】  
【】详解】因为 $\left( 1 + 5 \mathrm { i } \right) \mathrm { i } = \mathrm { i } + 5 \mathrm { i } ^ { 2 } = - 5 + \mathrm { i }$ ,所以其虚部为 1,  
故选:C.  
  
2. 设全集 $U = x { \big | }$ 09□□ ,集合 $\scriptstyle A = \{ 1 , 3 , 5 \}$ ,则 中元素个数为(  
  
A. 0 B. 3 C. 5 D. 8  
  
【】答案】C  
【】解析】  
【】分析】  
【】详解】因为 ,所以 $\Dot { \mathfrak { Q } } , A = 2 , 4 , 5 , 7 , 8$ , 中的元素个数为 ,  
故选:C.  
  
3. 若双曲线 $C$ 的虚轴长为实轴长的 $\sqrt { 7 }$ 倍,则 C 的离心率为(   )  
  
A. B. 2 C. D.  
  
## 【】答案】D  
  
【】解析】  
【】分析】由题可知双曲线中 的关系,结合 $\boldsymbol { a } ^ { z } + \boldsymbol { b } ^ { z } = \boldsymbol { c } ^ { z }$ 和离心率公式求解  
【】详解】 ,焦距分别为 $\mathsf { Z } a , \mathsf { Z } b , \mathsf { Z } c _ { \perp }$  
由题知, $b = \sqrt { 7 } a \prod$  
于是 $a ^ { 2 } + b ^ { 2 } = c ^ { 2 } = a ^ { 2 } + 7 a ^ { 2 } = 8 a ^ { 2 }$ ,则 $c = 2 \sqrt { 2 } a \ D$  
$\begin{array} { r } { \underline { \sf U } ^ { e } = \frac { c } { a } = 2 \sqrt { 2 } . } \end{array}$  
故选:D

结果不太理想。题干有丢失内容。选项有莫名其妙的字符

这个文档是 word 的,下面是转化为pdf后再解析的结果,好很多了:

  
# 2025 年普通高等学校招生全国统一考试(新 1 卷)  
  
★祝大家学习生活愉快★  
  
## 注意事项:  
  
1.答卷前,考生务必用黑色字迹的钢笔或签字笔将自己的姓名和考生号,试室号,座位号填写在答题卡上.用 2B 铅笔将试卷类型和考生号填涂在答题卡相应位置上.  
2.选择题每小题选出答案后,用 2B 铅笔把答题卡上对应的题目选项的答案信息点涂黑:如需改动,用橡皮擦干净后,再填涂其他答案.答案不能答在试卷上.  
3.非选择题必须用黑色字迹的钢笔或签字笔作答,答案必须写在答题卡各题目指定区域内相应位置上:如需改动,先划掉原来的答案,然后再写上新的答案,不准使用铅笔和涂改液.不按以上要求作答的答案无效.  
  
## 一、选择题:本大题共 8 小题,每小题 5 分,共计 40 分.每小题给出的四个选项中,只有一个选项是正确的.请把正确的选项填涂在答题卡相应的位置上.  
  
1. $( 1 + 5 \mathrm { i } ) \mathrm { i }$ 的虚部为(   )  
  
A. -1 B. 0 C. 1 D. 6  
  
【答案】C【解析】  
  
【分析】根据复数代数形式的运算法则以及虚部的定义即可求出.  
  
【详解】因为 $\left( 1 + 5 \mathrm { i } \right) \mathrm { i } = \mathrm { i } + 5 \mathrm { i } ^ { 2 } = - 5 + \mathrm { i }$ ,所以其虚部为1,故选:C.  
  
2. 设全集 $U = { \Big \{ } x { \Big | } x$ 罂租谗9\$%窭窦},集合 $A = \{ 1 , 3 , 5 \}$ ,则 $_ U { \cal A }$ 中元素个数为(   )  
  
A. 0 B. 3 C. 5 D. 8  
  
【答案】C【解析】  
  
【分析】根据补集的定义即可求出  
  
【详解】因为 $U = \left\{ 1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 \right\}$ ,所以 $_ { U } A = \{ 2 , 4 , 6 , 7 , 8 \}$ , $_ U { \cal A }$ 中的元素个数为5,故选:C  
  
3. 若双曲线 $C$ 的虚轴长为实轴长的 $\sqrt { 7 }$ 倍,则 $C$ 的离心率为(   )  
  
A. $\sqrt { 2 }$ B. 2 C. $\sqrt { 7 }$ D. 2 2  
  
【答案】D【解析】  
  
【分析】由题可知双曲线中 $^ { a , b }$ 的关系,结合 $a ^ { 2 } + b ^ { 2 } = c ^ { 2 }$ 和离心率公式求解  
  
【详解】设双曲线的实轴,虚轴,焦距分别为 $2 a , 2 b , 2 c$ ,由题知, $b = { \sqrt { 7 } } a$ ,  
于是 $a ^ { 2 } + b ^ { 2 } = c ^ { 2 } = a ^ { 2 } + 7 a ^ { 2 } = 8 a ^ { 2 }$ ,则 $c = 2 { \sqrt { 2 } } a$ ,  
即 $e = { \frac { c } { a } } = 2 { \sqrt { 2 } }$ .  
故选:D

另一个pdf版本:

  
# 2025年普通高等学校招生全国统一考试(新高考 $I$ 卷)  
  
## 数学  
  
一、选择题:本题共8小题,每小题5分,共40分.在每小题给出的四个选项中,只有一项是符合题目要求的.  
  
$1 , ( 1 + 5 \mathrm { i } ) \mathrm { i }$ 的虚部为(  
  
A. -1 B. 0 C. 1 D. 6  
  
答 案 $( 1 + 5 1 ) \mathrm { i } = - 5 + \mathrm { i } ,$ 故虚部为1.故选择:C  
  
.已知集合 $U = \{ x \mid x \}$ 是小于 $9$ 的正整数}, $\begin{array} { r } { \mathcal { A } = \{ 1 , 3 , 5 \} , } \end{array}$ $\complement _ { U } A$ 中元素个数为()  
  
A. 2 B. 3 C.5 D. 8  
  
答案 $[ _ { t U } A = \{ 2 , 4 , 6 , 7 , 8 \} , 5 ]$ 个元素.故选择: $\cdot \sigma$  
  
3.双曲线虚轴长是实轴长的 $\sqrt { 7 }$ 倍,则离心率为(  
  
A. $\sqrt { 2 }$ B. 2 C. $\sqrt { 7 }$ 20 D. $2 \sqrt { 2 }$ 答案 $b = { \sqrt { 7 } } a \Rightarrow b ^ { 2 } = 7 a ^ { 2 } \Rightarrow \mathrm { e } ^ { 2 } = { \frac { c ^ { 2 } } { a ^ { 2 } } } = 8 \Rightarrow \mathrm { e } = 2 { \sqrt { 2 } } .$ 故选择 $\pmb { \mathcal { D } }$
0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎AB测试总体经济影响
为充分了解火山引擎A/B测试平台为企业带来的潜在投资回报,火山引擎委托Forrester Consulting使用总 体经济影响(TEI)模型进行对其A/B测试产品潜在的投资回报率(ROI)进行评估分析。该研究的目的是为了给读者提供火山引擎A/B测试产品带来潜在财务影响评估的参考。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论