机器学习及大模型微调中,数据处理是不得不面对的比较繁琐的问题。很多数据内容以pdf文档、word文档等形式存在,需要做预处理。今天尝试了一款开源处理工具 MinerU:
MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。 MinerU诞生于书生-浦语的预训练过程中。开源地址:
https://github.com/opendatalab/MinerU
安装
建议一开始就在有GPU的机器上安装,纯CPU会比较慢
裸机安装,以 conda 隔离环境为例,依次执行如下命令:
conda create -n mineru 'python=3.12' -y
conda activate mineru
pip install -U "magic-pdf[full]" -i https://mirrors.aliyun.com/pypi/simple
pip install modelscope
wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download_models.py -O download_models.py
python download_models.py
其中下载的模型放在这里:
# du -sh ~/.cache/modelscope/hub/models/*
1.8G /root/.cache/modelscope/hub/models/opendatalab
681M /root/.cache/modelscope/hub/models/ppaanngggg
应该是一个专为文档识别训练的小模型。
以上都是官方文档的安装步骤,下面是需要适配的部分:
mac下可能需要降级 Numpy 库到 1.x, 否则执行命令会有报错:
pip uninstall numpy -y
pip install numpy==1.26.4
安装 libreoffice
# mac 环境:
brew install libreoffice
# ubuntu 环境:
apt install libreoffice -y
安装后可以修改生成的配置文件: ~/magic-pdf.json,可以修改其中LLM辅助部分的配置:
"llm-aided-config": {
"formula_aided": {
"api_key": "your_api_key",
"base_url": "https://dashscope.aliyuncs.com/compatible-mode/v1",
"model": "qwen2.5-7b-instruct",
"enable": false
},
"text_aided": {
"api_key": "your_api_key",
"base_url": "https://dashscope.aliyuncs.com/compatible-mode/v1",
"model": "qwen2.5-7b-instruct",
"enable": false
},
"title_aided": {
"api_key": "your_api_key",
"base_url": "https://dashscope.aliyuncs.com/compatible-mode/v1",
"model": "qwen2.5-32b-instruct",
"enable": false
}
},
可以将里面的 enable 改为 true,并配置上自己能用的模型API接口。
如果要使用 GPU,修改其中的 device-mode 值为 cuda:
# grep device ~/magic-pdf.json
"device-mode": "cuda",
运行
命令样例:
magic-pdf \
-p "./GAOKAO-2025-CME/2025年高考全国1卷数学高考真题解析(完整版)/" \
-o GAOKAO-2025-CME-mineru/math
我们来看数学前3题的解析结果:
# 2025 年普通高等 (新 1 卷)家学习生活愉
意事项:
1.答卷前, 上 .用 2B 铅笔将试卷类型和考生号填涂在 答题相应位置上
2.选择题每小题选出答案后,用 2B 铅 案不能答在试卷上.
3.非选择题必须用黑色字迹的钢笔或
案,不
一 选择题:本大题共 8 小题,每小题 5 分,共计 40 分.每小题
上.
1. 的虚部为( )
A. B. 0 C. 1 D. 6
【】答案】C
【】解析】【】分析】
【】详解】因为 $\left( 1 + 5 \mathrm { i } \right) \mathrm { i } = \mathrm { i } + 5 \mathrm { i } ^ { 2 } = - 5 + \mathrm { i }$ ,所以其虚部为 1,
故选:C.
2. 设全集 $U = x { \big | }$ 0□9□□ ,集合 $\scriptstyle A = \{ 1 , 3 , 5 \}$ ,则 中元素个数为(
A. 0 B. 3 C. 5 D. 8
【】答案】C
【】解析】
【】分析】
【】详解】因为 ,所以 $\Dot { \mathfrak { Q } } , A = 2 , 4 , 5 , 7 , 8$ , 中的元素个数为 ,
故选:C.
3. 若双曲线 $C$ 的虚轴长为实轴长的 $\sqrt { 7 }$ 倍,则 C 的离心率为( )
A. B. 2 C. D.
## 【】答案】D
【】解析】
【】分析】由题可知双曲线中 的关系,结合 $\boldsymbol { a } ^ { z } + \boldsymbol { b } ^ { z } = \boldsymbol { c } ^ { z }$ 和离心率公式求解
【】详解】 ,焦距分别为 $\mathsf { Z } a , \mathsf { Z } b , \mathsf { Z } c _ { \perp }$
由题知, $b = \sqrt { 7 } a \prod$
于是 $a ^ { 2 } + b ^ { 2 } = c ^ { 2 } = a ^ { 2 } + 7 a ^ { 2 } = 8 a ^ { 2 }$ ,则 $c = 2 \sqrt { 2 } a \ D$
$\begin{array} { r } { \underline { \sf U } ^ { e } = \frac { c } { a } = 2 \sqrt { 2 } . } \end{array}$
故选:D
结果不太理想。题干有丢失内容。选项有莫名其妙的字符
这个文档是 word 的,下面是转化为pdf后再解析的结果,好很多了:
# 2025 年普通高等学校招生全国统一考试(新 1 卷)
★祝大家学习生活愉快★
## 注意事项:
1.答卷前,考生务必用黑色字迹的钢笔或签字笔将自己的姓名和考生号,试室号,座位号填写在答题卡上.用 2B 铅笔将试卷类型和考生号填涂在答题卡相应位置上.
2.选择题每小题选出答案后,用 2B 铅笔把答题卡上对应的题目选项的答案信息点涂黑:如需改动,用橡皮擦干净后,再填涂其他答案.答案不能答在试卷上.
3.非选择题必须用黑色字迹的钢笔或签字笔作答,答案必须写在答题卡各题目指定区域内相应位置上:如需改动,先划掉原来的答案,然后再写上新的答案,不准使用铅笔和涂改液.不按以上要求作答的答案无效.
## 一、选择题:本大题共 8 小题,每小题 5 分,共计 40 分.每小题给出的四个选项中,只有一个选项是正确的.请把正确的选项填涂在答题卡相应的位置上.
1. $( 1 + 5 \mathrm { i } ) \mathrm { i }$ 的虚部为( )
A. -1 B. 0 C. 1 D. 6
【答案】C【解析】
【分析】根据复数代数形式的运算法则以及虚部的定义即可求出.
【详解】因为 $\left( 1 + 5 \mathrm { i } \right) \mathrm { i } = \mathrm { i } + 5 \mathrm { i } ^ { 2 } = - 5 + \mathrm { i }$ ,所以其虚部为1,故选:C.
2. 设全集 $U = { \Big \{ } x { \Big | } x$ 罂租谗9\$%窭窦},集合 $A = \{ 1 , 3 , 5 \}$ ,则 $_ U { \cal A }$ 中元素个数为( )
A. 0 B. 3 C. 5 D. 8
【答案】C【解析】
【分析】根据补集的定义即可求出
【详解】因为 $U = \left\{ 1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 \right\}$ ,所以 $_ { U } A = \{ 2 , 4 , 6 , 7 , 8 \}$ , $_ U { \cal A }$ 中的元素个数为5,故选:C
3. 若双曲线 $C$ 的虚轴长为实轴长的 $\sqrt { 7 }$ 倍,则 $C$ 的离心率为( )
A. $\sqrt { 2 }$ B. 2 C. $\sqrt { 7 }$ D. 2 2
【答案】D【解析】
【分析】由题可知双曲线中 $^ { a , b }$ 的关系,结合 $a ^ { 2 } + b ^ { 2 } = c ^ { 2 }$ 和离心率公式求解
【详解】设双曲线的实轴,虚轴,焦距分别为 $2 a , 2 b , 2 c$ ,由题知, $b = { \sqrt { 7 } } a$ ,
于是 $a ^ { 2 } + b ^ { 2 } = c ^ { 2 } = a ^ { 2 } + 7 a ^ { 2 } = 8 a ^ { 2 }$ ,则 $c = 2 { \sqrt { 2 } } a$ ,
即 $e = { \frac { c } { a } } = 2 { \sqrt { 2 } }$ .
故选:D
另一个pdf版本:
# 2025年普通高等学校招生全国统一考试(新高考 $I$ 卷)
## 数学
一、选择题:本题共8小题,每小题5分,共40分.在每小题给出的四个选项中,只有一项是符合题目要求的.
$1 , ( 1 + 5 \mathrm { i } ) \mathrm { i }$ 的虚部为(
A. -1 B. 0 C. 1 D. 6
答 案 $( 1 + 5 1 ) \mathrm { i } = - 5 + \mathrm { i } ,$ 故虚部为1.故选择:C
.已知集合 $U = \{ x \mid x \}$ 是小于 $9$ 的正整数}, $\begin{array} { r } { \mathcal { A } = \{ 1 , 3 , 5 \} , } \end{array}$ 则 $\complement _ { U } A$ 中元素个数为()
A. 2 B. 3 C.5 D. 8
答案 $[ _ { t U } A = \{ 2 , 4 , 6 , 7 , 8 \} , 5 ]$ 个元素.故选择: $\cdot \sigma$
3.双曲线虚轴长是实轴长的 $\sqrt { 7 }$ 倍,则离心率为(
A. $\sqrt { 2 }$ B. 2 C. $\sqrt { 7 }$ (20 D. $2 \sqrt { 2 }$ 答案 $b = { \sqrt { 7 } } a \Rightarrow b ^ { 2 } = 7 a ^ { 2 } \Rightarrow \mathrm { e } ^ { 2 } = { \frac { c ^ { 2 } } { a ^ { 2 } } } = 8 \Rightarrow \mathrm { e } = 2 { \sqrt { 2 } } .$ 故选择 $\pmb { \mathcal { D } }$