简历信息提取(一):PDFPlumber和PP-Structure

技术

picture.image

向AI转型的程序员都关注了这个号👇👇👇

0 引言

信息抽取任务旨在从非结构化的自然语言文本中提取结构化信息。在本系列项目中,将讨论如何又好又快地实现一个简历信息提取任务。

作为该系列文章的第一篇,我们将首先从数据处理着手,探讨Word、PDF格式文档信息提取的一些基本方法。

数据集简介

本文使用的简历数据集是脱敏之后的中文人才简历数据和标注数据。

标注类别包括:姓名、出生年月、性别、电话、最高学历、籍贯、落户市县、政治面貌、毕业院校、工作单位、工作内容、职务、项目名称、项目责任、学位、毕业时间、工作时间、项目时间共18个字段。

在训练数据集中,每个“毕业院校、学位、毕业时间”为一组,以“教育经历”列表给出;每个“工作单位、工作内容、职务、工作时间”为一组,以“工作经历”列表给出;每个“项目名称、项目责任、项目时间”为一组,以“项目经历”列表给出。

训练数据同时给出了PDF和Word格式。

1 word文档信息提取

1.1 认识.docx格式

现在.docx格式是我们最常见到的一种Word文档格式了,它是微软采用类XML格式标准定义的Word文件。

正因如此,相比早期的.doc文件,.docx文件的兼容性大幅提升。

那么,.docx文件又是如何封装的?.docx实际上是一个zip的压缩文件,比如我们任选一个.docx文件:

picture.image

picture.image

picture.image

因此,其实除了python-docx库之外,BeautifulSoup也可以用来提取Word文档信息。

代码地址:

关注微信公众号 datayx 然后回复 简历 即可获取。

1.2 提取word文档信息

1.2.1 用python-docx提取文档信息

python-docx其实在项目PaddleHub机器翻译:文档的批量翻译中提到过

这里不做过多赘述,我们直奔主题,选取一份word简历文档,尝试提取信息。

picture.image

picture.image

picture.image

picture.image

picture.image

picture.image

picture.image

picture.image

picture.image

1.2.2 用BeautifulSoup提取Word文档信息

如果说这种方法有什么缺点的话,就是遇到一些艺术字等标题,与后面的文字从语义上是连续的,但是XML格式不连续。

picture.image

杜素宁
MOBILE
:
15904130130
E-MAIL

0da08x@163.com
A
ddress
:云南省昭通市
个人信息
民族:

籍贯:
云南省昭通市
性别:

年龄
: 18

教育经历
2008.08-2012.08

北方工业大学
食品科学与工程
学士学位

主要经历
P
roject Experience
工作经历:
1997.06-2010.07
江苏华英企业管理股份有限公司
水处理工程师
工作内容:
1.负责部门内日常用品的采购;2.做好与公司内其他部门的对接工作;3.协助部门进行办公环境管理和后勤管理工作;4.销售人员与公司的信息交流,随时保持与市场销售人员的电话沟通,销售政策及公司文件的及时传达。5.领导交办的其他工作

工作经历:
1991年12月-2012年09月
和宇健康科技股份有限公司
市场营销专员
工作内容:
1、做好消费宾客的迎、送接待工作,接受宾客各种渠道的预定并加以落实;2、礼貌用语,详细做好预订记录;3、了解和收集宾客的建议和意见并及时反馈给上级领导;4、以规范的服务礼节,树立公司品牌优质,文雅的服务形象。

工作经历:
2007/05-2010/03
深圳市有棵树科技有限公司
拼多多运营
工作内容:
1.负责规定区域的产品销售,做好产品介绍,确认订单,回款等销售相关工作;2.做好客户背景资料调查,竞争对手分析,产品适用性分析;3.按公司规定完成SalesPipeline信息记录

个人技能
Personal
Skills
吃饭

个人荣誉
P
ersonal Honor
优秀学生干部

2 使用pdfplumber库提取PDF信息

picture.image

杜素宁
MOBILE : 15904130130
E-MAIL:0da08x@163.com

Address:云南省昭通市
个人信息

民族:汉 籍贯:云南省昭通市 性别:女 年龄: 18

教育经历

2008.08-2012.08 北方工业大学 食品科学与工程 学士学位

主要经历
Project Experience
工作经历:
1997.06-2010.07 江苏华英企业管理股份有限公司 水处理工程师
工作内容:
1.负责部门内日常用品的采购;2.做好与公司内其他部门的对接工作;3.协助部门进行办公环境管理和后勤管理工作;4.销
售人员与公司的信息交流,随时保持与市场销售人员的电话沟通,销售政策及公司文件的及时传达。5.领导交办的其他工作

工作经历:
1991年12月-2012年 和宇健康科技股份有限公司 市场营销专员
09月
工作内容:
1、做好消费宾客的迎、送接待工作,接受宾客各种渠道的预定并加以落实;2、礼貌用语,详细做好预订记录;3、了解和
收集宾客的建议和意见并及时反馈给上级领导;4、以规范的服务礼节,树立公司品牌优质,文雅的服务形象。

工作经历:
2007/05-2010/03 深圳市有棵树科技有限公司 拼多多运营
工作内容:
1.负责规定区域的产品销售,做好产品介绍,确认订单,回款等销售相关工作;2.做好客户背景资料调查,竞争对手分析,
产品适用性分析;3.按公司规定完成SalesPipeline信息记录

picture.image

3 通过PPOCR识别PDF

这个方式看起来有点绕,如果可以直接识别PDF和word,为什么还要转图片用OCR呢?

不过,在很多时候,它还是一个很必要的补充手段,毕竟,如果简历的PDF是那种扫描式的,甚至word文档万一就是个图片……

手段多一些,总是有备无患的。

在本文中,我们尝试的是PP-Structure工具包,它提供了PDF图片表格一键提取解决方案。

picture.image

3.1 PDF批量转图片

picture.image

picture.image

3.2 对不同式样简历提取信息

下面这两张简历我们可以看出,对于一些表格式简历,版面分析会将其判定为表格。

其它的简历,可能被认为版面上是图片甚至既没有图片也没有表格。

如果使用PP-Structure,对这几种检测结果,需要分别进行后处理。

picture.image

picture.image

['姓名',
'郝淑宁',
'性别',
'男',
'出生日期',
'2000.04',
'民族',
'汉族',
'联系电话',
'13602173036',
'籍贯',
'黑龙江省双鸭山「邮箱 市',
'bhluo@live.com',
'教育背景',
'毕业时间:',
'2012.08 - 2016.08',
'毕业学校:北京政法职业学院',
'学历/学位:大学本科/学士学位',
'专业:动物生产',
'工作经验',
'时间:1991年07月-2016年12月',
'部门:研发部',
'公司:江苏达科信息科技有限公司',
'职位:渠道商务',
'1、申请票据,购***,准备和报送会计报表,会报税及报税流程;2、现金及银行收付处理,制作记帐',
'凭证,银行对帐,单据审核,开具与保管发票;3、协助财会文件的准备、归档和保管;4、固定资产和',
'工作;',
'低值易耗品的登记和管理;5、负责与银行、税务等部门的对外联络;6、协助领导完成其他日常事务性',
'时间:1992年05月-2015年05月',
'公司:盛趣信息技术有限公司部门:研发部',
'职位:商场空调工5.5k',
'1、根据公司制定的目标,制定有效销售计划,开发客户,完成销售任务;2、关注市场变化,收集有效',
'的市场信息,为公司的销售策略作参考资料依据;3、做好客户管理工作,根据不同客户的需求特点和 相关的信息、数据,提供解决方案;4、统筹客户维系工作,做好客户拜访计划,并按计划进行拜访,',
'推进项目;5、协助领导做好公司其他工作。',
'时间:2006.06-2018.06',
'公司:广州市华粤行仪器有限公司',
'部门:研发部',
'职位:Golang开发工程师',
'1、登记收集资料,整理文件表格;2、辅助就业指导老师为鹏程学员推荐工作;3、发布招聘信息,与',
'鹏程学员互动;4、对接好企业,为鹏程学员推荐心仪工作到面到岗服务。',
'项目经验',
'2001.12-2012.01 1、协助制定市场活动计划,组织落实市场活动;2、负责展会活动策划与相关活动支持,市场推广资料',
'珠三角最低工资标准的执行、影响与对策研究']

picture.image

picture.image

杜素宁
MOBILE:15904130130
E-MAIL:0da08x@163.com
Address:云南省昭通市
个人信息
性别:女
民族:汉
籍贯:云南省昭通市
年龄:18
教育经历
北方工业大学
食品科学与工程
2008.08-2012.08
学士学位
主要经历
Project Experience
工作经历:
1997.06-2010.07
江苏华英企业管理股份有限公司
水处理工程师
工作内容:
1.负责部门内日常用品的采购;2.做好与公司内其他部门的对接工作;3.协助部门进行办公环境管理和后勤管理工作;4.销
售人员与公司的信息交流,随时保持与市场销售人员的电话沟通,销售政策及公司文件的及时传达。5.领导交办的其他工作
工作经历:
1991年12月-2012年
和宇健康科技股份有限公司
市场营销专员
09月
工作内容:
1、做好消费宾客的迎、送接待工作,接受宾客各种渠道的预定并加以落实;2、礼貌用语,详细做好预订记录;3、了解和
收集宾客的建议和意见并及时反馈给上级领导;4、以规范的服务礼节,树立公司品牌优质,文雅的服务形象
工作经历:
2007/05-2010/03
深圳市有棵树科技有限公司
拼多多运营
工作内容:
1.负责规定区域的产品销售,做好产品介绍,确认订单,回款等销售相关工作;2.做好客户背景资料调查,竞争对手分析
产品适用性分析;3.按公司规定完成SalesPipeline信息记录

4 小结

在本文中,我们探索并比较了Word、PDF、图片格式的简历文件信息提取方法,在后续项目中,将结合PaddleNLP的信息提取技术,尝试将非结构化的简历文件,提取成标注文件指定的格式,并验证性能。

机器学习算法AI大数据技术

搜索公众号添加: datanlp

picture.image

长按图片,识别二维码


阅读过本文的人还看了以下文章:

TensorFlow 2.0深度学习案例实战

基于40万表格数据集TableBank,用MaskRCNN做表格检测

《基于深度学习的自然语言处理》中/英PDF

Deep Learning 中文版初版-周志华团队

【全套视频课】最全的目标检测算法系列讲解,通俗易懂!

《美团机器学习实践》_美团算法团队.pdf

《深度学习入门:基于Python的理论与实现》高清中文PDF+源码

《深度学习:基于Keras的Python实践》PDF和代码

特征提取与图像处理(第二版).pdf

python就业班学习视频,从入门到实战项目

2019最新《PyTorch自然语言处理》英、中文版PDF+源码

《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码

《深度学习之pytorch》pdf+附书源码

PyTorch深度学习快速实战入门《pytorch-handbook》

【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》

《Python数据分析与挖掘实战》PDF+完整源码

汽车行业完整知识图谱项目实战视频(全23课)

李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材

笔记、代码清晰易懂!李航《统计学习方法》最新资源全套!

《神经网络与深度学习》最新2018版中英PDF+源码

将机器学习模型部署为REST API

FashionAI服装属性标签图像识别Top1-5方案分享

重要开源!CNN-RNN-CTC 实现手写汉字识别

yolo3 检测出图像中的不规则汉字

同样是机器学习算法工程师,你的面试为什么过不了?

前海征信大数据算法:风险概率预测

【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类

VGG16迁移学习,实现医学图像识别分类工程项目

特征工程(一)

特征工程(二) :文本数据的展开、过滤和分块

特征工程(三):特征缩放,从词袋到 TF-IDF

特征工程(四): 类别特征

特征工程(五): PCA 降维

特征工程(六): 非线性特征提取和模型堆叠

特征工程(七):图像特征提取和深度学习

如何利用全新的决策树集成级联结构gcForest做特征工程并打分?

Machine Learning Yearning 中文翻译稿

蚂蚁金服2018秋招-算法工程师(共四面)通过

全球AI挑战-场景分类的比赛源码(多模型融合)

斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)

python+flask搭建CNN在线识别手写中文网站

中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程

不断更新资源

深度学习、机器学习、数据分析、python

搜索公众号添加: datayx

picture.image

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论