【文档智能】从零构建文档智能解析系统折腾效果记录

大模型数据安全机器学习

断断续续写文档智能这个系列已经有些时日了(往期文章都归档在《文档智能》),这段时间笔者利用周末零散时间折腾了一套纯利用深度学习模型的文档智能pipline解析系统,从目前效果来看,效果还不错,特此记录下。功能主要为输入pdf,经过版式分析划分区块,各个类别的区块施以特定的解析模型进行识别,最后通过阅读顺序还原原始的布局顺序,输出markdown格式。

基本流程都遵循以下图:

picture.image

效果如下视频:

实现该系统所利用的模型:

picture.image

modelscope地址:https://www.modelscope.cn/models/yujunhuinlp/LayoutReader-only-layout-large

picture.image

耗时点

  1. 目前还是一个单线程的pipline方案,未实现多线程并发。

  2. OCR非常耗时,尤其是文字密集文档。

  3. 公式识别、表格识别、阅读顺序模型参数量较大。

  4. 目前整个流程跑在CPU上。

  5. 纯深度学习模型的pipline,未作任何规则兜底方案和加速操作。

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论