在之前的系列文章中(《文档智能专栏》),比较详细的介绍了文档智能解析的pipline(如下图)涉及的相关子模块的技术实现途径,也介绍了一些多模态大模型端到端的解决思路。
pipline的文档解析链路
- 版式分析与实践:pipline链路中版式分析常用目标检测实现,如实践样例:https://mp.weixin.qq.com/s/5ntWTmf8ys8wLYpJPZ-f9A
- 表格识别解析:https://mp.weixin.qq.com/s/8NqlwINN-p\_SFyn7gC84sg
- 公式解析与OCR文字识别:
- https://mp.weixin.qq.com/s/jqanDf9Vk\_IXJx5XEJkw3w
- https://mp.weixin.qq.com/s/F67wKhbYbPNVkc8Bg-ZsZA
随着文档智能解析技术的发展与内卷,文档智能解析目前基本上可以划分为三个方向 :
(1)以版式分析为龙头,OCR贯穿始终的pipline多个专家小模型技术链路
(2)纯端到端的多模态大模型的解决思路
(3)以专家小模型+多模态大模型的协同式解决思路
下面,通过本文详细的讲解近期 文档智能解析这三大方向性实践技术链路、特点、趋势和问题。