【多模态 & 文档智能】一次多模态大模型表格识别解析探索小实践记录

关系型数据库数据安全图像处理

表格识别 作为文档智能的重要组成部分,面临着复杂结构和多样化格式的挑战。 【文档智能 & RAG】RAG增强之路:增强PDF解析并结构化技术路线方案及思路‍‍‍

picture.image

前期文章也介绍了传统视觉的方法进行表格结构识别的方法,【文档智能】轻量级级表格识别算法模型-SLANet‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

关于表格识别在这里就不做过多的介绍了。

国庆期间,笔者利用一个较长的时间段,训练了一个多模态的表格识别 模型,效果还不错,特此记录一下多模态的效果。

  • 训练资源:H100*8
  • 训练数据:200w table image - table html对(html的表示表格的优势,可以准确表示一些复杂表格,如合并单元格等,这点是mardown格式无法做到的。)
  • 模型参数量:7B
  • 自建测评数据TEDS:0.97~0.98

小总结:

  1. 训练数据质量大于一切,含大量数据的超长文本表格目前还不能准确识别,因为笔者训练的是 max-length=8192
  2. 模型参数量目前较大,推理速度比较慢。

效果记录 : 下面的一些case来源于网络的表格截图。

picture.image case1


picture.image case2


picture.image case3


picture.image case4


picture.image case5


picture.image case6


picture.image case7

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论