【多模态 & 文档智能】一次多模态大模型表格识别解析探索小实践记录

关系型数据库数据安全图像处理

表格识别 作为文档智能的重要组成部分，面临着复杂结构和多样化格式的挑战。【文档智能 & RAG】RAG增强之路：增强PDF解析并结构化技术路线方案及思路 ‍‍‍

picture.image

前期文章也介绍了传统视觉的方法进行表格结构识别的方法，【文档智能】轻量级级表格识别算法模型-SLANet‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

关于表格识别在这里就不做过多的介绍了。

国庆期间，笔者利用一个较长的时间段，训练了一个多模态的表格识别 模型，效果还不错，特此记录一下多模态的效果。

训练资源：H100*8
训练数据：200w table image - table html对（html的表示表格的优势，可以准确表示一些复杂表格，如合并单元格等，这点是mardown格式无法做到的。）
模型参数量：7B
自建测评数据TEDS：0.97~0.98

小总结：

效果记录 ：下面的一些case来源于网络的表格截图。

picture.image case1

picture.image case2

picture.image case3

picture.image case4

picture.image case5

picture.image case6

picture.image case7