【文档智能&多模态】Qwen2.5-VL在版式分析和表格识别上的实际测试效果

大模型向量数据库机器学习

qwen开年开源了Qwen2.5-VL系列权重模型,笔者观察到相较于传统的多模态系列,增加了文档理解功能。笔者以文档智能中两个比较重要的任务 版式分析表格识别 ,笔者直接测试下Qwen2.5-VL-72B的效果。

picture.image

图:版式分析和表格识别在文档智能解析任务中所在角色

往期文档智能及多模态相关技术

  • 文档智能

【文档智能 & RAG】RAG增强之路:增强PDF解析并结构化技术路线方案及思路

【多模态 & 文档智能】一次多模态大模型表格识别解析探索小实践记录

【文档智能】轻量级级表格识别算法模型-SLANet

...

  • 多模态LLM

【多模态&LLM】POINTS多模态大模型浅谈

【多模态&LLM】LLaVA系列算法架构演进:LLaVA(1.0->1.5->Next(1.6)->NeXT(Video))

【多模态&LLM】英伟达NVLM多模态大模型细节和数据集

【多模态&文档智能】OCR-free感知多模态大模型技术链路及训练数据细节

【多模态 & 文档智能】一次多模态大模型表格识别解析探索小实践记录

【多模态&LLM】Reyes:一个从0到1开始训练的多模态大模型(技术报告)

【多模态&LLM】多模态大模型Reyes增加batch推理方式,提升推理速度

【多模态&LLM】deepseek多模态大模型Janus、Janus-Pro模型架构及优化方法浅谈

版式分析

  • case1picture.image

picture.image

qwen2.5-VL-72B效果

picture.image

OCR的效果还不错

  • case2

picture.image

qwen2.5-VL-72B效果

这个case没有输出bbox位置信息。

  • case3

picture.image

原图:来源于网络

picture.image

原图:来源于网络

这种报纸的更复杂的版式,输出更加崩溃,ocr吐字由于内容较长,发生停止截断。

表格识别

下面case的测试示例均来自于笔者前文介绍的表格图片《 【多模态 & 文档智能】一次多模态大模型表格识别解析探索小实践记录

  • case1picture.image

picture.image

qwen2.5-VL-72B效果

  • case2

picture.image

原始图

picture.image这个case的问题列单元格合并问题挺大。

  • case3picture.image

picture.image整体上看起来不错,但表格上前两行合并单元格还存在问题。

结论

通过上述case测试,qwen2.5-VL-72B这波开源的模型在 版式分析表格识别 的实际测试中仍然效果不加,这也在意料之中,这类任务还是应该采用传统的视觉方法进行处理,并不是模型越大越好。

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论