qwen开年开源了Qwen2.5-VL系列权重模型,笔者观察到相较于传统的多模态系列,增加了文档理解功能。笔者以文档智能中两个比较重要的任务
版式分析
和
表格识别
,笔者直接测试下Qwen2.5-VL-72B的效果。
图:版式分析和表格识别在文档智能解析任务中所在角色
往期文档智能及多模态相关技术
- 文档智能
【文档智能 & RAG】RAG增强之路:增强PDF解析并结构化技术路线方案及思路
【多模态 & 文档智能】一次多模态大模型表格识别解析探索小实践记录
...
- 多模态LLM
【多模态&LLM】LLaVA系列算法架构演进:LLaVA(1.0->1.5->Next(1.6)->NeXT(Video))
【多模态&文档智能】OCR-free感知多模态大模型技术链路及训练数据细节
【多模态 & 文档智能】一次多模态大模型表格识别解析探索小实践记录
【多模态&LLM】Reyes:一个从0到1开始训练的多模态大模型(技术报告)
【多模态&LLM】多模态大模型Reyes增加batch推理方式,提升推理速度
【多模态&LLM】deepseek多模态大模型Janus、Janus-Pro模型架构及优化方法浅谈
版式分析
- case1
qwen2.5-VL-72B效果
OCR的效果还不错
- case2
qwen2.5-VL-72B效果
这个case没有输出bbox位置信息。
- case3
原图:来源于网络
原图:来源于网络
这种报纸的更复杂的版式,输出更加崩溃,ocr吐字由于内容较长,发生停止截断。
表格识别
下面case的测试示例均来自于笔者前文介绍的表格图片《 【多模态 & 文档智能】一次多模态大模型表格识别解析探索小实践记录 》
- case1
qwen2.5-VL-72B效果
- case2
原始图
这个case的问题列单元格合并问题挺大。
- case3
整体上看起来不错,但表格上前两行合并单元格还存在问题。
结论
通过上述case测试,qwen2.5-VL-72B这波开源的模型在
版式分析
和
表格识别
的实际测试中仍然效果不加,这也在意料之中,这类任务还是应该采用传统的视觉方法进行处理,并不是模型越大越好。