【文档智能&多模态】Qwen2.5-VL在版式分析和表格识别上的实际测试效果 - 文章 - 开发者社区

qwen开年开源了Qwen2.5-VL系列权重模型，笔者观察到相较于传统的多模态系列，增加了文档理解功能。笔者以文档智能中两个比较重要的任务 版式分析 和 表格识别 ，笔者直接测试下Qwen2.5-VL-72B的效果。

picture.image

图：版式分析和表格识别在文档智能解析任务中所在角色

往期文档智能及多模态相关技术

...

版式分析

picture.image

qwen2.5-VL-72B效果

picture.image

OCR的效果还不错

picture.image

qwen2.5-VL-72B效果

这个case没有输出bbox位置信息。

picture.image

原图：来源于网络

picture.image

原图：来源于网络

这种报纸的更复杂的版式，输出更加崩溃，ocr吐字由于内容较长，发生停止截断。

picture.image

qwen2.5-VL-72B效果

picture.image

原始图

picture.image 这个case的问题列单元格合并问题挺大。

picture.image 整体上看起来不错，但表格上前两行合并单元格还存在问题。

通过上述case测试，qwen2.5-VL-72B这波开源的模型在 版式分析 和 表格识别 的实际测试中仍然效果不加，这也在意料之中，这类任务还是应该采用传统的视觉方法进行处理，并不是模型越大越好。