文档智能解析项目汇总(含pipline、多模态端到端解析)

之前的文档智能专栏介绍了文档解析全链路方案,现将涉及了这些技术的方案项目汇总一下。

Pipline式文档解析

...

picture.image

总结:pipline的可解释性强,更贴近落地解法,但泛化能力有限

多模态端到端的文档解析(finetune)

...

picture.image

总结:存在幻觉问题、速度慢,没有自媒体宣传的那么夸张,离落地距离还远

通用多模态大模型代表

  • GPT4o
  • Gemini
  • Qwen2.5-VL-72B

...

总结:贵

后语:文档解析还是工业界一个难以攻克的研究方向,符合自身业务场景的才是最好的。

关于我:余俊晖,主要研究方向为自然语言处理、大语言模型、文档智能。曾获CCF、Kaggle、ICPR、ICDAR、CCL、CAIL等国内外近二十项AI算法竞赛/评测冠亚季军。发表SCI、顶会等文章多篇,专利数项。

0
0
0
0
评论
未登录
暂无评论