文档智能解析项目汇总(含pipline、多模态端到端解析)

大模型向量数据库机器学习

之前的文档智能专栏介绍了文档解析全链路方案,现将涉及了这些技术的方案项目汇总一下。

Pipline式文档解析

...

picture.image

总结:pipline的可解释性强,更贴近落地解法,但泛化能力有限

多模态端到端的文档解析(finetune)

...

picture.image

总结:存在幻觉问题、速度慢,没有自媒体宣传的那么夸张,离落地距离还远

通用多模态大模型代表

  • GPT4o
  • Gemini
  • Qwen2.5-VL-72B

...

总结:贵

后语:文档解析还是工业界一个难以攻克的研究方向,符合自身业务场景的才是最好的。

关于我:余俊晖,主要研究方向为自然语言处理、大语言模型、文档智能。曾获CCF、Kaggle、ICPR、ICDAR、CCL、CAIL等国内外近二十项AI算法竞赛/评测冠亚季军。发表SCI、顶会等文章多篇,专利数项。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论