文档智能解析方案总结进展更新(含ocr-pipline、layout+VLM+纯多模态端到端解析)

大模型机器学习算法

最近又新增了很多文档解析的开源项目,现再更新一下进展。里面提到的很多模型技术方案都在《文档智能专栏

OCR-Pipline式文档解析(layout+阅读顺序+ocr专家小模型)

picture.image

...

总结:ocr-pipline的可解释性强,更贴近落地解法,但泛化能力有限

Layout+VLM

picture.image

这里面有些是传统的目标检测模型+VLM解析各部分内容,有些是检测+识别都一个模型干了。

多模态端到端的文档解析(finetune)

picture.image

...

通用多模态大模型代表

  • GPT4o
  • Gemini
  • Qwen2.5-VL-72B

...

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
DataSail CDC 数据整库实时入仓入湖实践
在线数据库数据导入到数仓分析的链路已经存在多年,随着近年来实时计算的发展,业务希望有延迟更低、运维更便捷、效率更高的CDC同步通道。本次分享主要介绍DataSail实现CDC整库实时同步的技术方案和业务实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论