文档智能解析方案总结进展更新(含ocr-pipline、layout+VLM+纯多模态端到端解析)

大模型机器学习算法

最近又新增了很多文档解析的开源项目,现再更新一下进展。里面提到的很多模型技术方案都在《文档智能专栏

OCR-Pipline式文档解析(layout+阅读顺序+ocr专家小模型)

picture.image

...

总结:ocr-pipline的可解释性强,更贴近落地解法,但泛化能力有限

Layout+VLM

picture.image

这里面有些是传统的目标检测模型+VLM解析各部分内容,有些是检测+识别都一个模型干了。

多模态端到端的文档解析(finetune)

picture.image

...

通用多模态大模型代表

  • GPT4o
  • Gemini
  • Qwen2.5-VL-72B

...

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
如何构建企业级云原生计算基础设施
云原生大数据是大数据平台新一代架构和运行形态。通过升级云原生架构,可以为大数据在弹性、多租户、敏捷开发、降本增效、安全合规、容灾和资源调度等方向上带来优势。本议题将依托字节跳动最佳实践,围绕云原生大数据解决方案进行展开。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论