文档智能解析方案总结进展更新(含ocr-pipline、layout+VLM+纯多模态端到端解析)

最近又新增了很多文档解析的开源项目,现再更新一下进展。里面提到的很多模型技术方案都在《文档智能专栏

OCR-Pipline式文档解析(layout+阅读顺序+ocr专家小模型)

picture.image

...

总结:ocr-pipline的可解释性强,更贴近落地解法,但泛化能力有限

Layout+VLM

picture.image

这里面有些是传统的目标检测模型+VLM解析各部分内容,有些是检测+识别都一个模型干了。

多模态端到端的文档解析(finetune)

picture.image

...

通用多模态大模型代表

  • GPT4o
  • Gemini
  • Qwen2.5-VL-72B

...

0
0
0
0
评论
未登录
暂无评论