端到端AI文档处理神器!一次操作,搞定文字与布局。

点击上方“蓝色字体”关注我,每天推送“实用有趣的项目”!

经常操作电脑的小伙伴可能遇到过,需要提取 PDF 文件中的内容,比如表格提取、文本识别、版式还原、公式保留等等。

对于一些简单的PDF文本提取,图表复制,其实互联网上有很多在线工具都可以轻松完成这些任务,但就是隐私没保证,还有文件大小有限制。

最重要的是对于复杂内容排版,无法满足我们的需求,要不然识别不了,要不就是格式乱掉了。

今天分享一款刚刚开源免费的AI驱动的文档处理利器:ViTLP ,重新定义 OCR 能力。

picture.image

文档处理一直是AI的重要应用领域,而 ViTLP 这款基于 AI 的智能文档处理模型,能够直接从图片中提取结构化数据,同时兼具 OCR 文本识别和文档排版理解能力,堪称一体化的强大工具。

而且它还支持本地部署,所有文件处理操作都在本地完成,不仅能够切实的保护文件隐私,同时也没有文件大小的限制。

真的是又快又准又安全。

主要功能

  • 端到端处理 :从图像输入到结构化输出,无需中间工具,真正实现 全流程自动化
  • 高效处理 :在英伟达 4090 显卡上,每页处理时间仅需 5-10 秒,快速高效。
  • OCR及文档布局理解 :不仅识别字符内容和位置,还能智能理解文档的排版结构,保留原始格式。
  • 多功能一体化 :集 文字识别、布局分析、结构理解 于一体,一次完成所有任务。
  • 灵活部署 :支持 本地部署 ,无需担心数据隐私泄露,同时也适配云端环境。

技术特点

原生支持文档排版理解

ViTLP 不仅限于传统 OCR 的字符识别能力,还能分析文档布局,理解标题、段落、图片和表格等结构元素,适合复杂排版文档。

一体化的高精度识别

无需额外的后处理工具,所有操作一步完成,节省时间和资源。

兼容多种文档格式

无论是扫描件、照片还是 PDF 导出的图像,ViTLP 都能准确解析。

快速上手

以下是 ViTLP 的详细安装步骤:

1. 克隆 ViTLP 代码库


 
 
 
 
   
git clone https://github.com/Veason-silverbullet/ViTLP.git  
cd ViTLP

2. 安装依赖项

打开 requirements.txt 文件,根据文件内容安装所需的 Python 包:


 
 
 
 
   
pip install -r requirements.txt

3. 下载预训练模型

克隆或下载 ViTLP 中间权重到 ./ckpts/ViTLP-medium 目录:


 
 
 
 
   
cd ViTLP  
mkdir -p ckpts/ViTLP-medium  
git clone https://huggingface.co/veason/ViTLP-medium ckpts/ViTLP-medium

4. 运行 OCR 演示

设置好检查点和依赖项后,运行以下命令进行 OCR 演示:


 
 
 
 
   
python ocr.py

上传文档图像并运行 OCR 操作。

picture.image

picture.image

5. 批量解码

decode.py 文件查看详细的推理代码,并使用以下命令进行批量解码:


 
 
 
 
   
bash decode.sh

注意:

  • • ViTLP 需要 GPU 支持。
  • • 您可以根据需要调整 ocr.pydecode.sh 文件中的参数。

适用的场景有

办公自动化

自动解析合同、报告、发票等复杂文档,快速生成结构化数据。

教育行业

批量处理书籍扫描件,将内容转化为可编辑的文档,便于知识管理。

金融领域

高效识别表格和报表,辅助业务分析和数据归档。

法律与政务

批量处理证件、政策文件,实现信息数字化。

写在最后

通过 ViTLP 的使用,可以助力我们应付工作及生活中相关PDF处理问题。

不论是用于 文本提取、格式转换,还是图表提取、公式复制、版式保留等需求,都可以帮助我们完成。

当然,比较实用的还是它的开源免费可部署,还是AI驱动的,非常适合个人及小团队使用。

有条件部署的小伙伴,真的可以部署下,试试识别效果。

GitHub 项目地址: https://github.com/Veason-silverbullet/ViTLP

picture.image

一款改变你视频下载体验的神器:MediaGo

新一代开源语音库CoQui TTS冲到了GitHub 20.5k Star

● 最新最全 VSCODE 插件推荐(2023版)

Star 50.3k!超棒的国产远程桌面开源应用火了!

四款国内外远程桌面软件横测:ToDesk、向日葵、TeamViewer、AnyDesk

picture.image

如果本文对您有帮助,也请帮忙点个 赞👍 + 在看 哈!❤️

在看你就赞赞我!

picture.image

0
0
0
0
评论
未登录
暂无评论