OCR新体验!基于LLaMA视觉模型的强大OCR工具,支持批量处理与进度追踪,支持多种输出格式!

点击上方“蓝色字体”关注我,每天推送“实用有趣的项目”!

Ollama-OCR 是一个强大的 OCR(光学字符识别)工具,基于 LLaMA 视觉模型开发,旨在为用户提供精准、便捷的文字识别解决方案。

它能够将图像中的文字准确地提取出来,并支持多种输出格式。

并且提供了 Python 包和 Streamlit 网页应用两种使用方式,使得开发者可以灵活选择,适应不同场景的需求。

picture.image

主要特性

1、多种输出格式支持

Ollama-OCR 支持多种输出格式,使得用户能够根据需求选择最适合的方式进行文本处理:

  • Markdown 格式 :适用于生成文档格式化内容,方便直接使用。

  • 纯文本 :简单明了的文本输出,适合快速提取文字。

  • JSON 格式 :结构化数据输出,方便后续数据处理与分析。

  • 结构化格式 :为复杂文档生成结构化的数据输出。

  • 键值对格式 :适用于需要进一步处理或存储的场景。

    2、批量处理与进度跟踪

支持批量处理,能够一次性识别多张图片,并且提供了处理进度跟踪功能。用户可以在批量操作时实时查看每个图像的处理进度,提高操作效率。

3、图像预处理功能

该工具内置图像预处理功能,能够在进行文字识别之前自动优化图像质量,如调整图像的对比度、去噪等,确保OCR结果更加精准。

4、灵活的使用方式

  • Python包 :适合开发者在Python环境中调用,方便集成到各种项目中。
  • Streamlit Web应用 :提供了一个简洁易用的网页应用,使非开发人员也能通过图形界面轻松使用OCR功能。

picture.image

安装与使用

你可以通过以下命令安装 Ollama-OCR 的 Python 包:


 
 
 
 
   
pip install ollama-ocr

下载 Ollama模型


 
 
 
 
   
ollama pull llama3.2-vision:11b

安装完毕后,可以通过 Python 编写代码来进行OCR操作:


 
 
 
 
   
from ollama_ocr import OCRProcessor  
  
# Initialize OCR processor  
ocr = OCRProcessor(model_name='llama3.2-vision:11b')  # You can use any vision model available on Ollama  
  
# Process an image  
result = ocr.process_image(  
    image_path="path/to/your/image.png",  
    format_type="markdown"  # Options: markdown, text, json, structured, key\_value  
)  
print(result)

批量处理与进度追踪


 
 
 
 
   
batch_results = ocr.process_batch(  
    input_path="path/to/images/folder",  # Directory or list of image paths  
    format_type="markdown",  
    recursive=True,  # Search subdirectories  
    preprocess=True  # Enable image preprocessing  
)  
# Access results  
for file_path, text in batch_results['results'].items():  
    print(f"\nFile: {file\_path}")  
    print(f"Extracted Text: {text}")  
  
# View statistics  
print("\nProcessing Statistics:")  
print(f"Total images: {batch\_results['statistics']['total']}")  
print(f"Successfully processed: {batch\_results['statistics']['successful']}")  
print(f"Failed: {batch\_results['statistics']['failed']}")

如果你更喜欢图形界面的操作,Ollama-OCR 还提供了 Streamlit 网页应用。

只需通过以下步骤部署启动即可。


 
 
 
 
   
git clone https://github.com/imanoop7/Ollama-OCR.git  
cd Ollama-OCR  
  
pip install -r requirements.txt  
  
cd src  
streamlit run app.py

之后,通过浏览器访问生成的地址,即可上传图像并查看识别结果。

picture.image

写在最后

Ollama-OCR 是一个基于 LLaMA 视觉模型的强大 OCR 工具,它不仅支持多种输出格式,还提供了批量处理、进度跟踪和图像预处理等实用功能。

这款工具尤其适用于需要从图像中提取大量文本数据的项目,是提升工作效率和数据处理能力的利器。

GitHub项目地址:https://github.com/imanoop7/Ollama-OCR

picture.image

一款改变你视频下载体验的神器:MediaGo

新一代开源语音库CoQui TTS冲到了GitHub 20.5k Star

● 最新最全 VSCODE 插件推荐(2023版)

Star 50.3k!超棒的国产远程桌面开源应用火了!

四款国内外远程桌面软件横测:ToDesk、向日葵、TeamViewer、AnyDesk

picture.image

如果本文对您有帮助,也请帮忙点个 赞👍 + 在看 哈!❤️

在看你就赞赞我!

picture.image

0
0
0
0
评论
未登录
暂无评论