大家好,我是小智,专注 AI 工具,AI 智能体和编程提效
不久前,开源版的PaddleOCR-VL冲上了热搜,HuggingFace Trending也一度霸榜top one。小智写过一篇文章 百度凭借PaddleOCR-VL-0.9B小模型扳回一局 大家反响还不错有粉丝留言怎么部署?
当时就有计划要写一篇使用指南型的文章,但是只写操作步骤干货还是太少,毕竟部署完这个模型最终要解决什么问题?PaddleOCR-VL如何能与现有的AI技术融合在一起形成一个解决方案才是咱们搞技术的人应该思考的,于是就有了这篇文章的构思。
垂直领域的小模型很受青睐,部署成本低,门槛也低,对于一些企业或独立开发者来说可以运用到实际应用场景中去。比如:知识库图片问答、自动化 OCR 流水线、智能体插件开发、谷歌插件开发等等。场景很多,这篇文章就以PaddleOCR-VL+Fastgpt为案例告诉你如何应用的。
先说结论
- PaddleOCR-VL 在本地 Docker 里跑起来,显存最低 6 G 就能玩,识别速度 秒级;
- 支持 OpenAI 格式 API,FastGPT / Dify / n8n 可以直接接入;
- 30/40/50系显卡都 OK,Mac & AMD 显卡暂时不行。
准备工作
- Windows 10/11 一台,NVIDIA 显卡 ≥8 G;
- Docker Desktop 装好并切到 Linux 容器;
- Win+R → cmd 打开命令行。
一键启动命令
把下面整段 直接复制 → 回车,大约需要3-5分钟:
docker run -d --rm --gpus all -p 8118:8118 --name paddleocr-vl-server \
ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddleocr-genai-vllm-server:latest \
sh -c "pip install https://github.com/mjun0812/flash-attention-prebuild-wheels/releases/download/v0.4.11/flash_attn-2.8.3+cu128torch2.8-cp310-cp310-linux_x86_64.whl && \
paddleocr genai_server --model_name PaddleOCR-VL-0.9B --backend vllm --port 8118 --host 0.0.0.0 --backend_config <(echo -e 'gpu-memory-utilization: 0.8')"
30/40 系显卡把镜像地址换成
paddleocr-vl:latest-offline即可,官方已内置 flash-attn,不用额外装。
检查是否成功
- Docker Desktop → Containers 看到
paddleocr-vl-server状态 Running; - 日志里出现 **"Uvicorn running on http://0.0.0.0:8118"**;
- 浏览器打开 http://localhost:8118/docs 能进 Swagger 界面。
使用Postman测试
地址:POST http://localhost:8118/v1/chat/completions
Body → raw → JSON:
{
"model": "PaddleOCR-VL-0.9B",
"messages": [
{
"role": "user",
"content": [
{"type": "text", "text": "请识别这张图片中的所有文本内容。"},
{"type": "image_url", "image_url": {"url": "https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/paddleocr_vl_demo.png"}}
]
}
],
"max_tokens": 2048,
"temperature": 0
}
接入FastGPT
- 后台 → 模型管理 → 新增
- 模型 ID 填
PaddleOCR-VL-0.9B - 请求地址
http://<你的IP>:8118/v1/chat/completions - 无需 API Key
- 模型 ID 填
- 新建应用 → 把刚加的模型勾上 → 记忆轮数设为 0(防止上下文错乱)
- 上传图片 → 发送,秒回!
总结一下,现有的方案是通过本地部署完paddle-ocr后,再以对外提供api的方式接入fastgpt;除了这个方案还有另外一种实现方法,需要写点代码,先使用hugging face上的Python API的方法,然后使用 Flask 或 FastAPI 框架,将本地 Python OCR 服务封装成对外提供的 API,再接入fastgpt步骤是一样的。
感兴趣的小伙伴可以阅读一下操作文档:
https://huggingface.co/PaddlePaddle/PaddleOCR-VL
踩坑小贴士
| 坑点 | 我的解法 |
|---|---|
| 显存爆掉Out of Memory | 加参数 --backend-config <(echo -e 'gpu-memory-utilization: 0.8') |
| 每次重启都重新下载模型 | 别频繁 docker stop,用 -d 后台挂着 |
| 端口被占 | 把 -p 8118:8118 改成 -p 8120:8118 之类 |
| Windows 防火墙弹窗 | 允许专用网络即可 |
docker-compose 版(可选)
新建 docker-compose.yml:
version: "3.8"
services:
paddleocr-vl-api:
image: ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddleocr-vl:latest-offline
container_name: paddleocr-vl-api
ports: ["8080:8080"]
deploy:
resources:
reservations:
devices: [{driver: nvidia, device_ids: ["0"], capabilities: [gpu]}]
restart: unless-stopped
healthcheck:
test: ["CMD-SHELL", "curl -f http://localhost:8080/health || exit 1"]
然后一句:
docker-compose up -d
常见疑问 FAQ
Q1:显存到底要多少? A:官方说 12 G,我实测 8 G 能跑,6 G 也能凑合,但建议 ≥8 G 心里踏实。
Q2:Mac / AMD 显卡行不行? A:目前 仅 NVIDIA,Mac 和 AMD 再等等官方更新。
Q3:重启电脑后怎么办? A:把第 1 步那条命令 收藏好,重新跑一遍即可,模型已缓存,下载飞快。
下一步还能玩啥
- 接 Dify 做知识库图片问答;
- 接 n8n 做自动化 OCR 流水线;
- 接 Node-RED 做图片上传即识别;
- 等官方 MCP 协议插件,直接进 ChatGPT 插件商店。
最后
以上就是所有的操作步骤,零代码基础 也能搞定。如果遇到问题可以先问AI,如果你照着步骤都能踩坑,留言告诉我,我帮你诊断诊断!祝各位 一键成功,秒级识别,玩OCR 不秃头!
附录
- 官方文档:https://www.paddleocr.ai/main/version3.x/pipeline_usage/PaddleOCR-VL.html
- 预编译 flash-attn 仓库:https://github.com/mjun0812/flash-attention-prebuild-wheels
- 参考文章:https://mp.weixin.qq.com/s/ZHR9wue2up5FDC7CBtguKw
如果本文对您有帮助,也请帮忙点个 赞👍 + 在看 哈!❤️关注
小智AI指南公众号,AI 路上不迷路
