Windows上跑通 PaddleOCR-VL+Fastgpt 的全过程 - 文章 - 开发者社区

大家好，我是小智，专注 AI 工具，AI 智能体和编程提效

不久前，开源版的PaddleOCR-VL冲上了热搜，HuggingFace Trending也一度霸榜top one。小智写过一篇文章百度凭借PaddleOCR-VL-0.9B小模型扳回一局大家反响还不错有粉丝留言怎么部署？

picture.image

当时就有计划要写一篇使用指南型的文章，但是只写操作步骤干货还是太少，毕竟部署完这个模型最终要解决什么问题？PaddleOCR-VL如何能与现有的AI技术融合在一起形成一个解决方案才是咱们搞技术的人应该思考的，于是就有了这篇文章的构思。

垂直领域的小模型很受青睐，部署成本低，门槛也低，对于一些企业或独立开发者来说可以运用到实际应用场景中去。比如：知识库图片问答、自动化 OCR 流水线、智能体插件开发、谷歌插件开发等等。场景很多，这篇文章就以PaddleOCR-VL+Fastgpt为案例告诉你如何应用的。

先说结论

PaddleOCR-VL 在本地 Docker 里跑起来，显存最低 6 G 就能玩，识别速度秒级；
支持 OpenAI 格式 API，FastGPT / Dify / n8n 可以直接接入；
30/40/50系显卡都 OK，Mac & AMD 显卡暂时不行。

picture.image

准备工作

Windows 10/11 一台，NVIDIA 显卡 ≥8 G；
Docker Desktop 装好并切到 Linux 容器；
Win+R → cmd 打开命令行。

picture.image

一键启动命令

把下面整段 直接复制 → 回车，大约需要3-5分钟：

docker run -d --rm --gpus all -p 8118:8118 --name paddleocr-vl-server \
  ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddleocr-genai-vllm-server:latest \
  sh -c "pip install https://github.com/mjun0812/flash-attention-prebuild-wheels/releases/download/v0.4.11/flash_attn-2.8.3+cu128torch2.8-cp310-cp310-linux_x86_64.whl && \
         paddleocr genai_server --model_name PaddleOCR-VL-0.9B --backend vllm --port 8118 --host 0.0.0.0 --backend_config <(echo -e 'gpu-memory-utilization: 0.8')"

30/40 系显卡把镜像地址换成 paddleocr-vl:latest-offline 即可，官方已内置 flash-attn，不用额外装。

检查是否成功

Docker Desktop → Containers 看到 paddleocr-vl-server 状态 Running；
日志里出现 **"Uvicorn running on http://0.0.0.0:8118"**；
浏览器打开 http://localhost:8118/docs 能进 Swagger 界面。

picture.image

使用Postman测试

地址：POST http://localhost:8118/v1/chat/completions Body → raw → JSON：

{
  "model": "PaddleOCR-VL-0.9B",
  "messages": [
    {
      "role": "user",
      "content": [
        {"type": "text", "text": "请识别这张图片中的所有文本内容。"},
        {"type": "image_url", "image_url": {"url": "https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/paddleocr_vl_demo.png"}}
      ]
    }
  ],
  "max_tokens": 2048,
  "temperature": 0
}

picture.image

接入FastGPT

后台 → 模型管理 → 新增
- 模型 ID 填 PaddleOCR-VL-0.9B
- 请求地址 http://<你的IP>:8118/v1/chat/completions
- 无需 API Key
新建应用 → 把刚加的模型勾上 → 记忆轮数设为 0（防止上下文错乱）
上传图片 → 发送，秒回！

picture.image

总结一下，现有的方案是通过本地部署完paddle-ocr后，再以对外提供api的方式接入fastgpt；除了这个方案还有另外一种实现方法，需要写点代码，先使用hugging face上的Python API的方法，然后使用 Flask 或 FastAPI 框架，将本地 Python OCR 服务封装成对外提供的 API，再接入fastgpt步骤是一样的。

picture.image

感兴趣的小伙伴可以阅读一下操作文档：

https://huggingface.co/PaddlePaddle/PaddleOCR-VL

踩坑小贴士

坑点	我的解法
显存爆掉Out of Memory	加参数 `--backend-config <(echo -e 'gpu-memory-utilization: 0.8')`
每次重启都重新下载模型	别频繁 `docker stop`，用 `-d` 后台挂着
端口被占	把 `-p 8118:8118` 改成 `-p 8120:8118` 之类
Windows 防火墙弹窗	允许专用网络即可

docker-compose 版（可选）

新建 docker-compose.yml：

version: "3.8"
services:
  paddleocr-vl-api:
    image: ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddleocr-vl:latest-offline
    container_name: paddleocr-vl-api
    ports: ["8080:8080"]
    deploy:
      resources:
        reservations:
          devices: [{driver: nvidia, device_ids: ["0"], capabilities: [gpu]}]
    restart: unless-stopped
    healthcheck:
      test: ["CMD-SHELL", "curl -f http://localhost:8080/health || exit 1"]

然后一句：

docker-compose up -d

常见疑问 FAQ

Q1：显存到底要多少？ A：官方说 12 G，我实测 8 G 能跑，6 G 也能凑合，但建议 ≥8 G 心里踏实。

Q2：Mac / AMD 显卡行不行？ A：目前 仅 NVIDIA，Mac 和 AMD 再等等官方更新。

Q3：重启电脑后怎么办？ A：把第 1 步那条命令 收藏好，重新跑一遍即可，模型已缓存，下载飞快。

下一步还能玩啥

接 Dify 做知识库图片问答；
接 n8n 做自动化 OCR 流水线；
接 Node-RED 做图片上传即识别；
等官方 MCP 协议插件，直接进 ChatGPT 插件商店。

picture.image

最后

以上就是所有的操作步骤，零代码基础 也能搞定。如果遇到问题可以先问AI，如果你照着步骤都能踩坑，留言告诉我，我帮你诊断诊断！祝各位 一键成功，秒级识别，玩OCR 不秃头！

附录

官方文档：https://www.paddleocr.ai/main/version3.x/pipeline_usage/PaddleOCR-VL.html
预编译 flash-attn 仓库：https://github.com/mjun0812/flash-attention-prebuild-wheels
参考文章：https://mp.weixin.qq.com/s/ZHR9wue2up5FDC7CBtguKw

如果本文对您有帮助，也请帮忙点个赞👍 + 在看哈！❤️关注 小智AI指南公众号，AI 路上不迷路