Windows上跑通 PaddleOCR-VL+Fastgpt 的全过程

最佳实践

大家好,我是小智,专注 AI 工具,AI 智能体和编程提效

不久前,开源版的PaddleOCR-VL冲上了热搜,HuggingFace Trending也一度霸榜top one。小智写过一篇文章 百度凭借PaddleOCR-VL-0.9B小模型扳回一局 大家反响还不错有粉丝留言怎么部署?

picture.image

当时就有计划要写一篇使用指南型的文章,但是只写操作步骤干货还是太少,毕竟部署完这个模型最终要解决什么问题?PaddleOCR-VL如何能与现有的AI技术融合在一起形成一个解决方案才是咱们搞技术的人应该思考的,于是就有了这篇文章的构思。

垂直领域的小模型很受青睐,部署成本低,门槛也低,对于一些企业或独立开发者来说可以运用到实际应用场景中去。比如:知识库图片问答、自动化 OCR 流水线、智能体插件开发、谷歌插件开发等等。场景很多,这篇文章就以PaddleOCR-VL+Fastgpt为案例告诉你如何应用的。

先说结论

  • PaddleOCR-VL 在本地 Docker 里跑起来,显存最低 6 G 就能玩,识别速度 秒级
  • 支持 OpenAI 格式 API,FastGPT / Dify / n8n 可以直接接入;
  • 30/40/50系显卡都 OK,Mac & AMD 显卡暂时不行

picture.image


准备工作

  1. Windows 10/11 一台,NVIDIA 显卡 ≥8 G
  2. Docker Desktop 装好并切到 Linux 容器
  3. Win+R → cmd 打开命令行。

picture.image


一键启动命令

把下面整段 直接复制回车,大约需要3-5分钟:

docker run -d --rm --gpus all -p 8118:8118 --name paddleocr-vl-server \
  ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddleocr-genai-vllm-server:latest \
  sh -c "pip install https://github.com/mjun0812/flash-attention-prebuild-wheels/releases/download/v0.4.11/flash_attn-2.8.3+cu128torch2.8-cp310-cp310-linux_x86_64.whl && \
         paddleocr genai_server --model_name PaddleOCR-VL-0.9B --backend vllm --port 8118 --host 0.0.0.0 --backend_config <(echo -e 'gpu-memory-utilization: 0.8')"

30/40 系显卡把镜像地址换成 paddleocr-vl:latest-offline 即可,官方已内置 flash-attn,不用额外装。


检查是否成功

  1. Docker Desktop → Containers 看到 paddleocr-vl-server 状态 Running
  2. 日志里出现 **"Uvicorn running on http://0.0.0.0:8118"**;
  3. 浏览器打开 http://localhost:8118/docs 能进 Swagger 界面。

picture.image

picture.image


使用Postman测试

地址:POST http://localhost:8118/v1/chat/completions Body → raw → JSON:

{
  "model": "PaddleOCR-VL-0.9B",
  "messages": [
    {
      "role": "user",
      "content": [
        {"type": "text", "text": "请识别这张图片中的所有文本内容。"},
        {"type": "image_url", "image_url": {"url": "https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/paddleocr_vl_demo.png"}}
      ]
    }
  ],
  "max_tokens": 2048,
  "temperature": 0
}

picture.image


接入FastGPT

  1. 后台 → 模型管理 → 新增
    • 模型 ID 填 PaddleOCR-VL-0.9B
    • 请求地址 http://<你的IP>:8118/v1/chat/completions
    • 无需 API Key
  2. 新建应用 → 把刚加的模型勾上 → 记忆轮数设为 0(防止上下文错乱)
  3. 上传图片 → 发送,秒回

picture.image picture.image picture.image

总结一下,现有的方案是通过本地部署完paddle-ocr后,再以对外提供api的方式接入fastgpt;除了这个方案还有另外一种实现方法,需要写点代码,先使用hugging face上的Python API的方法,然后使用 FlaskFastAPI 框架,将本地 Python OCR 服务封装成对外提供的 API,再接入fastgpt步骤是一样的。

picture.image

感兴趣的小伙伴可以阅读一下操作文档:

https://huggingface.co/PaddlePaddle/PaddleOCR-VL

踩坑小贴士

坑点我的解法
显存爆掉Out of Memory加参数 --backend-config <(echo -e 'gpu-memory-utilization: 0.8')
每次重启都重新下载模型别频繁 docker stop,用 -d 后台挂着
端口被占-p 8118:8118 改成 -p 8120:8118 之类
Windows 防火墙弹窗允许专用网络即可

docker-compose 版(可选)

新建 docker-compose.yml

version: "3.8"
services:
  paddleocr-vl-api:
    image: ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddleocr-vl:latest-offline
    container_name: paddleocr-vl-api
    ports: ["8080:8080"]
    deploy:
      resources:
        reservations:
          devices: [{driver: nvidia, device_ids: ["0"], capabilities: [gpu]}]
    restart: unless-stopped
    healthcheck:
      test: ["CMD-SHELL", "curl -f http://localhost:8080/health || exit 1"]

然后一句:

docker-compose up -d

常见疑问 FAQ

Q1:显存到底要多少? A:官方说 12 G,我实测 8 G 能跑,6 G 也能凑合,但建议 ≥8 G 心里踏实。

Q2:Mac / AMD 显卡行不行? A:目前 仅 NVIDIA,Mac 和 AMD 再等等官方更新。

Q3:重启电脑后怎么办? A:把第 1 步那条命令 收藏好,重新跑一遍即可,模型已缓存,下载飞快


下一步还能玩啥

  • Dify 做知识库图片问答;
  • n8n 做自动化 OCR 流水线;
  • Node-RED 做图片上传即识别;
  • 等官方 MCP 协议插件,直接进 ChatGPT 插件商店。

picture.image


最后

以上就是所有的操作步骤,零代码基础 也能搞定。如果遇到问题可以先问AI,如果你照着步骤都能踩坑,留言告诉我,我帮你诊断诊断!祝各位 一键成功秒级识别玩OCR 不秃头


附录

如果本文对您有帮助,也请帮忙点个 赞👍 + 在看 哈!❤️关注 小智AI指南公众号,AI 路上不迷路

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论