本文为云上实战第三篇,将介绍在火山引擎 CPU 云服务器上部署 DeepSeek-R1-Distill 模型服务的方案。该方案在成本、通用性、维护、扩展性和能耗方面具有优势。
来源 | 火山引擎云基础
在前两周的推文中,我们介绍了基于火山引擎 GPU 云服务器部署 DeepSeek 蒸馏版、满血版大模型的方案。为了进一步实现极致性价比,我们也对如何在 纯 CPU 上部署 DeepSeek-R1-Distill 模型服务进行了探索,这种部署模式适合一些预算有限、低负载或需要灵活扩展的场景,如:
- 个人用户尝鲜 :对 AI 性能要求较低,CPU 成本更低且性能可以满足一般体验需求;
- 企业接口调试 :选择 CPU 部署开发调试,无需管理 GPU 驱动、CUDA 版本兼容性等问题,可降低开发和管理成本;
- 轻量级模型需求 :对于任务规模较小(如低频调用、小批量数据处理)的业务,多核 CPU 足以满足性能要求,如中小企业在内部知识库中部署问答系统。
接下来,我们将具体介绍企业和个人用户如何基于 CPU 云服务器,以低成本、高兼容性和极简运维部署和体验 DeepSeek 蒸馏版。
根据团队测试数据,使用本文中推荐的 ecs.c3il.8xlarge 云服务器运行 DeepSeek-R1-Distill-Qwen-7B 模型,在推理场景中使用 bf16 精度的吞吐性能可以达到 14tokens/s ,可以满足用户的正常使用。
部署方案概览
我们推荐使用不同的火山引擎 CPU ECS 来部署不同模型,从而实现更高的性价比。 下面是典型的 DeepSeek 蒸馏版大模型部署的机型配置推荐,只需确保内存容量大于模型大小即可进行模型推理:
火山引擎已经为用户准备好了推理引擎和模型文件,信息如下:
- 推理引擎镜像: ai-containers-cn-shanghai.cr.volces.com/deeplearning/xft-vllm:1.8.2.iaas
- 模型文件:docker run 时会自动下载对应模型文件,如有手动下载需求,推荐使用 tosutil 工具内网环境下载,可参考文档: https://www.volcengine.com/docs/6349/148775
具体操作
Step1:创建 ECS 实例
1. 登录火山引擎云服务器 ECS 工作台: https://console.volcengine.com/ecs ,选择合适的 region/az 以及相应的机型,配置合适大小的云盘,下面以 上海 部署为例。
2. 选择 Ubuntu 22.04 版本镜像:
3. 为 ECS 配置公网访问方式,选择绑定公网 IP 或者使用 NAT 网关均可。
Step2:部署 docker 环境并启用模型
1. 安装 docker:
sudo apt update
sudo apt install docker.io
2. 启动 docker 和模型服务:
docker run -d --network host --privileged --shm-size 15g -v /data00/models:/data00/models -e MODEL\_PATH=/data00/models -e PORT=8000 -e MODEL\_NAME=DeepSeek-R1-Distill-Qwen-7B -e DTYPE=bf16 -e KV\_CACHE\_DTYPE=fp16 ai-containers-cn-shanghai.cr.volces.com/deeplearning/xft-vllm:1.8.2.iaas bash /llama2/entrypoint.sh
注:如果需使用北京 region 的模型镜像,地址:
ai-containers-cn-beijing.cr.volces.com/deeplearning/xft-vllm:1.8.2.iaas
用户也可以根据实际情况修改其中的环境变量,下表是一些详细说明:
3. 观察 docker logs,我们可以看到模型端口成功启动日志,稍等一会儿我们就可以通过 netstat -lntp 查看端口启动情况,待 8000 端口处于监听状态,证明服务启动完成。
Step3:测试验证
执行以下 curl prompt 测试验证:
curl http://127.0.0.1:8000/v1/chat/completions -H "Content-Type: application/json" -d '{
"model": "xft",
"messages":[{"role":"user","content":"你好!请问你是谁?"}],
"max_tokens": 256,
"temperature": 0.6
}'
小结
以上就是基于火山引擎 CPU 云服务器等产品快速拉起 DeepSeek-R1-Distill 模型服务的全过程,欢迎感兴趣的用户开通相关产品服务进行体验!
如需咨询,请扫码提交表单:
相关链接
[1] 火山引擎: www.volcengine.com
[2] ECS:www.volcengine.com/product/ecs