火山引擎云上实战：采用 CPU 云服务器低成本部署 DeepSeek 蒸馏版 - 文章 - 开发者社区

picture.image

本文为云上实战第三篇，将介绍在火山引擎 CPU 云服务器上部署 DeepSeek-R1-Distill 模型服务的方案。该方案在成本、通用性、维护、扩展性和能耗方面具有优势。

来源 | 火山引擎云基础

在前两周的推文中，我们介绍了基于火山引擎 GPU 云服务器部署 DeepSeek 蒸馏版、满血版大模型的方案。为了进一步实现极致性价比，我们也对如何在 纯 CPU 上部署 DeepSeek-R1-Distill 模型服务进行了探索，这种部署模式适合一些预算有限、低负载或需要灵活扩展的场景，如：

个人用户尝鲜 ：对 AI 性能要求较低，CPU 成本更低且性能可以满足一般体验需求；
企业接口调试 ：选择 CPU 部署开发调试，无需管理 GPU 驱动、CUDA 版本兼容性等问题，可降低开发和管理成本；
轻量级模型需求 ：对于任务规模较小（如低频调用、小批量数据处理）的业务，多核 CPU 足以满足性能要求，如中小企业在内部知识库中部署问答系统。

接下来，我们将具体介绍企业和个人用户如何基于 CPU 云服务器，以低成本、高兼容性和极简运维部署和体验 DeepSeek 蒸馏版。

根据团队测试数据，使用本文中推荐的 ecs.c3il.8xlarge 云服务器运行 DeepSeek-R1-Distill-Qwen-7B 模型，在推理场景中使用 bf16 精度的吞吐性能可以达到 14tokens/s ，可以满足用户的正常使用。

部署方案概览

我们推荐使用不同的火山引擎 CPU ECS 来部署不同模型，从而实现更高的性价比。下面是典型的 DeepSeek 蒸馏版大模型部署的机型配置推荐，只需确保内存容量大于模型大小即可进行模型推理：

picture.image

火山引擎已经为用户准备好了推理引擎和模型文件，信息如下：

推理引擎镜像： ai-containers-cn-shanghai.cr.volces.com/deeplearning/xft-vllm:1.8.2.iaas
模型文件：docker run 时会自动下载对应模型文件，如有手动下载需求，推荐使用 tosutil 工具内网环境下载，可参考文档： https://www.volcengine.com/docs/6349/148775

picture.image

具体操作

Step1：创建 ECS 实例

1. 登录火山引擎云服务器 ECS 工作台： https://console.volcengine.com/ecs ，选择合适的 region/az 以及相应的机型，配置合适大小的云盘，下面以上海部署为例。

2. 选择 Ubuntu 22.04 版本镜像：

picture.image

3. 为 ECS 配置公网访问方式，选择绑定公网 IP 或者使用 NAT 网关均可。

Step2：部署 docker 环境并启用模型

1. 安装 docker：


          
sudo apt update
          
sudo apt install docker.io

2. 启动 docker 和模型服务：


        
            

          docker run -d --network host --privileged --shm-size 15g -v /data00/models:/data00/models -e MODEL\_PATH=/data00/models -e PORT=8000 -e MODEL\_NAME=DeepSeek-R1-Distill-Qwen-7B -e DTYPE=bf16 -e KV\_CACHE\_DTYPE=fp16 ai-containers-cn-shanghai.cr.volces.com/deeplearning/xft-vllm:1.8.2.iaas bash /llama2/entrypoint.sh

注：如果需使用北京 region 的模型镜像，地址：

ai-containers-cn-beijing.cr.volces.com/deeplearning/xft-vllm:1.8.2.iaas

用户也可以根据实际情况修改其中的环境变量，下表是一些详细说明：

picture.image

3. 观察 docker logs，我们可以看到模型端口成功启动日志，稍等一会儿我们就可以通过 netstat -lntp 查看端口启动情况，待 8000 端口处于监听状态，证明服务启动完成。

picture.image

Step3：测试验证

执行以下 curl prompt 测试验证：


          
curl http://127.0.0.1:8000/v1/chat/completions -H "Content-Type: application/json" -d '{
          
    "model": "xft",
          
    "messages":[{"role":"user","content":"你好!请问你是谁?"}],
          
    "max_tokens": 256,
          
    "temperature": 0.6
          
}'

picture.image

小结

以上就是基于火山引擎 CPU 云服务器等产品快速拉起 DeepSeek-R1-Distill 模型服务的全过程，欢迎感兴趣的用户开通相关产品服务进行体验！

如需咨询，请扫码提交表单：

picture.image

相关链接

[1] 火山引擎: www.volcengine.com

[2] ECS：www.volcengine.com/product/ecs