火山引擎云上实战:采用 CPU 云服务器低成本部署 DeepSeek 蒸馏版

大模型容器数据库

picture.image

本文为云上实战第三篇,将介绍在火山引擎 CPU 云服务器上部署 DeepSeek-R1-Distill 模型服务的方案。该方案在成本、通用性、维护、扩展性和能耗方面具有优势。

来源 | 火山引擎云基础

在前两周的推文中,我们介绍了基于火山引擎 GPU 云服务器部署 DeepSeek 蒸馏版满血版大模型的方案。为了进一步实现极致性价比,我们也对如何在 纯 CPU 上部署 DeepSeek-R1-Distill 模型服务进行了探索,这种部署模式适合一些预算有限、低负载或需要灵活扩展的场景,如:

  • 个人用户尝鲜 :对 AI 性能要求较低,CPU 成本更低且性能可以满足一般体验需求;
  • 企业接口调试 :选择 CPU 部署开发调试,无需管理 GPU 驱动、CUDA 版本兼容性等问题,可降低开发和管理成本;
  • 轻量级模型需求 :对于任务规模较小(如低频调用、小批量数据处理)的业务,多核 CPU 足以满足性能要求,如中小企业在内部知识库中部署问答系统。

接下来,我们将具体介绍企业和个人用户如何基于 CPU 云服务器,以低成本、高兼容性和极简运维部署和体验 DeepSeek 蒸馏版。

根据团队测试数据,使用本文中推荐的 ecs.c3il.8xlarge 云服务器运行 DeepSeek-R1-Distill-Qwen-7B 模型,在推理场景中使用 bf16 精度的吞吐性能可以达到 14tokens/s ,可以满足用户的正常使用。

部署方案概览

我们推荐使用不同的火山引擎 CPU ECS 来部署不同模型,从而实现更高的性价比。 下面是典型的 DeepSeek 蒸馏版大模型部署的机型配置推荐,只需确保内存容量大于模型大小即可进行模型推理:

picture.image

火山引擎已经为用户准备好了推理引擎和模型文件,信息如下:

  • 推理引擎镜像: ai-containers-cn-shanghai.cr.volces.com/deeplearning/xft-vllm:1.8.2.iaas
  • 模型文件:docker run 时会自动下载对应模型文件,如有手动下载需求,推荐使用 tosutil 工具内网环境下载,可参考文档: https://www.volcengine.com/docs/6349/148775

picture.image

具体操作

Step1:创建 ECS 实例

1. 登录火山引擎云服务器 ECS 工作台: https://console.volcengine.com/ecs ,选择合适的 region/az 以及相应的机型,配置合适大小的云盘,下面以 上海 部署为例。

2. 选择 Ubuntu 22.04 版本镜像:

picture.image

3. 为 ECS 配置公网访问方式,选择绑定公网 IP 或者使用 NAT 网关均可。

Step2:部署 docker 环境并启用模型

1. 安装 docker:


          
sudo apt update
          
sudo apt install docker.io
      

2. 启动 docker 和模型服务:


        
            

          docker run -d --network host --privileged --shm-size 15g -v /data00/models:/data00/models -e MODEL\_PATH=/data00/models -e PORT=8000 -e MODEL\_NAME=DeepSeek-R1-Distill-Qwen-7B -e DTYPE=bf16 -e KV\_CACHE\_DTYPE=fp16 ai-containers-cn-shanghai.cr.volces.com/deeplearning/xft-vllm:1.8.2.iaas bash /llama2/entrypoint.sh
        
      

注:如果需使用北京 region 的模型镜像,地址:

ai-containers-cn-beijing.cr.volces.com/deeplearning/xft-vllm:1.8.2.iaas

用户也可以根据实际情况修改其中的环境变量,下表是一些详细说明:

picture.image

3. 观察 docker logs,我们可以看到模型端口成功启动日志,稍等一会儿我们就可以通过 netstat -lntp 查看端口启动情况,待 8000 端口处于监听状态,证明服务启动完成。

picture.image

Step3:测试验证

执行以下 curl prompt 测试验证:


          
curl http://127.0.0.1:8000/v1/chat/completions -H "Content-Type: application/json" -d '{
          
    "model": "xft",
          
    "messages":[{"role":"user","content":"你好!请问你是谁?"}],
          
    "max_tokens": 256,
          
    "temperature": 0.6
          
}'
      

picture.image

小结

以上就是基于火山引擎 CPU 云服务器等产品快速拉起 DeepSeek-R1-Distill 模型服务的全过程,欢迎感兴趣的用户开通相关产品服务进行体验!

如需咨询,请扫码提交表单:

picture.image

相关链接

[1] 火山引擎: www.volcengine.com

[2] ECS:www.volcengine.com/product/ecs

picture.image

picture.image

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎AB测试总体经济影响
为充分了解火山引擎A/B测试平台为企业带来的潜在投资回报,火山引擎委托Forrester Consulting使用总 体经济影响(TEI)模型进行对其A/B测试产品潜在的投资回报率(ROI)进行评估分析。该研究的目的是为了给读者提供火山引擎A/B测试产品带来潜在财务影响评估的参考。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论