来源 | 火山引擎云基础
在过去一年中,AI 技术取得了突飞猛进的发展,成为各行各业的主要创新驱动力。面对层出不穷的大模型,企业更关注的是如何将这些技术真正落地,如何通过大模型驱动业务增长,并实现智能转型的目标。在这个背景下,火山引擎云基础推出了一系列 云上实践 ,助力企业用户快速体验各类大模型。
QwQ-32B 是近期社区新开源的推理模型,在 AIME24 评测集(数学推理)、LiveCodeBench(编程能力)、LiveBench、IFEval 指令遵循能力测试、BFCL 评测等一系列权威基准测试中表现出色。它通过大规模强化学习技术突提升了语言模型的智能水平,具体表现在其 “思维链显式化” 能力,在推理过程中会展示完整的思考路径,增强了结果的可解释性。
为方便企业用户快速在云上环境体验 QwQ-32B 大模型,本文将结合火山引擎 GPU ECS 、 容器服务 VKE 、 持续交付 CP 等产品,推出一种快速部署 QwQ-32B 推理服务的方案,我们将采用 vLLM 拉起推理服务。
QwQ-32B 大模型部署
Step1:创建 VKE 集群
在正式部署 QwQ-32B 模型推理服务前,我们需要先完成 VKE 集群的创建。容器服务 VKE 是火山引擎提供的基于 Kubernetes 的容器管理平台,能高效、可靠地管理 AI 业务所需的海量异构计算、存储、网络等资源,并提供云下弹云上、跨云弹性等分布式云原生能力,为 AI 大模型提供灵活、可扩展的部署和运行环境。
首先,进入火山引擎容器服务 VKE 工作台: https://console.volcengine.com/vke ,创建托管集群,网络模型建议选择 VPC-CNI:
通过内外资源共池,火山引擎能为用户提供海量高弹性、高性价比的算力产品,覆盖丰富型号,以满足企业在依托 AI 技术进行数智化转型过程中对算力的需求。
QwQ-32B 参数规模达到 320 亿,需要保证显卡总的显存保持在 80G 或以上,因此用户可以根据实际的情况来选择不同规格的 GPU ECS。不同规格的机器在启动命令配置上会有些许差异,我们推荐 ECS 机器型号如下:
注:ecs.pni3l/ecs.
gni3cl
目前处于邀测阶段,欢迎联系客户经理申请
最后,在创建集群过程中,我们需要选择组件配置,这里要额外选择 csi-tos 和 nvidia-device-plugin 两个组件进行安装(相关文档: https://www.volcengine.com/docs/6460/101014 ):
Step2:创建部署集群
为了提高开发效率,这里我们推荐使用火山引擎持续交付 CP 的 AI 应用功能,它提供预置模板,集成了主流的 AI 框架,封装了操作系统、AI 框架、依赖库等应用环境,可以完成 QwQ-32B 在容器服务中的快速部署。
1. 打开火山引擎持续交付 CP 的产品工作台: https://console.volcengine.com/cp ,在左侧菜单栏选择 “资源管理-部署资源”,点击“创建部署资源”:
2. 在创建部署资源表单中,“接入类型”选择“容器服务 VKE”,“地域”以及“部署集群”选中刚刚我们创建的部署 VKE 集群,“共享范围”选择“所有工作区”:
Step3:创建AI 应用
1. 基础信息配置:在持续交付 CP 工作台左侧菜单栏选择“AI 应用”(邀测功能,欢迎联系客户经理申请),点击“创建应用”:
2. 在应用创建表单中,选择“自定义创建”:
3. 完成应用名、部署集群配置。需要注意的是,这里的部署集群需要选择上面创建的部署集群:
4. 完成启动镜像和模型的配置。针对 QwQ-32B,这里我们可以选择 vLLM 镜像进行部署;模型可以直接选择 “官方模型”中的 QwQ-32B,挂载路径配置为 “/model”:
vLLM 默认的启动命令如下所示,用户也可以根据实际推理服务的需求,对默认启动命令做修改。
vllm serve /model --host 0.0.0.0 --port 8080 --max-model-len 2048 --gpu-memory-utilization 0.9 --tensor-parallel-size ${GPU\_NUM}
其中 GPU_NUM 为所选择机型 GPU卡数量,需要根据实际机型中 GPU 卡数量做修改。
5. 完成推理服务规格配置。实例数选择 1,根据不同机型,我们可以选择不同的配置,下表是一些推荐建议:
注:ecs.pni3l/ecs.
gni3cl
目前处于邀测阶段,欢迎联系客户经理申请
以下是 ecs.gni3cl.11xlarge 的推荐配置:
到这里,我们成功触发了 AI 应用部署,等待约 5 分钟左右,属于你的 QwQ-32B 服务就部署完成了。
Step4:创建 API 网关访问推理服务
火山引擎 API 网关 APIG 是基于云原生的、高扩展、高可用的云上网关托管服务。在传统流量网关的基础上,集成丰富的服务发现和服务治理能力,打通微服务架构的内外部网络,实现安全通信。
1. 在 AI 应用页面,点击 “访问设置”:
2. 选择“添加 API 网关”,协议选择 HTTP1.1,如果还没有创建 API 网关,可以点击“创建 API 网关”:
3.
在创建API 网关时, 私有网络配置必须和之前创建 VKE 集群使用同一个私有网络, 网关的规格选择 1c2g,节点数量选择两个节点:
4. 完成创建后,选中 API 网关即可:
5. 完成上述操作后,即可在“访问设置”页面看到公网域名:
到这里,我们就正式完成了 QwQ-32B 推理服务 的部署和对外暴露,我们可以通过本地 curl 命令(如下方所示)调用 API 来体验大模型的问答能力:
curl -X POST http://example.com//v1/chat/completions -H "Content-Type: application/json" -d '{
"model": "/model",
"messages": [
{
"role": "user",
"content": "你的问题"
}
],
"temperature": 0.7
}'
小结
以上就是基于火山引擎 GPU ECS、容器服务 VKE 等产品快速拉起 QwQ-32B 大模型服务的全过程,而结合火山引擎丰富的云服务和产品,企业级客户可以进一步调整和优化架构,以充分发挥大模型的潜力。
欢迎感兴趣的用户开通相关产品服务进行体验!
相关链接
[1] 火山引擎: www.volcengine.com
[2] GPU ECS:www.volcengine.com/product/gpu
[3] VKE:www.volcengine.com/product/vke