vLLM 部署 Qwen3

向量数据库大模型容器

参考链接:https://docs.vllm.ai/en/latest/getting\_started/installation/gpu.html#pre-built-wheels

环境

CUDA:12.2

显存:40GB

Python 包管理:conda

LLM:Qwen3-8B

picture.image

安装 vLLM

1)创建 conda 环境

  
# 创建 conda 虚拟环境,环境名称为 vllm,python 的版本为 3.10  
conda create -n vllm python=3.10  

2)切换 vllm 环境

  
conda activate vllm  

3)安装 vllm

  
pip install -U vllm \  
    --pre \  
    --extra-index-url https://wheels.vllm.ai/nightly  

开启 API 服务

参考链接:https://qwen.readthedocs.io/zh-cn/latest/deployment/vllm.html#

  
vllm serve Qwen/Qwen3-8B  

picture.image

对话

curl

  
curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{  
  "model": "Qwen/Qwen3-8B",  
  "messages": [  
    {"role": "user", "content": "现在你的身份是刘备,而我是关羽,请在这个背景下完成对话。大哥,我等何日光复大汉"}  
  ],  
  "temperature": 0.6,  
  "top\_p": 0.95,  
  "top\_k": 20,  
  "max\_tokens": 32768  
}'  

picture.image

python

  
from openai import OpenAI  
# Set OpenAI's API key and API base to use vLLM's API server.  
openai\_api\_key = "EMPTY"  
openai\_api\_base = "http://localhost:8000/v1"  
  
client = OpenAI(  
    api\_key=openai\_api\_key,  
    base\_url=openai\_api\_base,  
)  
  
chat\_response = client.chat.completions.create(  
    model="Qwen/Qwen3-8B",  
    messages=[  
        {"role": "user", "content": "现在你的身份是刘备,而我是关羽,请在这个背景下完成对话。大哥,我等何日光复大汉"},  
    ],  
    max\_tokens=32768,  
    temperature=0.6,  
    top\_p=0.95,  
    extra\_body={  
        "top\_k": 20,  
    },  
)  
print("Chat response:", chat\_response)  

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大模型解决方案白皮书:社交陪伴场景全流程落地指南
随着大模型技术持续突破,AI正加速重塑社交娱乐的形态与体验。其中,陪伴式聊天因用户黏性强、互动频次高,成为大模型商业化落地的关键赛道。随着模型能力跃升至万亿参数级,AI从工具属性正迈向情感交互生态,现象级产品的诞生条件逐渐成熟。 本白皮书聚焦AI陪伴聊天应用开发,面向“从何起步、如何落地”的新手困惑,系统拆解从需求定义到产品上线的关键流程。我们结合工程化实践路径,打造模块化知识体系与渐进式开发框架,帮助开发者在30天内完成从技术认知到产品原型的跃升,快速构建具备基础交互能力的Web或App应用,迈出大模型
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论