文档备案控制台登录立即注册

首页文章活动镜像站

发布

是时候更新vllm了，新版吞吐提升2倍

大模型容器算法

vllm虽然不是最快的框架，但是应该很多小伙伴都在用。主要原因除了推的早之外，还几乎是社区最活跃的大模型部署框架了，活跃意味着新技术，新模型适配得超快！

最新的vllm版本已经更新到0.6.3，0.6是个大版本更新，吞吐量大幅提升。 picture.image

添加 --num-scheduler-steps 8 的参数，8B的模型，实测吞吐量能提升85-90%！ picture.image

这波大版本更新的性能大幅提升的几大手段：

server和engine的推理进程分离。
multi-step scheduling - 这个对应的是上面提到的配置参数，如果不添加，提升大约60%

picture.image

异步进行logits部分处理（之前这部分内嵌到了模型结构里边。。。。）

以及一些小优化：python object cache、CPU <> GPU 通信优化、简单采样参数的快速解码

0

0

0

0

关于作者

关于作者

文章

0

获赞

0

收藏

0

相关资源

VikingDB：大规模云原生向量数据库的前沿实践与应用

本次演讲将重点介绍 VikingDB 解决各类应用中极限性能、规模、精度问题上的探索实践，并通过落地的案例向听众介绍如何在多模态信息检索、RAG 与知识库等领域进行合理的技术选型和规划。

相关产品

推荐阅读

火山引擎 Force 原动力大会开发者专场，见证 Agent 开发新范式！

狂揽23.9k stars！超棒的开源LLM资源列表

Kaggle GM出书了：《百面大模型》干货满满，强烈推荐！

Prompt Engineering 快速入门+实例

DeepEval：LLM 应用评测不再玄学，让大模型评测像写单元测试一样简单

评论

未登录

看完啦，登录分享一下感受吧～

暂无评论