是时候更新vllm了,新版吞吐提升2倍

大模型容器算法

vllm虽然不是最快的框架,但是应该很多小伙伴都在用。主要原因除了推的早之外,还几乎是社区最活跃的大模型部署框架了,活跃意味着新技术,新模型适配得超快!

最新的vllm版本已经更新到0.6.3,0.6是个大版本更新,吞吐量大幅提升。picture.image

添加 --num-scheduler-steps 8 的参数,8B的模型,实测吞吐量能提升85-90%!picture.image

这波大版本更新的性能大幅提升的几大手段:

  1. server和engine的推理进程分离。picture.image
  2. multi-step scheduling - 这个对应的是上面提到的配置参数,如果不添加,提升大约60%

picture.image

  1. 异步进行logits部分处理(之前这部分内嵌到了模型结构里边。。。。)picture.image

以及一些小优化:python object cache、CPU <> GPU 通信优化、简单采样参数的快速解码

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
在火山引擎云搜索服务上构建混合搜索的设计与实现
本次演讲将重点介绍字节跳动在混合搜索领域的探索,并探讨如何在多模态数据场景下进行海量数据搜索。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论