大模型推理框架擂台赛,五大高手(vLLM、LMDeploy、TensorRT-LLM、TGI、MLC-LLM)谁更胜一筹?

容器数据迁移与工具计算

小伙伴们端午安康!

开源的大模型推理引擎比较热门的的分别为:vLLM、LMDeploy、MLC-LLM、TensorRT-LLM 和 TGI。一个好的推理引擎,一方面是可以更快的生成速度,提高用户体验,另一方面还能提高资源利用率,获得更高的成本效益。

这里主要对这几个知名的框架,在A100-80G下,分别使用8B和70B-int4模型进行评测。评测对比指标有2个ttft(times to first token,从输入到产生第一个token的耗时)、tgr(token generation rate,评估每秒token数),评测使用的并发数为(1、50、100),评测数据集使用的databricks/databricks-dolly-15k,评测仓库地址如下:


        
          
https://github.com/bentoml/llm-bench/tree/main  
https://bentoml.com/blog/benchmarking-llm-inference-backends  

      

8B模型

picture.image 不同推理引擎下8B模型的TTFT

picture.image 不同推理引擎下8B模型的TGR

总结:

  • LMDeploy:在token/s上获得了最佳的解码性能,100个并发每秒最多可生成4000个token。10个并发时的TTFT也是最佳水准。尽管TTFT随着并发数量的增加而逐渐增加,但它仍然很低并且在可接受的范围内。
  • MLC-LLM:相比LMDeploy解码性能稍低,100 个并发每秒约 3500 个token。但是性能不稳定,在运行基准测试 5 分钟后减少到每秒 3100 个token左右。从并发1到100,并发越高,TTFT越低。
  • vLLM:在所有并发下,基本获得了最佳的TTFT。但与LMDeploy和MLC-LLM 相比,解码性能不太理想,每秒2300-2500个token,与TGI和TRT-LLM类似。

70B-int4

picture.image 不同推理引擎下70B-int4模型的TTFT

picture.image 不同推理引擎下70B-int4模型的TGR

总结:

  • LMDeploy:在100个并发时,每秒可以生成700个token,并且在所有并发下保持最低的TTFT。

  • TensorRT-LLM:在TGR方面表现出与LMDeploy相似的性能,并在低并发下保持较低的 TTFT。然而,当并发用户达到 100 时,TTFT显著增加至 6 秒以上。

  • vLLM:在所有级别的并发中都表现出持续较低的TTFT,与8B模型中观察到的情况类似。与LMDeploy和TensorRT-LLM相比,TGR较低,可能是由于缺乏量化模型的推理优化。

NLP前沿交流群成立,详见置顶推文。进群加微:nipi64310

-END-

右下角,帮忙点点

picture.image

+ picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动基于 DataLeap 的 DataOps 实践
随着数字化转型的推进以及业务数仓建设不断完善,大数据开发体量及复杂性逐步上升,如何保证数据稳定、正确、持续产出成为数据开发者核心诉求,也成为平台建设面临的挑战之一。本次分享主要介绍字节对于DataOps的理解 以及 DataOps在内部业务如何落地实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论