大模型推理框架擂台赛，五大高手（vLLM、LMDeploy、TensorRT-LLM、TGI、MLC-LLM）谁更胜一筹？ - 文章 - 开发者社区

小伙伴们端午安康！

开源的大模型推理引擎比较热门的的分别为：vLLM、LMDeploy、MLC-LLM、TensorRT-LLM 和 TGI。一个好的推理引擎，一方面是可以更快的生成速度，提高用户体验，另一方面还能提高资源利用率，获得更高的成本效益。

这里主要对这几个知名的框架，在A100-80G下，分别使用8B和70B-int4模型进行评测。评测对比指标有2个ttft(times to first token，从输入到产生第一个token的耗时)、tgr(token generation rate，评估每秒token数)，评测使用的并发数为（1、50、100），评测数据集使用的databricks/databricks-dolly-15k，评测仓库地址如下：


        
          
https://github.com/bentoml/llm-bench/tree/main  
https://bentoml.com/blog/benchmarking-llm-inference-backends

8B模型

picture.image 不同推理引擎下8B模型的TTFT

picture.image 不同推理引擎下8B模型的TGR

总结：

LMDeploy：在token/s上获得了最佳的解码性能，100个并发每秒最多可生成4000个token。10个并发时的TTFT也是最佳水准。尽管TTFT随着并发数量的增加而逐渐增加，但它仍然很低并且在可接受的范围内。
MLC-LLM：相比LMDeploy解码性能稍低，100 个并发每秒约 3500 个token。但是性能不稳定，在运行基准测试 5 分钟后减少到每秒 3100 个token左右。从并发1到100，并发越高，TTFT越低。
vLLM：在所有并发下，基本获得了最佳的TTFT。但与LMDeploy和MLC-LLM 相比，解码性能不太理想，每秒2300-2500个token，与TGI和TRT-LLM类似。

70B-int4

picture.image 不同推理引擎下70B-int4模型的TTFT

picture.image 不同推理引擎下70B-int4模型的TGR

总结：

LMDeploy：在100个并发时，每秒可以生成700个token，并且在所有并发下保持最低的TTFT。
TensorRT-LLM：在TGR方面表现出与LMDeploy相似的性能，并在低并发下保持较低的 TTFT。然而，当并发用户达到 100 时，TTFT显著增加至 6 秒以上。
vLLM：在所有级别的并发中都表现出持续较低的TTFT，与8B模型中观察到的情况类似。与LMDeploy和TensorRT-LLM相比，TGR较低，可能是由于缺乏量化模型的推理优化。

“

NLP前沿交流群成立，详见置顶推文。进群加微：nipi64310

-END-

右下角，帮忙点点

picture.image