小伙伴们端午安康!
开源的大模型推理引擎比较热门的的分别为:vLLM、LMDeploy、MLC-LLM、TensorRT-LLM 和 TGI。一个好的推理引擎,一方面是可以更快的生成速度,提高用户体验,另一方面还能提高资源利用率,获得更高的成本效益。
这里主要对这几个知名的框架,在A100-80G下,分别使用8B和70B-int4模型进行评测。评测对比指标有2个ttft(times to first token,从输入到产生第一个token的耗时)、tgr(token generation rate,评估每秒token数),评测使用的并发数为(1、50、100),评测数据集使用的databricks/databricks-dolly-15k,评测仓库地址如下:
https://github.com/bentoml/llm-bench/tree/main
https://bentoml.com/blog/benchmarking-llm-inference-backends
8B模型
不同推理引擎下8B模型的TTFT
不同推理引擎下8B模型的TGR
总结:
- LMDeploy:在token/s上获得了最佳的解码性能,100个并发每秒最多可生成4000个token。10个并发时的TTFT也是最佳水准。尽管TTFT随着并发数量的增加而逐渐增加,但它仍然很低并且在可接受的范围内。
- MLC-LLM:相比LMDeploy解码性能稍低,100 个并发每秒约 3500 个token。但是性能不稳定,在运行基准测试 5 分钟后减少到每秒 3100 个token左右。从并发1到100,并发越高,TTFT越低。
- vLLM:在所有并发下,基本获得了最佳的TTFT。但与LMDeploy和MLC-LLM 相比,解码性能不太理想,每秒2300-2500个token,与TGI和TRT-LLM类似。
70B-int4
不同推理引擎下70B-int4模型的TTFT
不同推理引擎下70B-int4模型的TGR
总结:
-
LMDeploy:在100个并发时,每秒可以生成700个token,并且在所有并发下保持最低的TTFT。
-
TensorRT-LLM:在TGR方面表现出与LMDeploy相似的性能,并在低并发下保持较低的 TTFT。然而,当并发用户达到 100 时,TTFT显著增加至 6 秒以上。
-
vLLM:在所有级别的并发中都表现出持续较低的TTFT,与8B模型中观察到的情况类似。与LMDeploy和TensorRT-LLM相比,TGR较低,可能是由于缺乏量化模型的推理优化。
“
NLP前沿交流群成立,详见置顶推文。进群加微:nipi64310
-END-
右下角,帮忙点点
+