清华开源大模型推理框架:赤兔,deepseek部署成本减半~

Chitu (赤兔) 是一个专注于效率、灵活性和可用性的高性能大语言模型推理框架。

下表是 A800 推理deepseek r1-671B,与vllm的对比。

picture.image

赤兔用3个节点跑f8,性能跟6个节点跑bf16,是差不太多的。

同样6个节点,vllm关闭cuda graph才能跑,输出6.85 token/s。 赤兔可以开启cuda graph鸡血模式跑,达到29.8token/s。

开大batch size的测试如下:

picture.image

基于Chitu引擎,使用3节点运行FP8模型的输出速度约为使用6节点运行BF16模型的75%90%,即单位算力的产出获得了1.5x1.8x的提升。

项目地址:https://github.com/thu-pacman/chitu/blob/public-main/docs/zh/README\_zh.md

0
0
0
0
评论
未登录
暂无评论