Chitu (赤兔) 是一个专注于效率、灵活性和可用性的高性能大语言模型推理框架。
下表是 A800 推理deepseek r1-671B,与vllm的对比。
赤兔用3个节点跑f8,性能跟6个节点跑bf16,是差不太多的。
同样6个节点,vllm关闭cuda graph才能跑,输出6.85 token/s。 赤兔可以开启cuda graph鸡血模式跑,达到29.8token/s。
开大batch size的测试如下:
基于Chitu引擎,使用3节点运行FP8模型的输出速度约为使用6节点运行BF16模型的75%90%,即单位算力的产出获得了1.5x1.8x的提升。
项目地址:https://github.com/thu-pacman/chitu/blob/public-main/docs/zh/README\_zh.md