chitu（赤兔）：清华面向生产的低成本大语言模型推理框架，支持国产芯片和老款N卡 - 文章 - 开发者社区

之前我们曾介绍过清华推出的KTransformers《KTransformers：让DeepSeek加速28倍的国产推理框架》，令人印象深刻，该项目也在持续更新中，刚刚宣布针对支持AMD GPU ROCm 平台及支持 unsloth 1.58/2.51 位权重和 IQ1_S/FP8 混合权重训练。

近日，清华又一团队推出一个大模型推理引擎项目Chitu (赤兔) ，称可将DeepSeek推理成本降一半，性能翻番。虽然来自学术圈，但该项目定位为生产级大模型推理引擎，强调多元化国产算力支持以及企业从超小规模到大规模的平滑扩展渐进需求，重点关注：

多元算力适配：不仅支持 NVIDIA 最新旗舰到旧款的多系列产品，也为国产芯片提供优化支持。
全场景可伸缩：从纯CPU 部署、单 GPU 部署到大规模集群部署，赤兔引擎提供可扩展的解决方案。
长期稳定运行：可应用于实际生产环境，稳定性足以承载并发业务流量。

为验证Chitu性能，项目团队在NVIDIA A800 40GB 和 H20 96GB GPU 上进行了基准测试，并与vLLM对比。

DeepSeek-R1-671B 模型 A800 集群测试 (bs=1)

| 硬件环境 | 6 节点 | 6 节点 | 3 节点 | | --- | --- | --- | --- | | 框架+精度 | vllm 0.7.3, BF16 | chitu 0.1.0, BF16 | Chitu 0.1.0, FP8 | | 使用 cuda graph | OOM | 29.8 output token/s | 22.7 output token/s | | 不使用 cuda graph | 6.85 output token/s | 8.5 output token/s | 7.0 output token/s |

测试显示，Chitu效率优势明显：CUDA Graph 加速效果显著，而vLLM在6节点配置下出现OOM（原因未明）；FP8量化潜力巨大，3节点FP8模型速度接近6节点BF16，单位算力性能提升1.5x~1.8x，这得益于FP8模型更小的权重体积和解码过程的内存带宽瓶颈。

不同 Batch Size 下 BF16 与 FP8 模型性能对比 (Chitu)

| Batch Size | 6 节点, BF16 (token/s) | 3 节点, FP8 (token/s) | | --- | --- | --- | | 1 | 29.8 | 22.7 | | 4 | 78.8 | 70.1 | | 8 | 129.8 | 108.9 | | 16 | 181.4 | 159.0 | | 32 | 244.1 | 214.5 |

数据印证了FP8量化在Chitu框架下的效率提升，更少硬件资源即可实现接近高精度模型的性能。

DeepSeek-R1-671B 模型 H20 (96G) 集群测试

| 硬件环境 | 框架+精度 | bs=1 (token/s) | bs=16 (token/s) | bs=256 (token/s) | | --- | --- | --- | --- | --- | | H20 (96G) 集群 | vLLM 0.7.2, FP8 | 21.16 | 205.09 | 1148.67 | | H20 (96G) 集群 | Chitu 0.1.0, FP8 | 22.1 | 202.1 | 780.3 |

最新H20平台测试各有侧重：小batch size下Chitu略优，中batch size两者接近，大batch size下vLLM吞吐更高，这也是Chitu未来优化方向。

小结

Chitu和ktransformers虽不在一个技术层面，但都是国产化推理技术的尝试，项目都还比较新，变动很快，感兴趣的读者可以持续跟进。

github：https://github.com/thu-pacman/chitu

新书推荐：

公众号私信“进群”入群讨论。