清华开源大模型推理框架:赤兔,deepseek部署成本减半~

大模型向量数据库机器学习

Chitu (赤兔) 是一个专注于效率、灵活性和可用性的高性能大语言模型推理框架。

下表是 A800 推理deepseek r1-671B,与vllm的对比。

picture.image

赤兔用3个节点跑f8,性能跟6个节点跑bf16,是差不太多的。

同样6个节点,vllm关闭cuda graph才能跑,输出6.85 token/s。 赤兔可以开启cuda graph鸡血模式跑,达到29.8token/s。

开大batch size的测试如下:

picture.image

基于Chitu引擎,使用3节点运行FP8模型的输出速度约为使用6节点运行BF16模型的75%90%,即单位算力的产出获得了1.5x1.8x的提升。

项目地址:https://github.com/thu-pacman/chitu/blob/public-main/docs/zh/README\_zh.md

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
IDC 大模型应用落地白皮书
大模型技术已深度融入业务实践,各企业期望其释放更大商业价值。 但大模型落地之路面临许多挑战和顾虑。 如何精准对接业务需求与发展蓝图,制定切实可行的大模型落地策略? IDC发布首个大模型应用策略与行动指南 一为您揭晓一
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论