清华开源大模型推理框架:赤兔,deepseek部署成本减半~

大模型向量数据库机器学习

Chitu (赤兔) 是一个专注于效率、灵活性和可用性的高性能大语言模型推理框架。

下表是 A800 推理deepseek r1-671B,与vllm的对比。

picture.image

赤兔用3个节点跑f8,性能跟6个节点跑bf16,是差不太多的。

同样6个节点,vllm关闭cuda graph才能跑,输出6.85 token/s。 赤兔可以开启cuda graph鸡血模式跑,达到29.8token/s。

开大batch size的测试如下:

picture.image

基于Chitu引擎,使用3节点运行FP8模型的输出速度约为使用6节点运行BF16模型的75%90%,即单位算力的产出获得了1.5x1.8x的提升。

项目地址:https://github.com/thu-pacman/chitu/blob/public-main/docs/zh/README\_zh.md

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
VikingDB:大规模云原生向量数据库的前沿实践与应用
本次演讲将重点介绍 VikingDB 解决各类应用中极限性能、规模、精度问题上的探索实践,并通过落地的案例向听众介绍如何在多模态信息检索、RAG 与知识库等领域进行合理的技术选型和规划。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论