文档备案控制台登录立即注册

首页文章活动开发者计划镜像站

发布

清华开源大模型推理框架：赤兔，deepseek部署成本减半~

大模型向量数据库机器学习

Chitu (赤兔) 是一个专注于效率、灵活性和可用性的高性能大语言模型推理框架。

下表是 A800 推理deepseek r1-671B，与vllm的对比。

picture.image

赤兔用3个节点跑f8，性能跟6个节点跑bf16，是差不太多的。

同样6个节点，vllm关闭cuda graph才能跑，输出6.85 token/s。赤兔可以开启cuda graph鸡血模式跑，达到29.8token/s。

开大batch size的测试如下：

picture.image

基于Chitu引擎，使用3节点运行FP8模型的输出速度约为使用6节点运行BF16模型的75%~~90%，即单位算力的产出获得了1.5x~~1.8x的提升。

项目地址：https://github.com/thu-pacman/chitu/blob/public-main/docs/zh/README\_zh.md

0

0

0

0

关于作者

关于作者

文章

0

获赞

0

收藏

0

相关资源

IDC 大模型应用落地白皮书

大模型技术已深度融入业务实践，各企业期望其释放更大商业价值。但大模型落地之路面临许多挑战和顾虑。如何精准对接业务需求与发展蓝图，制定切实可行的大模型落地策略? IDC发布首个大模型应用策略与行动指南一为您揭晓一

相关产品

推荐阅读

通过工具增强 LLM Agent 能力：veRL+ReTool 的完整实践指南

TRAE 国际版 Max 模式已上线，支持你更复杂的项目需求

MLLM（五）| nano banana两种访问方式介绍

速看！最新版 Dify 连接 Ollama 与 vLLM 全攻略

【AI实战系列】每天5分钟、碎片学习AI知识：教你打造企业自有大模型，走出定制化第一步，沉淀AI技术能力，让AI变成生产力！

评论

未登录

看完啦，登录分享一下感受吧～

暂无评论