DeepSeek开源周第三天-DeepGEMM

GPU数据库机器学习

话不多说,直接上链接: https://github.com/deepseek-ai/DeepGEMM

今天DeepSeek给大家带来FP8训推加速、稳定的秘籍!

DeepGEMM 是一个 FP8 通用矩阵乘法(GEMMs)库,可以用在Dense上,也可以用在MoE上。

该库用 CUDA 编写,安装时无需编译,内置了JIT(Just-In-Time)模块!

注意,依然仅支持Hopper GPU,解决了 FP8 累计计算不精确的情况。该库仅包含一个核心内核函数,大约有 300 行代码,大道至简!

PS:还剩两天!

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论