DeepSeek开源周第三天-DeepGEMM

GPU数据库机器学习

话不多说,直接上链接: https://github.com/deepseek-ai/DeepGEMM

今天DeepSeek给大家带来FP8训推加速、稳定的秘籍!

DeepGEMM 是一个 FP8 通用矩阵乘法(GEMMs)库,可以用在Dense上,也可以用在MoE上。

该库用 CUDA 编写,安装时无需编译,内置了JIT(Just-In-Time)模块!

注意,依然仅支持Hopper GPU,解决了 FP8 累计计算不精确的情况。该库仅包含一个核心内核函数,大约有 300 行代码,大道至简!

PS:还剩两天!

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论