话不多说,直接上链接: https://github.com/deepseek-ai/DeepGEMM
今天DeepSeek给大家带来FP8训推加速、稳定的秘籍!
DeepGEMM 是一个 FP8 通用矩阵乘法(GEMMs)库,可以用在Dense上,也可以用在MoE上。
该库用 CUDA 编写,安装时无需编译,内置了JIT(Just-In-Time)模块!
注意,依然仅支持Hopper GPU,解决了 FP8 累计计算不精确的情况。该库仅包含一个核心内核函数,大约有 300 行代码,大道至简!
PS:还剩两天!