DeepSeek开源周,第三弹, DeepGEMM来袭~

GPU数据库机器学习

今天开源了deepseek-v3中提到的的FP8 GEMM内核。

picture.image

300行代码的暴力cuda美学,看不太懂,但是每天都可以打个酱油~

支持普通的矩阵乘法以及 Mix-of-Experts 分组矩阵乘法。使用 CUDA 编写,安装时无需编译,所有内核在运行时通过轻量级的即时编译(JIT)模块动态编译。

picture.image

DeepGEMM设计,避免了对CUTLASS和CuTe的过度依赖,采用了更简洁的设计,核心代码只有大约300行。整个库就是非常“轻量化”,但同时性能又很强大,甚至超过了专家调优的库。在某些场景下的加速比达到了2.7倍。

picture.image

使用这个仓库,需要支持Hopper架构的GPU、Python 3.8及以上版本、CUDA 12.3及以上版本。

项目地址:https://github.com/deepseek-ai/DeepGEMM/blob/main/README.md

贡献者似乎包含梁文峰。

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
云原生可观测性技术的落地实践
云原生技术和理念在近几年成为了备受关注的话题。应用通过云原生改造,变得更动态、弹性,可以更好地利用云的弹性能力。但是动态、弹性的环境也给应用以及基础设施的观测带来了更大的挑战。本次分享主要介绍了云原生社区中可观测性相关的技术和工具,以及如何使用这些工具来完成对云原生环境的观测。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论