DeepSeek开源周,第一弹, FlashMLA来袭~

GPU容器机器学习

Deepseek的openweek, day1的来了来了。

picture.image

项目地址:https://github.com/deepseek-ai/FlashMLA

FlashMLA 是一款高效的 MLA 解码内核,专为 Hopper GPU 优化,适用于变长序列服务。

在 H800 SXM5 上,使用 CUDA 12.6 时,内存受限配置下可实现高达 3000 GB/s 的带宽,计算受限配置下可达 580 TFLOPS 的算力。

用起来的形式上跟flash-attention 差不多。


        
        
            

          
 from
 
           flash\_mla 
          
 import
 
           get\_mla\_metadata, flash\_mla\_with\_kvcache
            

            

          tile\_scheduler\_metadata, num\_splits = get\_mla\_metadata(cache\_seqlens, s\_q * h\_q // h\_kv, h\_kv)
            

            

          
 for
 
           i 
          
 in
 
           range(num\_layers):
            

              ...
            

              o\_i, lse\_i = flash\_mla\_with\_kvcache(
            

                  q\_i, kvcache\_i, block\_table, cache\_seqlens, dv,
            

                  tile\_scheduler\_metadata, num\_splits, causal=
          
 True
 
          ,
            

              )
            

              ...
            

        
      
0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论