文档备案控制台登录立即注册

首页文章活动镜像站

发布

DeepSeek开源周第一天-FlashMLA

GPU机器学习算法

话不多说，直接上链接： https://github.com/deepseek-ai/FlashMLA

FlashMLA 是一款高效的 MLA 解码内核，专为 Hopper GPU 优化，适用于变长序列服务。

在 H800 SXM5 上，使用 CUDA 12.6 时，内存受限配置下可实现高达 3000 GB/s 的带宽，计算受限配置下可达 580 TFLOPS 的算力。

0

0

0

0

关于作者

关于作者

文章

0

获赞

0

收藏

0

相关资源

字节跳动 XR 技术的探索与实践

火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人，为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践，揭秘现代炫酷的视觉效果背后的技术实现。

相关产品

推荐阅读

DeepSeek Smallpond在火山引擎AI数据湖的探索实践

无痛免费使用 Claude 3.7 的一个方法

DeepSeek 看不懂图片怎么办？

【附复现代码】基于PINN的论文创新思路

AAAI2025推荐系统相关论文整理

评论

未登录

看完啦，登录分享一下感受吧～

暂无评论