什么是UE8M0 FP8?一篇讲透AI芯片新格式

机器学习算法数据库
什么是UE8M0 FP8?一篇讲透AI芯片新格式

素材来源官方媒体/网络新闻

,

,

,

如果你关注AI硬件加速,最近一定听过“UE8M0 FP8”这个术语!但它到底是什么?为什么说它更适合下一代国产芯片?一起来拆解一下!\x0a🔍 概念拆解:UE8M0 + FP8\x0a▫️FP8是什么?\x0aFP8是一种8位浮点格式,将传统浮点数压缩至8比特,显著减少存储和计算开销,适合高吞吐AI推理和训练。\x0a▫️MXFP8又是什么?\x0a它是OCP(开放计算项目)在2023年发布的《微缩放格式规范v1.0》中定义的块缩放FP8格式。OCP由Meta、英特尔等发起,成员包括谷歌、微软、阿里、腾讯等科技巨头,旨在推动高效数据中心与硬件开源。\x0aMXFP8将张量切分为固定大小的“块”,每块共享一个缩放因子(2的整数幂),块内数值统一缩放后再以FP8格式存储。这种块级缩放动态范围比全张量缩放高出几十倍!\x0a▫️UE8M0:无符号8指数位0尾数\x0a“U” = 无符号(Unsigned)\x0a“E8” = 8比特指数位\x0a“M0” = 0比特尾数位\x0a类似格式还有E4M3、E5M2(常用于张量本体),它们都含符号位,指数与尾数共享7个比特。\x0a⚡️UE8M0的优势有哪些?\x0a1️⃣ 计算更高效UE8M0不含尾数和符号位,复原数据时只需做2的幂次乘法(即移位操作),无需浮点乘法和规格化,缩短关键路径,提升硬件效率。\x0a2️⃣ 动态范围更大覆盖从2⁻¹²⁷ 到2¹²⁸,指数表达范围广,块缩放更灵活,避免单尺度FP8容易溢出或数值被压为零的问题。\x0a3️⃣ 误差大幅降低使用UE8M0作为块缩放因子后,错误率从整条高曲线下降为低水平横线,显著减少信息损失。\x0a 为什么说UE8M0更适合国产芯片?\x0a目前多数国产AI芯片仍使用FP16/BF16+INT8计算通路,尚未集成完整FP8单元(如E4M3/E5M2)。\x0a但新一代国产芯片已在积极布局FP8支持:\x0a摩尔线程MUSA 3.1 GPU\x0a芯原VIP9000 NPU\x0a2025下半年将量产,并与DeepSeek、华为等15家企业联合验证UE8M0格式!\x0a🎯 最关键的是:UE8M0极致节省带宽。每32个FP8数值仅需1个8比特缩放因子,相比传统FP32缩放因子(32比特),节省75%存储流量!这对带宽受限的国产芯片(HBM/LPPDDR带宽仍落后)至关重要。\x0a📌 小结\x0aUE8M0 FP8是下一代国产AI芯片的关键突破,以超高效率、超大动态范围和超低带宽开销,助力国产算力弯道超车!

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论