微软开源,CPU推理100B模型,速度飞起~

大模型GPU

周末快乐!早上刷到这个可能挺多小伙伴喜欢的内容,分享一下。

微软最新开源框架,bitnet.cpp,致力于在CPU上对超大尺寸模型的推理,不仅能跑,还能达到人工阅读的速度(每秒5~7个token)!

bitnet.cpp 是 1bit LLMs(如 BitNet b1.58)的官方推理框架。它提供了一套优化的内核,支持在 CPU 上对 1.58 bit模型进行快速无损的推理(接下来将支持 NPU 和 GPU)。

目前,在 x86 CPU 上,加速范围为 2.37 倍到 6.17 倍,能耗降低在 71.9% 到 82.2% 之间。

bitnet.cpp 可以在单个 CPU 上运行 100B BitNet b1.58 模型,达到与人阅读相当的速度(每秒 5-7 个token),显着增强了在本地设备上运行 LLMs。

项目地址:https://github.com/microsoft/BitNet

picture.image

详情请见上仓库地址~

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论