微软开源，CPU推理100B模型，速度飞起~

大模型GPU

周末快乐！早上刷到这个可能挺多小伙伴喜欢的内容，分享一下。

微软最新开源框架，bitnet.cpp，致力于在CPU上对超大尺寸模型的推理，不仅能跑，还能达到人工阅读的速度（每秒5~7个token）！

bitnet.cpp 是 1bit LLMs（如 BitNet b1.58）的官方推理框架。它提供了一套优化的内核，支持在 CPU 上对 1.58 bit模型进行快速无损的推理（接下来将支持 NPU 和 GPU）。

目前，在 x86 CPU 上，加速范围为 2.37 倍到 6.17 倍，能耗降低在 71.9% 到 82.2% 之间。

bitnet.cpp 可以在单个 CPU 上运行 100B BitNet b1.58 模型，达到与人阅读相当的速度（每秒 5-7 个token），显着增强了在本地设备上运行 LLMs。

picture.image

详情请见上仓库地址~