开源局部1位大语言模型BitNet b1.58 2B4T：20亿参数，40万亿token语料训练，性能比肩全精度且计算高效！

备注好友：方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

作者介绍了BitNet b1.58 2B4T，这是首个开源的、局部的1位大语言模型（LLM），参数规模达到20亿。该模型在包含40万亿token的语料库上训练，并在涵盖语言理解、数学推理、编程能力和对话能力等多个基准测试中进行了严格评估。

作者的结果表明，BitNet b1.58 2B4T在性能上与同等规模的领先开源全精度LLM相当，同时在计算效率方面具有显著优势，包括大幅减少内存占用、能耗和解码延迟。

为促进进一步研究和应用，模型权重已通过Hugging Face发布，并附带适用于GPU和CPU架构的开源推理实现。

1 引言

开源大语言模型（LLMs）在推动High-LevelAI能力的普及化、促进创新以及支持自然语言处理、代码生成和视觉计算等不同领域的研究方面发挥着关键作用。这些模型的公开可用性使得广泛的实验和适配成为可能。然而，一个显著障碍阻碍了它们的更广泛采用：部署和推理所需的巨大计算资源。当前最先进的开源LLMs通常需要较大的内存占用，消耗大量能源，并表现出明显的推理延迟，这使得它们对于许多边缘设备、资源受限的环境和实时应用而言并不实用。

1位LLMs，代表了一种极端但极具前景的模型量化形式，其中权重和潜在的激活值被约束为二进制。

或三元

，为效率挑战提供了极具吸引力的解决方案。通过大幅减少存储权重所需的内存，并实现高效的位运算，它们有潜力显著降低部署成本，减少能耗，并加速推理速度。尽管先前工作已探索过1位模型，现有的公开努力通常分为两类：1）应用于预训练全精度模型的训练后量化（PTQ）方法，这可能导致显著的性能下降（Xu等人，2024b；Team，2024），或2）原生1位模型（使用1位权重从头训练），这些模型在相对较小的规模上开发（例如，OLMo-Bitnet-

），可能尚未达到更大全精度模型的性能水平。这种性能差距限制了1位LLMs目前的实际影响。

为弥合效率与性能之间的差距，作者引入了BitNet b1.58 2B4T，这是首个开源的、局部的1位大语言模型（LLM），并在大规模上进行了训练。该模型包含20亿个参数，在包含40万亿个token的大规模数据集上从头开始进行训练，利用了针对1位范式的特定架构和训练创新。这项工作的核心贡献在于证明了，当原生1位LLM在大规模上得到有效训练时，可以在广泛的任务中实现与同等规模的领先开源全精度模型相当的性能。

本技术报告详细介绍了BitNet b1.58 2B4T的开发与评估。作者描述了其架构和训练方法，并在此基础上，在评估语言理解、数学推理、编程能力和多轮对话能力的标准基准上，展示了全面的评估结果。

作者的研究发现，相较于现有的全精度 Baseline 模型，BitNet b1.58 2B4T表现出优异的性能，同时在效率方面具有显著优势。最后，作者通过Hugging Face公开发布BitNet b1.58 2B4T模型权重，并提供针对GPU和CPU执行优化的开源推理代码，旨在促进进一步研究以及高效大语言模型的实际部署。

2 架构

BitNet b1.58 2B4T的架构源自标准Transformer模型（Vaswani等人，2017年），基于BitNet框架（王等人，2023a；马等人，2024年）进行了重大改进。该模型完全从头开始训练。

核心架构创新在于用自定义的BitLinear层替换标准的全精度线性层（torch.nn.Linear），这构成了BitNet方法的基础。在这些BitLinear层中：

重量量化：模型权重在正向传播过程中量化为1.58位。这是通过使用绝对均值（absmean）量化方案实现的，该方案将权重映射到三元值

。这极大地减小了模型尺寸，并实现了高效的数学运算。

激活量化：流经线性投影的激活被量化为8位整数。这采用了一种绝对最大值（absmax）量化策略，每个token独立应用。

归一化：作者引入了sub1n归一化（Wang等人，2022年）以进一步提高训练稳定性，这在量化训练机制中尤为有益。

在BitLinear层之外，集成了几种成熟的LLM技术以提升性能和稳定性：

激活函数（FFN）：在 FFN （FFN）子层中，BitNet b1.58 2B4T未采用常用的SwiGLU激活函数（Shazeer，2020），而是使用平方ReLU

。这一选择是基于其在1比特上下文中可能改善模型Sparse性和计算特性的潜力（Wang等人，2024b,a）。

位置嵌入：采用旋转位置嵌入（RoPE）（Su等人，2024）注入位置信息，这是现代高性能大语言模型的标准做法。

偏置移除：与LLaMA等架构一致，网络中所有线性层和归一化层均移除偏置项，以减少参数数量并可能简化量化。

在分词方面，作者采用了为LLaMA 3开发的分词器（Dubey等人，2024）。该分词器实现了一种基于字节的Byte-Pair Encoding（BPE）方案，词汇量为128,256个词元。这一选择确保了对多样化文本和代码的稳健处理，并且其广泛应用促进了与现有开源工具和生态系统的无缝集成。

3 训练

BitNet b1.58 2B4T的训练过程涉及三个不同阶段：大规模预训练，随后进行监督微调（SFT）和直接偏好优化（DPO）。虽然像近端策略优化（PPO）或组相对策略优化（GRPO）等先进技术可以进一步提升数学能力以及思维链推理（Schulman等，2017；Shao等，2024）等能力，但BitNet b1.58 2B4T的当前版本仅依赖于预训练、SFT和DPO。强化学习方法的研究仍将是未来工作的一个方向。

3.1 预训练

预训练阶段旨在赋予模型广泛的世界知识和基础语言能力。作者从成熟的LLM实践中借鉴了通用训练策略（Dubey等人，2024年），并根据1位架构进行了具体调整。

3.1.1 学习率调度

采用了两阶段学习率调度方案。

第一阶段（高学习率）：初始阶段采用了标准的余弦衰减调度，但起始时使用了相对较高的峰值学习率。这一决策基于以下观察：与全精度模型相比，1位模型通常表现出更高的训练稳定性，从而允许更激进的开局学习步骤。
阶段2（冷却期）：在计划的训练token数量大约一半时，学习率突然衰减，并随后通过具有显著较低峰值值的余弦调度进行维持。这个“冷却期”允许模型在高质量数据上优化其表示（参见第3.1.3节）。

3.1.2 权重衰减计划

在学习率调整的基础上，实施了一种两阶段权重衰减策略。

第一阶段：在第一个训练阶段，权重衰减遵循余弦调度，达到峰值值0.1。这种正则化有助于在初始高学习率阶段防止过拟合。
第二阶段：在第二阶段，权重衰减被有效禁用（设置为0）。这允许模型参数在较低的学习率和经过筛选的数据的指导下稳定到更细粒度的最优解。

3.1.3 预训练数据

预训练语料库由公开可用的文本和代码数据集混合组成，包括大规模网络爬取数据如DCLM（Li等人，2024b）和教育类网页数据如FineWeb-EDU（Penedo等人，2024）。为提升数学推理能力，作者还加入了合成生成的数学数据。数据呈现策略与两阶段训练相匹配：大部分通用网络数据在第一阶段进行处理，而第二阶段冷却阶段则侧重于高质量精选数据集，这与学习率的降低同步进行。

3.2 有监督微调 (SFT)

预训练后，模型接受了监督微调（SFT），以增强其指令遵循能力并提高其在对话交互格式中的性能。

3.2.1 SFT数据

SFT阶段使用了多样化的公开可用的指令遵循和对话数据集。这些数据集包括但不限于WildChat（Zhao等人，2024年）、LMSYS-Chat1M（Zheng等人，2024年）、WizardLM Evol-Instruct（Xu等人，2024a）和SlimOrca（Lian等人，2023年）。为了进一步增强特定能力，特别是在推理和复杂指令遵循方面，作者补充了使用GLAN（Li等人，2024a）和MathScale（Tang等人，2024年）等方法生成的合成数据集。

3.2.2 对话模板

在SFT（监督微调）和推理过程中的对话任务中，采用了以下聊天模板结构：

系统：{system_message}

Assistant: {assistant_message_1}

请提供需要翻译的英文AI学术论文内容。

Assistant: {assistant_message_2}

3.2.3 优化细节

在SFT过程中，几个优化选择是关键的

损失聚合：作者采用对批次内的 Token （token）的交叉熵损失进行求和，而不是求平均值（mean reduction）。经验上，作者发现求和损失能够改善模型的收敛性并提升最终性能。超参数调整：对学习率和训练轮数进行了仔细的调整。与作者的预训练研究结果一致，1位模型在SFT（监督微调）过程中受益于相对较大的学习率，相比于典型的高精度模型微调。此外，实现最佳收敛性需要比相似规模的高精度模型更长的微调时间。

3.3 直接偏好优化 (DPO)

为使模型的行为更符合人类在帮助性和安全性方面的偏好，作者在SFT阶段之后应用了直接偏好优化（DPO）（Rafailov等人，2023）。DPO为传统RLHF提供了一种高效替代方案，通过使用偏好数据直接优化语言模型，从而避免了训练单独的奖励模型的需要。此DPO阶段旨在提升模型的对话能力，并使其在实际应用案例中与期望的交互模式保持整体一致。

3.3.1 训练数据

用于DPO训练的偏好数据集是从一些公开可用的资源中构建的，这些资源被公认为能够捕捉到人类对模型输出的多样化判断。具体来说。

作者使用了UltraFeedback（Cui等人，2024）和MagPie（Xu等人，2024c）。这些数据集的聚合提供了一个稳健且多维度的偏好信号，指导模型生成更符合人类期望的响应。

3.3.2 训练细节

DPO训练阶段持续了2个epoch。作者采用了学习率

，并将控制与参考策略偏差的DPO beta参数设置为0.1。为了提升此阶段的训练效率，作者集成了来自Liger Kernel库（Hsu等人，2024）的优化 Kernel 。从定性观察来看，作者的结果表明DPO过程有效引导模型朝向更优的响应风格，同时未在预训练和SFT阶段建立的核心理能上引起显著退化。

4 评估

作者在以下分类的各种基准测试上测量性能：

语言理解与推理：ARC-Easy（Yadav等人，2019年）、ARC-Challenge（Yadav等人，2019年）、HellaSwag（Zellers等人，2019年）、WinoGrande（Sakaguchi等人，2020年）、PIQA（Bisk等人，2019年）、OpenbookQA（Mihaylov等人，2018年）和CommonsenseQA（Talmor等人，2019年）
世界知识：TruthfulQA（Lin等人，2022年）和MMLU（Hendrycks等人，2021a）

阅读理解：TriviaQA（Joshi等人，2017年）和BoolQ（Clark等人，2019年）

数学和代码：GSM8K（Cobbe等人，2021年）、MATH-500（Hendrycks等人，2021b）和HumanEval+（Liu等人，2023年）

指令遵循与对话：IFEval（Zhou等人，2023）和MT-bench（Zheng等人，2023）

作者将BitNet b1.58 2B4T与同等规模的领先开源全精度LLM进行比较，包括LLaMA 3.2 1B（Dubey等人，2024）、Gemma-3 1B（团队，2025）、Qwen2.5 1.5B（Yang等人，2024）、SmolLM2 1.7B（Allal等人，2025）和MiniCPM 2B（Hu等人，2024）。所有模型均为指令微调版本。作者使用公共评估流程重新运行所有基准测试，以进行公平比较。更多评估细节请参见附录。主要结果展示在表1中。

picture.image

4.1 主要结果

如表1所示，BitNet b1.58 2B4T展现出卓越的资源效率。其非嵌入内存占用和估计解码过程中的能耗（Horowitz，2014；Zhang等人，2022）与所有评估的全精度模型相比显著更低，这突显了其在运营成本和资源受限设备上部署方面的显著优势。

在任务性能方面，BitNet b1.58 2B4T表现出高度竞争力。在涵盖推理、知识和数学能力的多个基准测试中，该模型在所比较的模型中取得了最佳结果。在其他基准测试中，其性能与顶级全精度模型非常接近。尽管一些全精度模型在特定任务或整体平均性能上略有优势，但BitNet b1.58 2B4T在各个方面均表现出强劲性能。结果表明，BitNet b1.58 2B4T在与其尺寸类别中的领先模型能力几乎相当的同时，显著提高了效率。

4.2 与训练后量化的模型比较

作者进一步通过比较BitNet b1.58 2B4T与主要竞争对手Qwen2.5 1.5B的post-training quantized (PTQ)版本，使用标准INT4方法（GPTQ和AWQ），研究了效率与性能的权衡。结果总结在表2中。

picture.image

INT4量化虽然成功减小了全精度模型的内存占用，但BitNet b1.58 2B4T由于其局部的1比特架构，实现了更低的内存需求。

更重要的是，这种优越的内存效率并不会相对于量化模型降低性能。与原始全精度模型相比，标准PTQ技术会导致性能出现明显退化。相比之下，BitNet b1.58 2B4T在评估基准上保持比Qwen2.5-1.5B的INT4量化版本更强的整体性能。这一比较表明，BitNet b1.58 2B4T在效率性能曲线上代表了一个比将传统INT4 PTQ应用于现有架构更有利的点，以更低的资源使用提供更好的性能。

4.3 与 Open-weight 1-bit 模型比较

最后，作者将BitNet b1.58 2B4T置于其他为接近1比特精度设计或量化模型的领域中。作者将其与原生训练的小规模1比特模型以及经过训练后量化为1.58比特精度的显著更大规模模型进行比较。比较结果如表3所示。

picture.image

评估明确将BitNet b1.58 2B4T定位为此类模型的领先者。它比所有其他比较的1位模型表现出显著更强的整体性能，在绝大多数基准测试中取得了最高分数。值得注意的是，BitNet b1.58 2B4T不仅显著优于较小的原生训练1位模型，而且优于参数数量大得多的经过量化到1位的模型。这突出了BitNet b1.58 2B4T采用的原生训练方法的有效性，使其能够为在此极端量化 Level 运行的模型设定新的性能水平，甚至超越经过PTQ的更大模型。

5 推理实现

高效的推理对于部署大语言模型至关重要，特别是在资源受限的环境中。BitNet b1.58 2B4T的独特量化方案采用1.58位权重和8位激活（W1.58A8），需要专门的实现，因为标准的深度学习库通常缺乏针对此类混合精度、低比特格式优化的 Kernel 。为此，作者开发了并开源了针对GPU和CPU平台的专用推理库。代码公开可在 https: //aka.ms/bitnet 获取。

5.1 GPU推理

当前的GPU架构及其相关的软件库（例如cuBLAS、PyTorch Kernel ）主要针对涉及FP16、BF16和INT8/INT4等标准数据类型的操作进行优化。对于BitNet b1.58 2B4T所需的特定W1.58A8矩阵乘法运算，通常缺乏原生的高性能支持。这一限制可能会阻碍在现有硬件上实现1比特模型所提供的理论效率提升。

为支持高效的GPU推理，作者专门为W1.58A8矩阵乘法开发了一个自定义CUDA Kernel 。由于三值权重

，代表1.58位)无法使用标准数据类型高效存储，作者将多个权重值打包到一个8位整数（int8'）中，以便存储在高带宽内存（HBM）中。具体而言，四个三值被编码到一个int8'值中。在计算过程中，CUDA Kernel 从HBM加载打包的int8'权重到GPU更快的片上共享内存（SRAM）中。然后，在执行与8位激活值的矩阵乘法之前，它将这些值解包回适合高效三值计算的形式（例如，重建

值）。这种“打包-存储-加载-解包-计算”策略在利用自定义计算指令的同时最小化了内存带宽使用。更详细的实现细节和优化策略在Ladder框架（Wang等人，2023b）中有详细阐述。

尽管作者的定制 Kernel 与朴素实现相比显著提升了性能，但作者必须指出，当前商用GPU架构并非为1比特模型进行了优化设计。作者相信，未来的硬件创新，特别是可能包含专门用于低比特运算的逻辑设计，对于充分释放BitNet b1.58这类模型的性能与能效潜力至关重要。

5.2 CPU推理

为确保广泛的可用性并支持在缺乏强大GPU的设备上部署（例如边缘设备、笔记本电脑、标准服务器），作者开发了bitnet.cpp。这个

库是1位LLM CPU推理的官方参考实现，包括BitNet b1.58。

bitnet.cpp提供了针对标准CPU架构优化的 Kernel ，旨在高效执行。这些 Kernel 设计为与模型的特定量化方案高效协同，尽可能避免通用量化库的开销或复杂的底层位操作。它以与BitNet b1.58训练方法一致的方式处理权重元素，确保数值精度（相对于训练过程的无损推理）。

该方法能够直接在CPU上实现1.58位模型的快速准确推理。更多技术细节和使用说明可在bitnet.cpp代码库及其相关技术报告（Wang等人，2025）中找到。

6 结论

本技术报告介绍了BitNet b1.58 2B4T，这是迈向高效且强大的大语言模型的重要一步。作为首个开源的原生1比特大语言模型，该模型在40亿参数规模上使用4万亿个token进行训练，作者的工作展示了极端量化直接在训练过程中实施的可行性。

跨多个基准测试的综合评估，涵盖语言理解、推理、数学、编程和对话能力，显示BitNet b1.58 2B4T的性能与同等规模的先进开源全精度模型相当。关键在于，这一性能相当是在显著降低计算需求的情况下实现的，从而在内存占用、能耗和推理延迟方面提供了大幅节省。为促进实际应用和进一步研究，作者开发了并发布了针对GPU（通过自定义CUDA Kernel ）和CPU（通过bitnet.cpp库）的优化推理实现，同时也在Hugging Face上提供了模型权重。

BitNet b1.58 2B4T代表了一个引人注目的概念验证，它挑战了在规模化LLM中实现高性能所必须使用全精度权重的必要性。它为在资源受限的环境中部署强大的语言模型开辟了途径，而此前这些环境中的模型部署成本过高，有可能使先进AI能力的获取民主化。

参考

[1]. BitNet b1.58 2B4T Technical Report

开源局部1位大语言模型BitNet b1.58 2B4T：20亿参数，40万亿token语料训练，性能比肩全精度且计算高效 ！

1 引言

2 架构

3 训练

3.1 预训练

3.1.1 学习率调度

3.1.2 权重衰减计划

3.1.3 预训练数据

3.2 有监督微调 (SFT)

3.2.1 SFT数据

3.2.2 对话模板

3.2.3 优化细节

3.3 直接偏好优化 (DPO)

3.3.1 训练数据

3.3.2 训练细节

4 评估

4.1 主要结果

4.2 与训练后量化的模型比较

4.3 与 Open-weight 1-bit 模型比较

5 推理实现

5.1 GPU推理

5.2 CPU推理

6 结论

参考