在后Chinchilla时代的研究里边,今年夏天随着BitNet论文的发布,量化相关的热潮达到顶峰。论文里边提出了一个三元量化方案(-1、0、1),也就是1.58比特。哈佛、斯坦福、麻省理工这些高校的大佬最近联合发了一个研究,标题:Scaling Laws for Precision
通过465次预训练实验,对Chinchilla扩展定律进行了量化修正,研究发现量化效益在FP6处趋于平稳。
一些重要发现:
- 预训练时间越长或处理的数据量越大,模型在推理阶段对量化的敏感度就越高,这解释了为什么Llama-3的量化可能更具挑战性。
- 预训练过程中token与参数比率的损失退化大致遵循幂律关系,这使得我们能够提前预测临界数据规模,超过这个规模继续训练反而会损害量化模型的性能。
- 这背后的直觉可能是,随着训练数据量增加,更多知识被压缩到权重中,此时任何扰动都会对性能造成更大影响。
通过对一个固定的语言模型进行了过度训练,数据量最高达到30B个token,随后进行了训练后量化。实验结果表明,增加预训练的浮点运算并不总能带来生产环境中更好的模型表现。
QLoRA的作者Tim Dettmers更直接地指出量化扩展"免费午餐"的终结:
"人工智能的大多数进展主要依赖于计算能力的提升,这主要通过降低精度(从32位到16位再到8位)来实现加速。但这个进程现在已接近尾声。
结合物理限制,这造就了规模化终结的完美风暴。基于我的研究经验(包括许多失败的尝试),效率问题是无法取巧的。
量化失败意味着稀疏化和其他效率提升机制也会失败。如果这个判断成立,我们现在已经接近最优状态。
未来只有三条发展路径...这意味着范式将从追求规模转向'如何善用现有资源'。我认为'如何帮助人们更有效地利用AI'将是最佳的前进思路。"