重温Scaling Law is all you need - 文章 - 开发者社区

“ 今天是2篇文章，第一篇是openai的老文章了，昨天黄文灏大佬关于Yi大模型的回答可能导致很多人又会去看scaling law；第二篇是DeepSpeed-FastGen：LLM服务部署框架，吞吐量为vLLM的2倍

以下是大佬的答案节选

李开复带队零一万物发布开源大模型 Yi，如何解读？ - 黄文灏的回答 - 知乎

https://www.zhihu.com/question/629230332/answer/3278779348

“ Scaling Law is all you need很多人都认为scaling law就是用来算最优的数据和参数量的一个公式，但其实scaling law能做的事情远不止如此。为了真正理解scaling law，要做的第一件事就是忘记Chinchilla Scaling Law，然后打开OpenAI的Scaling Law的paper，再把paper中OpenAI引用自己的更早的paper都详细的读几十遍（实在是有点晦涩难懂），有条件的把里面的实验都复现一下（其实需要的实验资源不多），然后就会感到如同发现了新大陆一般。这里要感谢 @Zhi Tian 和 @曹越在这个方向上的讨论和指导，国内的大神在核心问题的理解上绝对是世界最顶尖的水平的。理解了Scaling law，就会发现大模型的training dynamics是完全可以建模的，training performance是完全可预测的。在100M以下的模型上做的实验拟合的公式，可以准确预测几十B甚至上百B模型训练时每一步的validation loss（实际上几百步预测一次就够了）。有了这个基础，所有的实验就只要在小模型上做就可以了。我们在几十B和几百B模型上的实验都是一次完成的。


        
          
https://arxiv.org/pdf/2001.08361.pdf

这篇论文研究了神经语言模型的性能随着模型大小、数据集大小和训练计算量的变化规律。作者发现，Transformer架构的语言模型性能在很大程度上取决于模型大小、数据集大小和训练计算量，而对其他架构细节（如网络深度或宽度）的依赖相对较小。

核心观点：

模型性能主要依赖于模型大小、数据集大小和训练计算量。
性能与这三个因素之间存在幂律关系，且趋势跨越多个数量级。
更大的模型在样本效率方面表现更好，即在达到相同性能水平时需要较少的优化步骤和数据点。
在固定计算预算下进行训练时，最佳性能可以通过训练非常大的模型并在远离收敛前停止来实现。

picture.image

insight:

作者发现，当模型大小、数据集大小和训练计算量中的任何一个因素受限时，性能与这些因素之间存在幂律关系。
当模型大小和数据集大小同时增加时，性能会按照可预测的方式改善。但如果其中一个因素保持不变，而另一个因素增加，则会出现收益递减的情况。
在训练过程中，学习曲线遵循可预测的幂律，其参数与模型大小大致无关。

结论：

随着模型大小、数据集大小和计算量的适当扩展，语言建模性能会平滑且可预测地提高。
更大的语言模型可能比当前的模型表现更好，并且具有更高的样本效率。
在固定计算预算下进行训练时，最佳性能可以通过训练非常大的模型并在远离收敛前停止来实现。这意味着在实际应用中，为了获得最佳性能，我们应该优先考虑训练较大的模型。