“ 今天是2篇文章,第一篇是openai的老文章了,昨天黄文灏大佬关于Yi大模型的回答可能导致很多人又会去看scaling law;第二篇是DeepSpeed-FastGen:LLM服务部署框架,吞吐量为vLLM的2倍
以下是大佬的答案节选
李开复带队零一万物发布开源大模型 Yi,如何解读? - 黄文灏的回答 - 知乎
https://www.zhihu.com/question/629230332/answer/3278779348
“ Scaling Law is all you need很多人都认为scaling law就是用来算最优的数据和参数量的一个公式,但其实scaling law能做的事情远不止如此。为了真正理解scaling law,要做的第一件事就是忘记Chinchilla Scaling Law,然后打开OpenAI的Scaling Law的paper,再把paper中OpenAI引用自己的更早的paper都详细的读几十遍(实在是有点晦涩难懂),有条件的把里面的实验都复现一下(其实需要的实验资源不多),然后就会感到如同发现了新大陆一般。这里要感谢 @Zhi Tian 和 @曹越 在这个方向上的讨论和指导,国内的大神在核心问题的理解上绝对是世界最顶尖的水平的。理解了Scaling law,就会发现大模型的training dynamics是完全可以建模的,training performance是完全可预测的。在100M以下的模型上做的实验拟合的公式,可以准确预测几十B甚至上百B模型训练时每一步的validation loss(实际上几百步预测一次就够了)。有了这个基础,所有的实验就只要在小模型上做就可以了。我们在几十B和几百B模型上的实验都是一次完成的。
https://arxiv.org/pdf/2001.08361.pdf
这篇论文研究了神经语言模型的性能随着模型大小、数据集大小和训练计算量的变化规律。作者发现,Transformer架构的语言模型性能在很大程度上取决于模型大小、数据集大小和训练计算量,而对其他架构细节(如网络深度或宽度)的依赖相对较小。
核心观点:
- 模型性能主要依赖于模型大小、数据集大小和训练计算量。
- 性能与这三个因素之间存在幂律关系,且趋势跨越多个数量级。
- 更大的模型在样本效率方面表现更好,即在达到相同性能水平时需要较少的优化步骤和数据点。
- 在固定计算预算下进行训练时,最佳性能可以通过训练非常大的模型并在远离收敛前停止来实现。
insight:
- 作者发现,当模型大小、数据集大小和训练计算量中的任何一个因素受限时,性能与这些因素之间存在幂律关系。
- 当模型大小和数据集大小同时增加时,性能会按照可预测的方式改善。但如果其中一个因素保持不变,而另一个因素增加,则会出现收益递减的情况。
- 在训练过程中,学习曲线遵循可预测的幂律,其参数与模型大小大致无关。
结论:
-
随着模型大小、数据集大小和计算量的适当扩展,语言建模性能会平滑且可预测地提高。
-
更大的语言模型可能比当前的模型表现更好,并且具有更高的样本效率。
-
在固定计算预算下进行训练时,最佳性能可以通过训练非常大的模型并在远离收敛前停止来实现。这意味着在实际应用中,为了获得最佳性能,我们应该优先考虑训练较大的模型。