重温Scaling Law is all you need

向量数据库大模型智能应用

“ 今天是2篇文章,第一篇是openai的老文章了,昨天黄文灏大佬关于Yi大模型的回答可能导致很多人又会去看scaling law;第二篇是DeepSpeed-FastGen:LLM服务部署框架,吞吐量为vLLM的2倍

以下是大佬的答案节选

李开复带队零一万物发布开源大模型 Yi,如何解读? - 黄文灏的回答 - 知乎

https://www.zhihu.com/question/629230332/answer/3278779348

“ Scaling Law is all you need很多人都认为scaling law就是用来算最优的数据和参数量的一个公式,但其实scaling law能做的事情远不止如此。为了真正理解scaling law,要做的第一件事就是忘记Chinchilla Scaling Law,然后打开OpenAI的Scaling Law的paper,再把paper中OpenAI引用自己的更早的paper都详细的读几十遍(实在是有点晦涩难懂),有条件的把里面的实验都复现一下(其实需要的实验资源不多),然后就会感到如同发现了新大陆一般。这里要感谢 @Zhi Tian 和 @曹越 在这个方向上的讨论和指导,国内的大神在核心问题的理解上绝对是世界最顶尖的水平的。理解了Scaling law,就会发现大模型的training dynamics是完全可以建模的,training performance是完全可预测的。在100M以下的模型上做的实验拟合的公式,可以准确预测几十B甚至上百B模型训练时每一步的validation loss(实际上几百步预测一次就够了)。有了这个基础,所有的实验就只要在小模型上做就可以了。我们在几十B和几百B模型上的实验都是一次完成的。


        
          
https://arxiv.org/pdf/2001.08361.pdf  

      

这篇论文研究了神经语言模型的性能随着模型大小、数据集大小和训练计算量的变化规律。作者发现,Transformer架构的语言模型性能在很大程度上取决于模型大小、数据集大小和训练计算量,而对其他架构细节(如网络深度或宽度)的依赖相对较小。

核心观点:

  1. 模型性能主要依赖于模型大小、数据集大小和训练计算量。
  2. 性能与这三个因素之间存在幂律关系,且趋势跨越多个数量级。
  3. 更大的模型在样本效率方面表现更好,即在达到相同性能水平时需要较少的优化步骤和数据点。
  4. 在固定计算预算下进行训练时,最佳性能可以通过训练非常大的模型并在远离收敛前停止来实现。

picture.image

insight:

  1. 作者发现,当模型大小、数据集大小和训练计算量中的任何一个因素受限时,性能与这些因素之间存在幂律关系。
  2. 当模型大小和数据集大小同时增加时,性能会按照可预测的方式改善。但如果其中一个因素保持不变,而另一个因素增加,则会出现收益递减的情况。
  3. 在训练过程中,学习曲线遵循可预测的幂律,其参数与模型大小大致无关。

结论:

  1. 随着模型大小、数据集大小和计算量的适当扩展,语言建模性能会平滑且可预测地提高。

  2. 更大的语言模型可能比当前的模型表现更好,并且具有更高的样本效率。

  3. 在固定计算预算下进行训练时,最佳性能可以通过训练非常大的模型并在远离收敛前停止来实现。这意味着在实际应用中,为了获得最佳性能,我们应该优先考虑训练较大的模型。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
VikingDB:大规模云原生向量数据库的前沿实践与应用
本次演讲将重点介绍 VikingDB 解决各类应用中极限性能、规模、精度问题上的探索实践,并通过落地的案例向听众介绍如何在多模态信息检索、RAG 与知识库等领域进行合理的技术选型和规划。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论