“ 应该是含金量很高的一份技术报告了,才挂到arxiv,全文48页,作者都有几十个,可以直接看原文,或者等几天应该有大佬发博客具体讲吧~
https://arxiv.org/pdf/2401.02954.pdf
本文研究了大型开源语言模型(LLM)的扩展规律,提出了一种名为DeepSeek LLM的方法,旨在从长期角度推进开源语言模型的发展。文章首先探讨了批量大小和学习率等超参数的缩放规律,并据此指导模型的预训练。接着,作者们构建了一个包含2万亿个标记的数据集,并采用了类似于LLaMA系列模型的架构。通过对不同计算预算下的模型和数据规模进行研究,文章揭示了最佳的模型/数据扩展分配策略,并成功预测了大规模模型的性能。
在预训练阶段,作者们使用了去重、过滤和重新混合的方法来优化数据集。为了提高模型性能,文章采用了多步学习率调度器,并根据缩放规律选择了合适的批量大小和学习率。在模型架构方面,DeepSeek LLM主要遵循了LLaMA的设计,但在宏观设计上有所不同,例如7B模型采用了30层网络,而67B模型采用了95层网络。
在微调阶段,作者们收集了超过100万个实例进行监督微调(SFT),并使用直接偏好优化(DPO)来提高模型的对话性能。文章通过对基础模型和聊天模型进行广泛评估,发现DeepSeek LLM在各种基准测试中均优于LLaMA-2 70B,尤其在代码、数学和推理领域表现更为突出。经过SFT和DPO后,DeepSeek 67B聊天模型在中英文开放式评估中均优于GPT-3.5。
总之,本文通过研究大型语言模型的缩放规律,提出了一种名为DeepSeek LLM的方法,该方法在保持与其他开源模型参数一致的同时,实现了更好的性能。文章还详细讨论了预训练超参数的选择以及微调方法,并通过评估结果展示了DeepSeek LLM在各个领域的优越性能。