Deepseek 大模型发布50页新技术报告 - 文章 - 开发者社区

“ 应该是含金量很高的一份技术报告了，才挂到arxiv，全文48页，作者都有几十个，可以直接看原文，或者等几天应该有大佬发博客具体讲吧～


        
          
https://arxiv.org/pdf/2401.02954.pdf

picture.image

本文研究了大型开源语言模型（LLM）的扩展规律，提出了一种名为DeepSeek LLM的方法，旨在从长期角度推进开源语言模型的发展。文章首先探讨了批量大小和学习率等超参数的缩放规律，并据此指导模型的预训练。接着，作者们构建了一个包含2万亿个标记的数据集，并采用了类似于LLaMA系列模型的架构。通过对不同计算预算下的模型和数据规模进行研究，文章揭示了最佳的模型/数据扩展分配策略，并成功预测了大规模模型的性能。

在预训练阶段，作者们使用了去重、过滤和重新混合的方法来优化数据集。为了提高模型性能，文章采用了多步学习率调度器，并根据缩放规律选择了合适的批量大小和学习率。在模型架构方面，DeepSeek LLM主要遵循了LLaMA的设计，但在宏观设计上有所不同，例如7B模型采用了30层网络，而67B模型采用了95层网络。

在微调阶段，作者们收集了超过100万个实例进行监督微调（SFT），并使用直接偏好优化（DPO）来提高模型的对话性能。文章通过对基础模型和聊天模型进行广泛评估，发现DeepSeek LLM在各种基准测试中均优于LLaMA-2 70B，尤其在代码、数学和推理领域表现更为突出。经过SFT和DPO后，DeepSeek 67B聊天模型在中英文开放式评估中均优于GPT-3.5。

总之，本文通过研究大型语言模型的缩放规律，提出了一种名为DeepSeek LLM的方法，该方法在保持与其他开源模型参数一致的同时，实现了更好的性能。文章还详细讨论了预训练超参数的选择以及微调方法，并通过评估结果展示了DeepSeek LLM在各个领域的优越性能。