Deepseek 大模型发布50页新技术报告

火山方舟向量数据库大模型

“ 应该是含金量很高的一份技术报告了,才挂到arxiv,全文48页,作者都有几十个,可以直接看原文,或者等几天应该有大佬发博客具体讲吧~


        
          
https://arxiv.org/pdf/2401.02954.pdf  

      

picture.image

本文研究了大型开源语言模型(LLM)的扩展规律,提出了一种名为DeepSeek LLM的方法,旨在从长期角度推进开源语言模型的发展。文章首先探讨了批量大小和学习率等超参数的缩放规律,并据此指导模型的预训练。接着,作者们构建了一个包含2万亿个标记的数据集,并采用了类似于LLaMA系列模型的架构。通过对不同计算预算下的模型和数据规模进行研究,文章揭示了最佳的模型/数据扩展分配策略,并成功预测了大规模模型的性能。

在预训练阶段,作者们使用了去重、过滤和重新混合的方法来优化数据集。为了提高模型性能,文章采用了多步学习率调度器,并根据缩放规律选择了合适的批量大小和学习率。在模型架构方面,DeepSeek LLM主要遵循了LLaMA的设计,但在宏观设计上有所不同,例如7B模型采用了30层网络,而67B模型采用了95层网络。

在微调阶段,作者们收集了超过100万个实例进行监督微调(SFT),并使用直接偏好优化(DPO)来提高模型的对话性能。文章通过对基础模型和聊天模型进行广泛评估,发现DeepSeek LLM在各种基准测试中均优于LLaMA-2 70B,尤其在代码、数学和推理领域表现更为突出。经过SFT和DPO后,DeepSeek 67B聊天模型在中英文开放式评估中均优于GPT-3.5。

总之,本文通过研究大型语言模型的缩放规律,提出了一种名为DeepSeek LLM的方法,该方法在保持与其他开源模型参数一致的同时,实现了更好的性能。文章还详细讨论了预训练超参数的选择以及微调方法,并通过评估结果展示了DeepSeek LLM在各个领域的优越性能。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论