“ 上周qwen和yi都公布了新的chat模型,这个模型的风头都被抢了,漏发了,补一个分享,先声明一下,超过chatgpt是官方repo自己说的,跟笔者没关系。
https://github.com/deepseek-ai/DeepSeek-LLM
https://huggingface.co/deepseek-ai
一共2个尺寸
下面这张图来自官方github,论画图的艺术
训练细节
数据
主要目标是全面提升数据集的丰富性和多样性。为了实现这一目标,我们已经实施了多种方法,并建立了一个分布式、频繁检查点的批处理系统,名为"cc_cleaner",以增强我们的数据流水线。
我们的最小可行解决方案与RefinedWeb + CCNet有所不同。我们非常感谢他们对AGI研究的无私奉献。
我们还在数据流水线中大量应用了确定性随机化(deterministic randomization)。这种方法使我们能够在漫长而不可预测的训练过程中持续改进我们的数据。
- 数据组成:训练数据包括互联网文本、数学、代码、书籍和遵守robots.txt的自采集数据的多样混合。除了多样的内容外,高度重视个人隐私和版权保护。我们已经从数据集中删除了包含个人信息或受版权限制的所有内容。
- 数据修剪:我们的系统采用启发式规则和模型来优化我们的训练数据。过滤过程删除低质量的网络数据,同时保留宝贵的低资源知识。它旨在提高整体语料库的质量,并消除有害或有毒的内容。
- 去重:先进去重系统使用MinhashLSH,在文档和字符串级别严格去除重复。这个严格的去重过程确保了数据的独特性和完整性,尤其在大规模数据集中至关重要。
预训练
DeepSeek LM模型使用与LLaMA相同的架构,即transformers解码器模型。7B模型使用多头注意力(MHA),而67B模型使用分组查询注意力(GQA)。
我们在一个庞大的数据集上对DeepSeek语言模型进行了预训练,该数据集包含2万亿个token,序列长度为4096,使用了AdamW优化器。
7B模型的训练涉及批量大小为2304和学习率为4.2e-4,而67B模型的训练则使用批量大小为4608和学习率为3.2e-4。
我们在训练过程中采用多步学习率计划。学习率从2000个热身步骤开始,然后在1.6万亿个token处步进到最大值的31.6%,在1.8万亿个标记处步进到最大值的10%。
发布了训练损失曲线和几个基准指标曲线,如下所述。
可商用