卷出天际？用了240T数据！苹果完全开源新大模型DCLM - 文章 - 开发者社区

Apple新开源了一个7B的模型，完全了开源了权重、训练代码、数据集。在MMLU上得分63.72%，高于Mistral，低于LLama3。

picture.image

代码：https://github.com/mlfoundations/dclm 数据: https://huggingface.co/datasets/mlfoundations/dclm-baseline-1.0 论文: DataComp-LM: In search of the next generation of training sets for language models

论文很干，88页。效果的核心还是数据质量，他们从 DCLM-POOL 开始，这是一个源自 Common Crawl 的 240 T个token的语料库（迄今为止最大的语料库），并提供了 5 个尺度的数据集设计的缩放趋势的研究：

picture.image

每个尺度内有两个方向：过滤（必须来自 DCLM-Pool，没有任何外部数据，但可以使用其他模型进行过滤/释义）和混合（允许外部数据）。一个“baseline”过滤示例如下:

picture.image

那 DCLM-Pool 和 FineWeb 相比如何呢？DCLM 在任何规模上都训练得更好！

picture.image

论文详细介绍了数据质量相关的技术，感兴趣的强烈建议查看原文。

PS：给公众号添加【星标⭐️】不迷路！您的点赞、在看、关注 是我坚持的最大动力！

欢迎多多关注公众号「NLP前沿」，加入交流群，交个朋友吧，一起学习，一起进步！