Apple新开源了一个7B的模型,完全了开源了权重、训练代码、数据集。 在MMLU上得分63.72%,高于Mistral,低于LLama3。
代码:https://github.com/mlfoundations/dclm 数据: https://huggingface.co/datasets/mlfoundations/dclm-baseline-1.0 论文: DataComp-LM: In search of the next generation of training sets for language models
论文很干,88页。效果的核心还是数据质量,他们从 DCLM-POOL 开始,这是一个源自 Common Crawl 的 240 T个token的语料库(迄今为止最大的语料库),并提供了 5 个尺度的数据集设计的缩放趋势的研究:
每个尺度内有两个方向:过滤(必须来自 DCLM-Pool,没有任何外部数据,但可以使用其他模型进行过滤/释义)和混合(允许外部数据)。一个“baseline”过滤示例如下:
那 DCLM-Pool 和 FineWeb 相比如何呢?DCLM 在任何规模上都训练得更好!
论文详细介绍了数据质量相关的技术,感兴趣的强烈建议查看原文。
PS:给公众号添加【星标⭐️】不迷路!您的点赞、在看、关注 是我坚持的最大动力!
欢迎多多关注公众号「NLP前沿」,加入交流群,交个朋友吧,一起学习,一起进步!
最新文章推荐阅读