卷出天际?用了240T数据!苹果完全开源新大模型DCLM

开发与运维容器服务容器与中间件

Apple新开源了一个7B的模型,完全了开源了权重、训练代码、数据集。 在MMLU上得分63.72%,高于Mistral,低于LLama3。

picture.image

代码:https://github.com/mlfoundations/dclm 数据: https://huggingface.co/datasets/mlfoundations/dclm-baseline-1.0 论文: DataComp-LM: In search of the next generation of training sets for language models

论文很干,88页。效果的核心还是数据质量,他们从 DCLM-POOL 开始,这是一个源自 Common Crawl 的 240 T个token的语料库(迄今为止最大的语料库),并提供了 5 个尺度的数据集设计的缩放趋势的研究:

picture.image

每个尺度内有两个方向:过滤(必须来自 DCLM-Pool,没有任何外部数据,但可以使用其他模型进行过滤/释义)和混合(允许外部数据)。一个“baseline”过滤示例如下:

picture.image

那 DCLM-Pool 和 FineWeb 相比如何呢?DCLM 在任何规模上都训练得更好!

picture.image

论文详细介绍了数据质量相关的技术,感兴趣的强烈建议查看原文。

PS:给公众号添加【星标⭐️】不迷路!您的点赞、在看、关注 是我坚持的最大动力!

欢迎多多关注公众号「NLP前沿」,加入交流群,交个朋友吧,一起学习,一起进步!

最新文章推荐阅读

RAG全景图:从RAG启蒙到高级RAG之36技,再到终章Agentic RAG!

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论