卷出天际?用了240T数据!苹果完全开源新大模型DCLM
评论区

卷出天际?用了240T数据!苹果完全开源新大模型DCLM

NLP前沿
NLP前沿
2024-07-23
开发与运维容器服务容器与中间件
推荐
容器服务
了解详情 
通过深度融合新一代云原生技术,提供以容器为核心的高性能 Kubernetes 容器集群管理服务

Apple新开源了一个7B的模型,完全了开源了权重、训练代码、数据集。 在MMLU上得分63.72%,高于Mistral,低于LLama3。

picture.image

代码:https://github.com/mlfoundations/dclm 数据: https://huggingface.co/datasets/mlfoundations/dclm-baseline-1.0 论文: DataComp-LM: In search of the next generation of training sets for language models

论文很干,88页。效果的核心还是数据质量,他们从 DCLM-POOL 开始,这是一个源自 Common Crawl 的 240 T个token的语料库(迄今为止最大的语料库),并提供了 5 个尺度的数据集设计的缩放趋势的研究:

picture.image

每个尺度内有两个方向:过滤(必须来自 DCLM-Pool,没有任何外部数据,但可以使用其他模型进行过滤/释义)和混合(允许外部数据)。一个“baseline”过滤示例如下:

picture.image

那 DCLM-Pool 和 FineWeb 相比如何呢?DCLM 在任何规模上都训练得更好!

picture.image

论文详细介绍了数据质量相关的技术,感兴趣的强烈建议查看原文。

PS:给公众号添加【星标⭐️】不迷路!您的点赞、在看、关注 是我坚持的最大动力!

欢迎多多关注公众号「NLP前沿」,加入交流群,交个朋友吧,一起学习,一起进步!

最新文章推荐阅读

RAG全景图:从RAG启蒙到高级RAG之36技,再到终章Agentic RAG!

109
0
0
0
关于作者
相关活动
AI 智能体线上挑战赛——游戏主题快闪
邀请广大的开发者利用 AI 的力量,围绕当下热门的游戏主题展开探索,开发出具有创造性的智能体。本次比赛为每位参赛者配备至多千万级的豆包大模型免费额度,助力开发者发挥无限创意!
相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
推荐
容器服务
通过深度融合新一代云原生技术,提供以容器为核心的高性能 Kubernetes 容器集群管理服务
了解详情 
镜像仓库
提供安全高可用的容器镜像托管服务,方便用户对容器镜像进行全生命周期管理
了解详情 
分布式云原生平台
分布式云原生平台是面向多云多集群场景的企业级云原生统一管理平台
了解详情 
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论