三连发!1.7B小模型把大厂干懵了~

大模型GPU机器学习

周末,huggingface、meta、amd 均开源了SLM, 最优秀的是huggingface家的smolLm2,同规模能打过qwen2.5、llama3.2

AMD-OLMO系列

picture.image

OLMO 完全开源系列,AMD-OLMo 是由 AMD 在 AMD Instinct™ MI250 GPU 上从头开始训练的 1B 语言模型系列。所使用的训练代码基于 OLMo。发布了预训练模型、监督微调模型和 DPO 对齐模型,具体如下:

  • AMD-OLMo-1B:在 Dolma v1.7 的一个子集上预训练,该子集包含 1.3 T token。
  • AMD-OLMo-1B-SFT:在 Tulu V2 数据集上进行监督微调(第一阶段),然后在 OpenHermes-2.5、WebInstructSub 和 Code-Feedback 数据集上进行(第二阶段)。
  • AMD-OLMo-1B-SFT-DPO:在 UltraFeedback 数据集上使用直接偏好优化(DPO)与人类偏好对齐。

具体效果不贴了,OLMO系列的模型对标的是tinyllama这些

Huggingface-SmolLM2系列

picture.image

SmolLM2 是一款紧凑型语言模型家族,提供三种规模:135M, 360M,1.7B参数。它们能够解决各种任务,同时足够轻量,可在设备上运行。

1.7B 版本在指令遵循、知识、推理和数学方面相较于其前身 SmolLM1-1.7B 取得了显著进步。它使用了 11T 标记进行训练,数据集组合包括 FineWeb-Edu、DCLM、The Stack,以及我们精心制作的新的数学和编码数据集,这些数据集将很快发布。我们通过使用公共数据集和自制的精心制作的数据集进行监督微调(SFT)来开发指令版本。然后,我们应用了直接偏好优化(DPO)和 UltraFeedback。

效果:

picture.image

Meta-MobileLM系列

picture.image

MobileLLM 是一种自回归语言模型,它利用优化的 Transformer 架构,专门为资源受限的设备应用而设计。MobileLLM 集成了多项关键技术,包括:(1) SwiGLU activation function, (2) deep and thin architectures, (3) embedding sharing, (4) grouped-query attention. 。MobileLLM-125M/350M 在零样本常识推理任务上,相较于之前的 125M/350M SoTA 模型,实现了 2.7%/4.3% 的准确率提升。在我们的更新版本中,我们进一步证明了我们的设计理念能够有效扩展到更大的模型,MobileLLM-600M/1B/1.5B 模型取得了 SoTA 结果。picture.image

这里对比的也是一些老模型,训练耗时如下:

picture.image

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论