OLMoE，首个“完全开源”MOE模型，干货满满 - 文章 - 开发者社区

论文笔记分享，Allenai刚发的文章OLMoE:OpenMixture-of-ExpertsLanguageModels。另外今天有一个GPT-next的OAI的新闻，就一张图，没法编内容不发了。

完全开源系列：

picture.image

正常的MOE结构，用到了qk norm

picture.image

全文61页，细节满满，感兴趣的同学可以自己看。这里简单提一些有意思的点~

1B-7BMOE vs 1B / 7B dense起点更高，终点接近或超过7B全量全参dense的效果 picture.image

更细粒度的专家组合可以得到更好的训练损失，但是收益递减。（这里提到了很多相关的研究，去做预测最优组合） picture.image

共享专家会消除模型的灵活性，让性能更差，与一些历史研究不符 picture.image

确定哪些专家处理每个输入token ，有2种类型

相同的预算下，TC稳定优于EC picture.image

专家是从头初始化，还是从MLP复制得到。实验发现只需要几百B的token，从头开始的模型就赶上了复制的结果，从600B token之后优于复制的结果。 picture.image

使用负载平衡损失也能带来更好的性能 picture.image

picture.image

路由z-loss可以提高MoE模型的稳定性和质量。这个辅助损失会惩罚进入门控网络的大logits picture.image

picture.image

预训练的早期阶段路由就达到了饱和状态 picture.image

训练结束后，通一层的专家之间不存在强协同激活，也就是说不同专家之间几乎没有冗余 picture.image

专家对于特定领域和词汇的专业化程度区分度还是比较高的。某些专家可能专门处理一些科学相关的，（如arXiv数据集），而其他专家可能更擅长处理编程语言或一般文本。 picture.image

最后还是强烈推荐原文，干干的~