MoE参数高效稀疏SFT：骆驼科LLM-39B性能媲美ChatGPT！ - 文章 - 开发者社区


          
论文题目：Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks
          
论文链接：https://arxiv.org/pdf/2401.02731.pdf
          
代码模型已开源Github：https://github.com/wuhy68/Parameter-Efficient-MoE

为解决大型语言模型（LLMs）在 指令调整 （instruction tuning）过程中遇到的 性能限制 问题，提出参数高效稀疏构建（ Parameter-Efficient Sparsity Crafting , PESC ）方法，它的关键步骤如下：

稀疏模型的初始化 ：论文采用了稀疏升级（Sparse Upcycling）方法，该方法允许从预训练的密集模型中重用权重，从而显著减少了与训练原始密集模型相比所需的计算资源。这包括直接转移层归一化、注意力和嵌入参数，以及用MoE层替换一些多层感知器（MLP）层，并将这些层中的专家初始化为来自密集模型MLP的权重。
参数高效稀疏构建（PESC） ：在MoE层中插入适配器（adapters），这些适配器是小型的可学习模块，可以微调而不影响MoE层中专家的权重。这使得模型能够在不显著增加参数数量的情况下，有效地扩展其容量。
参数高效专家（Parameter-Efficient Experts） ：为了在稀疏Transformer块的训练中更新专家的参数，论文使用了适配器来避免对所有专家权重进行冗余更新。具体来说，通过插入适配器，每个专家的参数只需要更新一次，从而提高了训练效率。
MoE路由策略 ：在MoE层中，使用了一个 顶部2门路由器 （top-2 gate router）来为每个输入标记选择最合适的两个专家。这种路由策略允许在保持计算效率的同时，增强模型的容量。
专家负载平衡 ：为了确保专家的均匀使用，论文在训练过程中引入了一个 辅助损失函数 ，以防止某些专家被过度训练。

picture.image

在各个基准测试上的表现，并与现有的稀疏模型和密集模型进行了比较。 Camelidae-8×34B （参数39B）在大多数基准测试中超过了现有的稀疏模型，并在某些方面与 GPT-3.5 相媲美。

Camelidae-8×34B整体性能评测

picture.image

Camelidae-8×34B分类性能评测

picture.image