论文题目:Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks
论文链接:https://arxiv.org/pdf/2401.02731.pdf
代码模型已开源Github:https://github.com/wuhy68/Parameter-Efficient-MoE
为解决大型语言模型(LLMs)在 指令调整 (instruction tuning)过程中遇到的 性能限制 问题,提出参数高效稀疏构建( Parameter-Efficient Sparsity Crafting , PESC )方法,它的关键步骤如下:
- 稀疏模型的初始化 :论文采用了稀疏升级(Sparse Upcycling)方法,该方法允许从预训练的密集模型中重用权重,从而显著减少了与训练原始密集模型相比所需的计算资源。这包括直接转移层归一化、注意力和嵌入参数,以及用MoE层替换一些多层感知器(MLP)层,并将这些层中的专家初始化为来自密集模型MLP的权重。
- 参数高效稀疏构建(PESC) :在MoE层中插入适配器(adapters),这些适配器是小型的可学习模块,可以微调而不影响MoE层中专家的权重。这使得模型能够在不显著增加参数数量的情况下,有效地扩展其容量。
- 参数高效专家(Parameter-Efficient Experts) :为了在稀疏Transformer块的训练中更新专家的参数,论文使用了适配器来避免对所有专家权重进行冗余更新。具体来说,通过插入适配器,每个专家的参数只需要更新一次,从而提高了训练效率。
- MoE路由策略 :在MoE层中,使用了一个 顶部2门路由器 (top-2 gate router)来为每个输入标记选择最合适的两个专家。这种路由策略允许在保持计算效率的同时,增强模型的容量。
- 专家负载平衡 :为了确保专家的均匀使用,论文在训练过程中引入了一个 辅助损失函数 ,以防止某些专家被过度训练。
在各个基准测试上的表现,并与现有的稀疏模型和密集模型进行了比较。 Camelidae-8×34B (参数39B)在大多数基准测试中 超过 了现有的稀疏模型,并在某些方面与 GPT-3.5 相 媲美 。
Camelidae-8×34B整体性能评测
Camelidae-8×34B分类性能评测