MoE参数高效稀疏SFT:骆驼科LLM-39B性能媲美ChatGPT!

火山方舟向量数据库大模型

          
论文题目:Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks
          
论文链接:https://arxiv.org/pdf/2401.02731.pdf
          
代码模型已开源Github:https://github.com/wuhy68/Parameter-Efficient-MoE
      

为解决大型语言模型(LLMs)在 指令调整 (instruction tuning)过程中遇到的 性能限制 问题,提出参数高效稀疏构建( Parameter-Efficient Sparsity Crafting , PESC )方法,它的关键步骤如下:

  1. 稀疏模型的初始化 :论文采用了稀疏升级(Sparse Upcycling)方法,该方法允许从预训练的密集模型中重用权重,从而显著减少了与训练原始密集模型相比所需的计算资源。这包括直接转移层归一化、注意力和嵌入参数,以及用MoE层替换一些多层感知器(MLP)层,并将这些层中的专家初始化为来自密集模型MLP的权重。
  2. 参数高效稀疏构建(PESC) :在MoE层中插入适配器(adapters),这些适配器是小型的可学习模块,可以微调而不影响MoE层中专家的权重。这使得模型能够在不显著增加参数数量的情况下,有效地扩展其容量。
  3. 参数高效专家(Parameter-Efficient Experts) :为了在稀疏Transformer块的训练中更新专家的参数,论文使用了适配器来避免对所有专家权重进行冗余更新。具体来说,通过插入适配器,每个专家的参数只需要更新一次,从而提高了训练效率。
  4. MoE路由策略 :在MoE层中,使用了一个 顶部2门路由器 (top-2 gate router)来为每个输入标记选择最合适的两个专家。这种路由策略允许在保持计算效率的同时,增强模型的容量。
  5. 专家负载平衡 :为了确保专家的均匀使用,论文在训练过程中引入了一个 辅助损失函数 ,以防止某些专家被过度训练。

picture.image

在各个基准测试上的表现,并与现有的稀疏模型和密集模型进行了比较。 Camelidae-8×34B (参数39B)在大多数基准测试中 超过 了现有的稀疏模型,并在某些方面与 GPT-3.5媲美

Camelidae-8×34B整体性能评测

picture.image

Camelidae-8×34B分类性能评测

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
云原生环境下的日志采集存储分析实践
云原生场景下,日志数据的规模和种类剧增,日志采集、加工、分析的多样性也大大增加。面对这些挑战,火山引擎基于超大规模下的 Kubernetes 日志实践孵化出了一套完整的日志采集、加工、查询、分析、消费的平台。本次主要分享了火山引擎云原生日志平台的相关实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论