2个开源中文moe大模型 + 1个从大模型到moe模型的continual pretraing开源框架

内容安全与风控数据中台云原生可观测

“ 2个在mixtral-8*7b上微调出来的中文模型,一个开源基于大模型造continual pretraing 得到moe模型的框架,地址都在下链接


        
          
https://github.com/WangRongsheng/Aurora  
https://huggingface.co/YeungNLP/firefly-mixtral-8x7b  
  
  
# LLaMA-MoE: Building Mixture-of-Experts from LLaMA with Continual Pre-training  
https://github.com/pjlab-sys4nlp/llama-moe  

      

picture.image

在这篇论文中,作者提出了一种名为LLaMA-MoE的新型稀疏混合专家(MoE)模型。该模型基于现有的大型语言模型(LLM),如LLaMA和ChatGPT,通过将原始模型的前馈神经网络(FFN)划分为多个功能模块(即专家),并对转换后的MoE模型进行持续预训练,以保持其语言能力。与之前的工作不同,LLaMA-MoE专注于解码器风格的LLM,并在每个层次都包含一个MoE模块。

核心观点:

  1. 从现有的解码器风格的LLM构建稀疏MoE模型。
  2. 对SwiGLU-based FFN进行全面探索,实现有效的专家构建。
  3. 构建全MoE模型,使每个层次都包含一个MoE模块。

算法原理:

在构建LLaMA-MoE模型时,首先将原始LLaMA模型的FFN划分为多个专家。然后,通过持续预训练来改善模型性能。具体而言,作者提出了两种类型的专家构建方法:神经元独立和神经元共享。在神经元独立方法中,作者将FFN的参数均匀划分为多个子集;而在神经元共享方法中,作者根据预先聚类的数据组来构建专家。此外,作者还引入了一个缩放因子,并对专家输出进行重新缩放,以保持模型的表示能力。

结论:

通过实验,作者发现LLaMA-MoE模型在各种任务上的性能显著优于具有相似激活参数的其他流行LLM,如OpenLLaMA、Sheared LLaMA和Pythia。特别是,LLaMA-MoE-v1-3.5B模型在激活参数相近的情况下,明显优于其他模型。这表明LLaMA-MoE提供了一种从现有LLM构建MoE模型的有效方法。值得注意的是,该框架可以很容易地应用到更多解码器风格的LLM。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论