来了!Kimi开源Moonlight-16B-A3B的MoE模型!!

大模型数据库机器学习

言简意赅,发现月之暗面开源MoE模型,总参数量15.29B,激活参数2.24B,使用Muon优化器,在5.7T Tokens的训练数据下,拿到了很好的效果。

Github:https://github.com/MoonshotAI/Moonlight

HF:https://huggingface.co/moonshotai/Moonlight-16B-A3B

Paper:https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf

效果如下:

picture.image

picture.image

比较 Muon 和 Adam 的扩展定律实验,发现Muon 的样本效率比 Adam 高 2 倍。

picture.image

Muon 优化器 原理如下:

picture.image

同时,Moonlight-16B-A3B的模型架构与DeepSeek-V3一致。

HF快速使用:


        
 
   

 
 
        
            

          from transformers import AutoModelForCausalLM, AutoTokenizer
          
   

 
          
   

 
          model\_path = 
          
 "moonshotai/Moonlight-16B-A3B-Instruct"
 
          
   

 
          model = AutoModelForCausalLM.from\_pretrained(
          
   

 
              model\_path,
          
   

 
              torch\_dtype=
          
 "auto"
 
          ,
          
   

 
              device\_map=
          
 "auto"
 
          ,
          
   

 
              trust\_remote\_code=True
          
   

 
          )
          
   

 
          tokenizer = AutoTokenizer.from\_pretrained(model\_path, trust\_remote\_code=True)
          
   

 
          
   

 
          messages = [
          
   

 
              {
          
 "role"
 
          : 
          
 "system"
 
          , 
          
 "content"
 
          : 
          
 "You are a helpful assistant provided by Moonshot-AI."
 
          },
          
   

 
              {
          
 "role"
 
          : 
          
 "user"
 
          , 
          
 "content"
 
          : 
          
 "Is 123 a prime?"
 
          }
          
   

 
          ]
          
   

 
          input\_ids = tokenizer.apply\_chat\_template(messages, add\_generation\_prompt=True, return\_tensors=
          
 "pt"
 
          ).to(model.device)
          
   

 
          generated\_ids = model.generate(inputs=input\_ids, max\_new\_tokens=500)
          
   

 
          response = tokenizer.batch\_decode(generated\_ids)[0]
          
   

 
          
 print
 
          (response)
          
   

 
        
      

PS:看到这里,如果觉得不错,可以来个 点赞在看关注 。 给公众号添加【星标⭐️】不迷路!您的支持是我坚持的最大动力!

欢迎多多关注公众号「NLP工作站」, 加入交流群(3群也满了,等开4群吧) ,交个朋友吧,一起学习,一起进步!

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎 EMR 基于 Proton 的存算分离实践
EMR 团队针对这些挑战自研了 Proton 加速引擎,深度优化对象存储读写能力,与 Hive/Spark/Trino 等计算引擎集成后,在不改变用户使用习惯的前提条件下,可提供对象存储数据集的透明加速服务。在离线场景下,其性能基本持平存算一体架构。本次分享将介绍 Proton 技术能力和最佳实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论