来了!Kimi开源Moonlight-16B-A3B的MoE模型!!

大模型数据库机器学习

言简意赅,发现月之暗面开源MoE模型,总参数量15.29B,激活参数2.24B,使用Muon优化器,在5.7T Tokens的训练数据下,拿到了很好的效果。

Github:https://github.com/MoonshotAI/Moonlight

HF:https://huggingface.co/moonshotai/Moonlight-16B-A3B

Paper:https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf

效果如下:

picture.image

picture.image

比较 Muon 和 Adam 的扩展定律实验,发现Muon 的样本效率比 Adam 高 2 倍。

picture.image

Muon 优化器 原理如下:

picture.image

同时,Moonlight-16B-A3B的模型架构与DeepSeek-V3一致。

HF快速使用:


        
 
   

 
 
        
            

          from transformers import AutoModelForCausalLM, AutoTokenizer
          
   

 
          
   

 
          model\_path = 
          
 "moonshotai/Moonlight-16B-A3B-Instruct"
 
          
   

 
          model = AutoModelForCausalLM.from\_pretrained(
          
   

 
              model\_path,
          
   

 
              torch\_dtype=
          
 "auto"
 
          ,
          
   

 
              device\_map=
          
 "auto"
 
          ,
          
   

 
              trust\_remote\_code=True
          
   

 
          )
          
   

 
          tokenizer = AutoTokenizer.from\_pretrained(model\_path, trust\_remote\_code=True)
          
   

 
          
   

 
          messages = [
          
   

 
              {
          
 "role"
 
          : 
          
 "system"
 
          , 
          
 "content"
 
          : 
          
 "You are a helpful assistant provided by Moonshot-AI."
 
          },
          
   

 
              {
          
 "role"
 
          : 
          
 "user"
 
          , 
          
 "content"
 
          : 
          
 "Is 123 a prime?"
 
          }
          
   

 
          ]
          
   

 
          input\_ids = tokenizer.apply\_chat\_template(messages, add\_generation\_prompt=True, return\_tensors=
          
 "pt"
 
          ).to(model.device)
          
   

 
          generated\_ids = model.generate(inputs=input\_ids, max\_new\_tokens=500)
          
   

 
          response = tokenizer.batch\_decode(generated\_ids)[0]
          
   

 
          
 print
 
          (response)
          
   

 
        
      

PS:看到这里,如果觉得不错,可以来个 点赞在看关注 。 给公众号添加【星标⭐️】不迷路!您的支持是我坚持的最大动力!

欢迎多多关注公众号「NLP工作站」, 加入交流群(3群也满了,等开4群吧) ,交个朋友吧,一起学习,一起进步!

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
抖音连麦音画质体验提升与进阶实践
随着互娱场景实时互动创新玩法层出不穷,业务伙伴对 RTC「体验」和「稳定」的要求越来越高。火山引擎 RTC 经历了抖音 6 亿 DAU 的严苛验证和打磨,在架构设计、音画质提升、高可靠服务等方面沉淀了丰富的经验,本次演讲将和大家分享火山引擎 RTC 在直播连麦等场景中的技术优化及其带来的新玩法。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论