Yi-34B大模型蒸馏版开源(23B、15B、8B)


        
          
https://huggingface.co/collections/ByteWave/distil-yi-models-655a5697ec17c88302ce7ea1  

      

昨天一共开源了3个版本的Yi-34B蒸馏版本,23B、15B、8B

picture.image

除了模型权重之外暂未透漏更多的消息,各个榜的评测结果也是coming soon,感兴趣的小伙伴们可以试试看。后面如果公布更多的训练信息,考虑在更新一次推文。

作者并未提供如何蒸馏得到的模型,如果感兴趣的,这里提供2个印象比较深近期的文章,可以去看看,或者自己去arxiv上找找看。

陈丹奇团队的一个关于预训练阶段模型结构剪枝的工作,首先基于Llama 2-7B结构剪枝,然后预训练50B的token,从大模型中快速获得较小模型的方法,最后的3B模型对比同尺寸的模型很能打。


        
          
Paper: https://arxiv.org/abs/2310.06694  
Code: https://github.com/princeton-nlp/LLM-Shearing  
Models: Sheared-LLaMA-1.3B, Sheared-LLaMA-2.7B  
blog: https://xiamengzhou.github.io/sheared-llama/  

      

他们用到配图很Q

picture.image

微软的一个工作


        
          
https://github.com/microsoft/lorashear  
https://arxiv.org/pdf/2310.18356.pdf  

      

之前的公众号推文发过,想看速读的可以看旧推文,地址如下


        
          
https://mp.weixin.qq.com/s/_zLxnF2S8_MiVs4gwfiJEw  

      

最后还是凑下字数的小节

周末还有一些别的有意思的模型,比如tinyllama的项目训练完2T的token了,模型也开源了


        
          
模型:  
https://huggingface.co/TinyLlama/TinyLlama-1.1B-intermediate-step-955k-token-2T  
github:  
https://github.com/jzhang38/TinyLlama  

      
0
0
0
0
评论
未登录
暂无评论