Yi-34B大模型蒸馏版开源（23B、15B、8B） - 文章 - 开发者社区


        
          
https://huggingface.co/collections/ByteWave/distil-yi-models-655a5697ec17c88302ce7ea1

昨天一共开源了3个版本的Yi-34B蒸馏版本，23B、15B、8B

picture.image

除了模型权重之外暂未透漏更多的消息，各个榜的评测结果也是coming soon，感兴趣的小伙伴们可以试试看。后面如果公布更多的训练信息，考虑在更新一次推文。

作者并未提供如何蒸馏得到的模型，如果感兴趣的，这里提供2个印象比较深近期的文章，可以去看看，或者自己去arxiv上找找看。

陈丹奇团队的一个关于预训练阶段模型结构剪枝的工作，首先基于Llama 2-7B结构剪枝，然后预训练50B的token，从大模型中快速获得较小模型的方法，最后的3B模型对比同尺寸的模型很能打。


        
          
Paper: https://arxiv.org/abs/2310.06694  
Code: https://github.com/princeton-nlp/LLM-Shearing  
Models: Sheared-LLaMA-1.3B, Sheared-LLaMA-2.7B  
blog: https://xiamengzhou.github.io/sheared-llama/

他们用到配图很Q

picture.image

微软的一个工作


        
          
https://github.com/microsoft/lorashear  
https://arxiv.org/pdf/2310.18356.pdf

之前的公众号推文发过，想看速读的可以看旧推文，地址如下


        
          
https://mp.weixin.qq.com/s/_zLxnF2S8_MiVs4gwfiJEw

最后还是凑下字数的小节

周末还有一些别的有意思的模型，比如tinyllama的项目训练完2T的token了，模型也开源了


        
          
模型:  
https://huggingface.co/TinyLlama/TinyLlama-1.1B-intermediate-step-955k-token-2T  
github:  
https://github.com/jzhang38/TinyLlama