https://huggingface.co/collections/ByteWave/distil-yi-models-655a5697ec17c88302ce7ea1
昨天一共开源了3个版本的Yi-34B蒸馏版本,23B、15B、8B
除了模型权重之外暂未透漏更多的消息,各个榜的评测结果也是coming soon,感兴趣的小伙伴们可以试试看。后面如果公布更多的训练信息,考虑在更新一次推文。
作者并未提供如何蒸馏得到的模型,如果感兴趣的,这里提供2个印象比较深近期的文章,可以去看看,或者自己去arxiv上找找看。
陈丹奇团队的一个关于预训练阶段模型结构剪枝的工作,首先基于Llama 2-7B结构剪枝,然后预训练50B的token,从大模型中快速获得较小模型的方法,最后的3B模型对比同尺寸的模型很能打。
Paper: https://arxiv.org/abs/2310.06694
Code: https://github.com/princeton-nlp/LLM-Shearing
Models: Sheared-LLaMA-1.3B, Sheared-LLaMA-2.7B
blog: https://xiamengzhou.github.io/sheared-llama/
他们用到配图很Q
微软的一个工作
https://github.com/microsoft/lorashear
https://arxiv.org/pdf/2310.18356.pdf
之前的公众号推文发过,想看速读的可以看旧推文,地址如下
https://mp.weixin.qq.com/s/_zLxnF2S8_MiVs4gwfiJEw
最后还是凑下字数的小节
周末还有一些别的有意思的模型,比如tinyllama的项目训练完2T的token了,模型也开源了
模型:
https://huggingface.co/TinyLlama/TinyLlama-1.1B-intermediate-step-955k-token-2T
github:
https://github.com/jzhang38/TinyLlama
