上周,DeepSeek-V2的发布和热议引发了对多头潜在注意力(MLA)的广泛兴趣!在huggingface热门排行已经排到第7位,社区中的许多人建议开源一个 较小的MoE模型进行深入研究 。
现在, DeepSeek-V2-Lite 发布了:
- 总参数16B,活跃参数2.4B ,从头开始训练使用了5.7T个token
- 在许多英语和中文基准测试中,性能超过了7B密集型和16B MoE
- 可以在 单个40G GPU 上部署,可在 8x80G GPU 上微调
DeepSeek-V2-Lite模型架构:
- DeepSeek-V2-Lite有27层,隐藏维度为2048。它还采用了MLA,并有16个注意力头,每个头的维度为128。
- 它的KV压缩维度为512,但与DeepSeek-V2略有不同,它不压缩查询。对于解耦的查询和键,它每个头的维度为64。
- DeepSeek-V2-Lite还采用了DeepSeekMoE,除了第一层外,所有的FFN都被MoE层替换了。每个MoE层由2个共享专家和64个路由专家组成,每个专家的中间隐藏维度为1408。
在路由专家中,每个token将激活6个专家。
- 在这种配置下,DeepSeek-V2-Lite总共包含15.7B个参数,其中每个token激活了2.4B个参数。
https://hf-mirror.com/deepseek-ai/DeepSeek-V2-Lite-Chat
https://hf-mirror.com/deepseek-ai/DeepSeek-V2-Lite
推荐阅读
- • 对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
- • 2024:ToB、Agent、多模态
- • TA们的RAG真正投产了吗?(上)
- • Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。