轻量级DeepSeek-V2-Lite开源,16B,活跃参数2.4B,40G可部署

向量数据库大模型智能语音交互

上周,DeepSeek-V2的发布和热议引发了对多头潜在注意力(MLA)的广泛兴趣!在huggingface热门排行已经排到第7位,社区中的许多人建议开源一个 较小的MoE模型进行深入研究

picture.image

现在, DeepSeek-V2-Lite 发布了:

  • 总参数16B,活跃参数2.4B ,从头开始训练使用了5.7T个token
  • 在许多英语和中文基准测试中,性能超过了7B密集型和16B MoE
  • 可以在 单个40G GPU 上部署,可在 8x80G GPU 上微调

DeepSeek-V2-Lite模型架构:

  • DeepSeek-V2-Lite有27层,隐藏维度为2048。它还采用了MLA,并有16个注意力头,每个头的维度为128。
  • 它的KV压缩维度为512,但与DeepSeek-V2略有不同,它不压缩查询。对于解耦的查询和键,它每个头的维度为64。
  • DeepSeek-V2-Lite还采用了DeepSeekMoE,除了第一层外,所有的FFN都被MoE层替换了。每个MoE层由2个共享专家和64个路由专家组成,每个专家的中间隐藏维度为1408。

在路由专家中,每个token将激活6个专家。

  • 在这种配置下,DeepSeek-V2-Lite总共包含15.7B个参数,其中每个token激活了2.4B个参数。

picture.image


          
https://hf-mirror.com/deepseek-ai/DeepSeek-V2-Lite-Chat
          
https://hf-mirror.com/deepseek-ai/DeepSeek-V2-Lite
      

推荐阅读


欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论