DeepSeek-V3-0324 就这么悄咪咪的更新了?

大模型向量数据库云安全

picture.image

DeepSeek-v3 更新到了最新的 0324 版本

目前在 huggingface 和 魔塔社区上面都已经开放了模型权重

picture.image

picture.image

为什么说悄咪咪

因为官网没有任何动态,只在几小时之前上传了模型的权重文件

官网目前最新的新闻还是之前的 DeepSeek R1

picture.image

而且,也还没有 README, 没对外做任何的介绍。

从模型的 config 配置文件上来看,deepseek-ai/DeepSeek-V3 和 deepseek-ai/DeepSeek-V3-0324 没有变动。


        
        
            

          {
          
   

 
            
          
 "architectures"
 
          : [
          
   

 
              
          
 "DeepseekV3ForCausalLM"
 
          
   

 
            ],
          
   

 
          
 "attention\_bias"
 
          : 
          
 false
 
          ,
          
   

 
          
 "attention\_dropout"
 
          : 0.0,
          
   

 
          
 "auto\_map"
 
          : {
          
   

 
              
          
 "AutoConfig"
 
          : 
          
 "configuration\_deepseek.DeepseekV3Config"
 
          ,
          
   

 
              
          
 "AutoModel"
 
          : 
          
 "modeling\_deepseek.DeepseekV3Model"
 
          ,
          
   

 
              
          
 "AutoModelForCausalLM"
 
          : 
          
 "modeling\_deepseek.DeepseekV3ForCausalLM"
 
          
   

 
            },
          
   

 
          
 "aux\_loss\_alpha"
 
          : 0.001,
          
   

 
          
 "bos\_token\_id"
 
          : 0,
          
   

 
          
 "eos\_token\_id"
 
          : 1,
          
   

 
          
 "ep\_size"
 
          : 1,
          
   

 
          
 "first\_k\_dense\_replace"
 
          : 3,
          
   

 
          
 "hidden\_act"
 
          : 
          
 "silu"
 
          ,
          
   

 
          
 "hidden\_size"
 
          : 7168,
          
   

 
          
 "initializer\_range"
 
          : 0.02,
          
   

 
          
 "intermediate\_size"
 
          : 18432,
          
   

 
          
 "kv\_lora\_rank"
 
          : 512,
          
   

 
          
 "max\_position\_embeddings"
 
          : 163840,
          
   

 
          
 "model\_type"
 
          : 
          
 "deepseek\_v3"
 
          ,
          
   

 
          
 "moe\_intermediate\_size"
 
          : 2048,
          
   

 
          
 "moe\_layer\_freq"
 
          : 1,
          
   

 
          
 "n\_group"
 
          : 8,
          
   

 
          
 "n\_routed\_experts"
 
          : 256,
          
   

 
          
 "n\_shared\_experts"
 
          : 1,
          
   

 
          
 "norm\_topk\_prob"
 
          : 
          
 true
 
          ,
          
   

 
          
 "num\_attention\_heads"
 
          : 128,
          
   

 
          
 "num\_experts\_per\_tok"
 
          : 8,
          
   

 
          
 "num\_hidden\_layers"
 
          : 61,
          
   

 
          
 "num\_key\_value\_heads"
 
          : 128,
          
   

 
          
 "num\_nextn\_predict\_layers"
 
          : 1,
          
   

 
          
 "pretraining\_tp"
 
          : 1,
          
   

 
          
 "q\_lora\_rank"
 
          : 1536,
          
   

 
          
 "qk\_nope\_head\_dim"
 
          : 128,
          
   

 
          
 "qk\_rope\_head\_dim"
 
          : 64,
          
   

 
          
 "quantization\_config"
 
          : {
          
   

 
              
          
 "activation\_scheme"
 
          : 
          
 "dynamic"
 
          ,
          
   

 
              
          
 "fmt"
 
          : 
          
 "e4m3"
 
          ,
          
   

 
              
          
 "quant\_method"
 
          : 
          
 "fp8"
 
          ,
          
   

 
              
          
 "weight\_block\_size"
 
          : [
          
   

 
                128,
          
   

 
                128
          
   

 
              ]
          
   

 
            },
          
   

 
          
 "rms\_norm\_eps"
 
          : 1e-06,
          
   

 
          
 "rope\_scaling"
 
          : {
          
   

 
              
          
 "beta\_fast"
 
          : 32,
          
   

 
              
          
 "beta\_slow"
 
          : 1,
          
   

 
              
          
 "factor"
 
          : 40,
          
   

 
              
          
 "mscale"
 
          : 1.0,
          
   

 
              
          
 "mscale\_all\_dim"
 
          : 1.0,
          
   

 
              
          
 "original\_max\_position\_embeddings"
 
          : 4096,
          
   

 
              
          
 "type"
 
          : 
          
 "yarn"
 
          
   

 
            },
          
   

 
          
 "rope\_theta"
 
          : 10000,
          
   

 
          
 "routed\_scaling\_factor"
 
          : 2.5,
          
   

 
          
 "scoring\_func"
 
          : 
          
 "sigmoid"
 
          ,
          
   

 
          
 "seq\_aux"
 
          : 
          
 true
 
          ,
          
   

 
          
 "tie\_word\_embeddings"
 
          : 
          
 false
 
          ,
          
   

 
          
 "topk\_group"
 
          : 4,
          
   

 
          
 "topk\_method"
 
          : 
          
 "noaux\_tc"
 
          ,
          
   

 
          
 "torch\_dtype"
 
          : 
          
 "bfloat16"
 
          ,
          
   

 
          
 "transformers\_version"
 
          : 
          
 "4.46.3"
 
          ,
          
   

 
          
 "use\_cache"
 
          : 
          
 true
 
          ,
          
   

 
          
 "v\_head\_dim"
 
          : 128,
          
   

 
          
 "vocab\_size"
 
          : 129280
          
   

 
          }
          
   

 
        
      

所以模型的训练方式上面应该没有改动。

还是维持 256 个专家混合专家模型(MoE)架构。

具体的更新内容还没有做更新,也不好猜测,等官网进一步通知。

有人说官网应更新了

picture.image

picture.image

picture.image

我们关掉联网搜索和 DeepSeek R1 的选项,就是 DeepSeek-V3 的最新版本了。

我们尝试问下版本名称和知识库时间,回答如下

picture.image

知识库截止时间是 2024 年 7 月

DeepSeek-V3 知识库的这个知识库截止时间记不清了

官网 V3 版本是否更新了,知道的评论区敲下~

各大公司可以开始替换了

huggingface 模型链接:https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/tree/main

魔塔社区:https://www.modelscope.cn/models/AI-ModelScope/DeepSeek-V3-0324/files

DeepSeek 官网:https://www.deepseek.com/

picture.image

最后

静待公开模型评测结果,看在哪方面飞跃了

之前的版本能够和闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。

picture.image

现在是否能够比肩 Claude-3.7-Sonnet?

END

我是大林,持续关注 AI 发展,和大家一起交流。微信(dalinvip2023),备注【公众号 AIGC】,进 AIGC 交流群一起交流。

主页:https://www.dalinaip.com/about

picture.image

如果文章对你有一点点 🤏🏻 帮助, 关注公众号并【星标】 ,可以及时收到最新 AI 信息, 点赞、在看、转发给更多的朋友,后面我继续分享更多的 AI 内容。

往期推荐

StarVector,从图像和文本生成SVG的开源模型,最大的只有8B, 可以自己部署

混元-T1: 强化学习驱动,业内首个超大规模混合Mamba推理模型正式发布

PLZ,别再误解大模型联网搜索了

DeepSeek这个大好人,官方公布的他们的系统提示词,让全网都能体验最佳效果

再推荐一个 DeepSeek R1 满血版平替,具备联网和知识库功能

图解 DeepSeek R1 从 0 到 1 的过程,浅显易懂,值得收藏

全网的DeepSeek 满血版平替,我也只推荐两个

AI虚拟试衣为什么还没有大规模落地?

prompt 提示词工程免费的学习课程都在这了

从 0 到 1 的Prompt 教程,来自Claude 官方,不会写 prompt的看这个足够

15 种高级 RAG 技术,值得收藏!

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论