DeepSeek-V3-0324 就这么悄咪咪的更新了？ - 文章 - 开发者社区

picture.image

DeepSeek-v3 更新到了最新的 0324 版本

目前在 huggingface 和魔塔社区上面都已经开放了模型权重

picture.image

为什么说悄咪咪

因为官网没有任何动态，只在几小时之前上传了模型的权重文件

官网目前最新的新闻还是之前的 DeepSeek R1

picture.image

而且，也还没有 README，没对外做任何的介绍。

从模型的 config 配置文件上来看，deepseek-ai/DeepSeek-V3 和 deepseek-ai/DeepSeek-V3-0324 没有变动。


        
        
            

          {
          
   

 
            
          
 "architectures"
 
          : [
          
   

 
              
          
 "DeepseekV3ForCausalLM"
 
          
   

 
            ],
          
   

 
          
 "attention\_bias"
 
          : 
          
 false
 
          ,
          
   

 
          
 "attention\_dropout"
 
          : 0.0,
          
   

 
          
 "auto\_map"
 
          : {
          
   

 
              
          
 "AutoConfig"
 
          : 
          
 "configuration\_deepseek.DeepseekV3Config"
 
          ,
          
   

 
              
          
 "AutoModel"
 
          : 
          
 "modeling\_deepseek.DeepseekV3Model"
 
          ,
          
   

 
              
          
 "AutoModelForCausalLM"
 
          : 
          
 "modeling\_deepseek.DeepseekV3ForCausalLM"
 
          
   

 
            },
          
   

 
          
 "aux\_loss\_alpha"
 
          : 0.001,
          
   

 
          
 "bos\_token\_id"
 
          : 0,
          
   

 
          
 "eos\_token\_id"
 
          : 1,
          
   

 
          
 "ep\_size"
 
          : 1,
          
   

 
          
 "first\_k\_dense\_replace"
 
          : 3,
          
   

 
          
 "hidden\_act"
 
          : 
          
 "silu"
 
          ,
          
   

 
          
 "hidden\_size"
 
          : 7168,
          
   

 
          
 "initializer\_range"
 
          : 0.02,
          
   

 
          
 "intermediate\_size"
 
          : 18432,
          
   

 
          
 "kv\_lora\_rank"
 
          : 512,
          
   

 
          
 "max\_position\_embeddings"
 
          : 163840,
          
   

 
          
 "model\_type"
 
          : 
          
 "deepseek\_v3"
 
          ,
          
   

 
          
 "moe\_intermediate\_size"
 
          : 2048,
          
   

 
          
 "moe\_layer\_freq"
 
          : 1,
          
   

 
          
 "n\_group"
 
          : 8,
          
   

 
          
 "n\_routed\_experts"
 
          : 256,
          
   

 
          
 "n\_shared\_experts"
 
          : 1,
          
   

 
          
 "norm\_topk\_prob"
 
          : 
          
 true
 
          ,
          
   

 
          
 "num\_attention\_heads"
 
          : 128,
          
   

 
          
 "num\_experts\_per\_tok"
 
          : 8,
          
   

 
          
 "num\_hidden\_layers"
 
          : 61,
          
   

 
          
 "num\_key\_value\_heads"
 
          : 128,
          
   

 
          
 "num\_nextn\_predict\_layers"
 
          : 1,
          
   

 
          
 "pretraining\_tp"
 
          : 1,
          
   

 
          
 "q\_lora\_rank"
 
          : 1536,
          
   

 
          
 "qk\_nope\_head\_dim"
 
          : 128,
          
   

 
          
 "qk\_rope\_head\_dim"
 
          : 64,
          
   

 
          
 "quantization\_config"
 
          : {
          
   

 
              
          
 "activation\_scheme"
 
          : 
          
 "dynamic"
 
          ,
          
   

 
              
          
 "fmt"
 
          : 
          
 "e4m3"
 
          ,
          
   

 
              
          
 "quant\_method"
 
          : 
          
 "fp8"
 
          ,
          
   

 
              
          
 "weight\_block\_size"
 
          : [
          
   

 
                128,
          
   

 
                128
          
   

 
              ]
          
   

 
            },
          
   

 
          
 "rms\_norm\_eps"
 
          : 1e-06,
          
   

 
          
 "rope\_scaling"
 
          : {
          
   

 
              
          
 "beta\_fast"
 
          : 32,
          
   

 
              
          
 "beta\_slow"
 
          : 1,
          
   

 
              
          
 "factor"
 
          : 40,
          
   

 
              
          
 "mscale"
 
          : 1.0,
          
   

 
              
          
 "mscale\_all\_dim"
 
          : 1.0,
          
   

 
              
          
 "original\_max\_position\_embeddings"
 
          : 4096,
          
   

 
              
          
 "type"
 
          : 
          
 "yarn"
 
          
   

 
            },
          
   

 
          
 "rope\_theta"
 
          : 10000,
          
   

 
          
 "routed\_scaling\_factor"
 
          : 2.5,
          
   

 
          
 "scoring\_func"
 
          : 
          
 "sigmoid"
 
          ,
          
   

 
          
 "seq\_aux"
 
          : 
          
 true
 
          ,
          
   

 
          
 "tie\_word\_embeddings"
 
          : 
          
 false
 
          ,
          
   

 
          
 "topk\_group"
 
          : 4,
          
   

 
          
 "topk\_method"
 
          : 
          
 "noaux\_tc"
 
          ,
          
   

 
          
 "torch\_dtype"
 
          : 
          
 "bfloat16"
 
          ,
          
   

 
          
 "transformers\_version"
 
          : 
          
 "4.46.3"
 
          ,
          
   

 
          
 "use\_cache"
 
          : 
          
 true
 
          ,
          
   

 
          
 "v\_head\_dim"
 
          : 128,
          
   

 
          
 "vocab\_size"
 
          : 129280
          
   

 
          }