bigcode 发布StarCoder2 代码模型(3B、15B、72B) 及最大规模代码数据集


        
          
https://huggingface.co/blog/starcoder2  
https://huggingface.co/datasets/bigcode/the-stack-v2  
https://drive.google.com/file/d/17iGn3c-sYNiLyRSY-A85QOzgzGnGiVI3/view  
https://huggingface.co/bigcode/starcoder2-15b  

      
What is StarCoder2?

StarCoder2是一系列用于编程的开放LLM,有3种不同的尺寸,分别为3B、7B和15B参数。StarCoder2-15B是在The Stack v2上训练的,使用了超过4万亿个token和600多种编程语言。所有模型都使用了grouped query 注意力,一个包含16384个token的上下文窗口,以及一个包含4096个token的sliding window注意力,并且是使用了Fill-in-the-Middle进行训练。

StarCoder2提供了三种模型尺寸:由ServiceNow训练的30亿参数模型,由Hugging Face训练的70亿参数模型,以及由NVIDIA使用NVIDIA NeMo在NVIDIA加速基础设施上训练的150亿参数模型:

  • StarCoder2-3B是在The Stack v2上使用17种编程语言训练的,包含了30万亿个token。
  • StarCoder2-7B是在The Stack v2上使用17种编程语言训练的,包含了35万亿个token。
  • StarCoder2-15B是在The Stack v2上使用600多种编程语言训练的,包含了40万亿个token。

StarCoder2-15B在其尺寸类别中表现最佳,并在许多评估中与33B+模型相匹配。StarCoder2-3B的性能与StarCoder1-15B相匹配。

picture.image

What is The Stack v2?

The Stack v2 是最大的开放代码数据集,适用于LLM预训练。The Stack v2 比 The Stack v1 更大,遵循了改进的语言和许可检测程序,以及更好的过滤启发式算法。此外,训练数据集按存储库分组,可以训练具有存储库上下文的模型。

picture.image

0
0
0
0
评论
未登录
暂无评论