bigcode 发布StarCoder2 代码模型（3B、15B、72B）及最大规模代码数据集


        
          
https://huggingface.co/blog/starcoder2  
https://huggingface.co/datasets/bigcode/the-stack-v2  
https://drive.google.com/file/d/17iGn3c-sYNiLyRSY-A85QOzgzGnGiVI3/view  
https://huggingface.co/bigcode/starcoder2-15b

What is StarCoder2?

StarCoder2是一系列用于编程的开放LLM，有3种不同的尺寸，分别为3B、7B和15B参数。StarCoder2-15B是在The Stack v2上训练的，使用了超过4万亿个token和600多种编程语言。所有模型都使用了grouped query 注意力，一个包含16384个token的上下文窗口，以及一个包含4096个token的sliding window注意力，并且是使用了Fill-in-the-Middle进行训练。

StarCoder2提供了三种模型尺寸：由ServiceNow训练的30亿参数模型，由Hugging Face训练的70亿参数模型，以及由NVIDIA使用NVIDIA NeMo在NVIDIA加速基础设施上训练的150亿参数模型：

StarCoder2-3B是在The Stack v2上使用17种编程语言训练的，包含了30万亿个token。
StarCoder2-7B是在The Stack v2上使用17种编程语言训练的，包含了35万亿个token。
StarCoder2-15B是在The Stack v2上使用600多种编程语言训练的，包含了40万亿个token。

StarCoder2-15B在其尺寸类别中表现最佳，并在许多评估中与33B+模型相匹配。StarCoder2-3B的性能与StarCoder1-15B相匹配。

picture.image

What is The Stack v2?

The Stack v2 是最大的开放代码数据集，适用于LLM预训练。The Stack v2 比 The Stack v1 更大，遵循了改进的语言和许可检测程序，以及更好的过滤启发式算法。此外，训练数据集按存储库分组，可以训练具有存储库上下文的模型。

picture.image

bigcode 发布StarCoder2 代码模型（3B、15B、72B） 及最大规模代码数据集