https://huggingface.co/blog/starcoder2
https://huggingface.co/datasets/bigcode/the-stack-v2
https://drive.google.com/file/d/17iGn3c-sYNiLyRSY-A85QOzgzGnGiVI3/view
https://huggingface.co/bigcode/starcoder2-15b
What is StarCoder2?
StarCoder2是一系列用于编程的开放LLM,有3种不同的尺寸,分别为3B、7B和15B参数。StarCoder2-15B是在The Stack v2上训练的,使用了超过4万亿个token和600多种编程语言。所有模型都使用了grouped query 注意力,一个包含16384个token的上下文窗口,以及一个包含4096个token的sliding window注意力,并且是使用了Fill-in-the-Middle进行训练。
StarCoder2提供了三种模型尺寸:由ServiceNow训练的30亿参数模型,由Hugging Face训练的70亿参数模型,以及由NVIDIA使用NVIDIA NeMo在NVIDIA加速基础设施上训练的150亿参数模型:
- StarCoder2-3B是在The Stack v2上使用17种编程语言训练的,包含了30万亿个token。
- StarCoder2-7B是在The Stack v2上使用17种编程语言训练的,包含了35万亿个token。
- StarCoder2-15B是在The Stack v2上使用600多种编程语言训练的,包含了40万亿个token。
StarCoder2-15B在其尺寸类别中表现最佳,并在许多评估中与33B+模型相匹配。StarCoder2-3B的性能与StarCoder1-15B相匹配。
What is The Stack v2?
The Stack v2 是最大的开放代码数据集,适用于LLM预训练。The Stack v2 比 The Stack v1 更大,遵循了改进的语言和许可检测程序,以及更好的过滤启发式算法。此外,训练数据集按存储库分组,可以训练具有存储库上下文的模型。