bigcode 发布StarCoder2 代码模型(3B、15B、72B) 及最大规模代码数据集

云渲染与流化平台视频服务视频云

        
          
https://huggingface.co/blog/starcoder2  
https://huggingface.co/datasets/bigcode/the-stack-v2  
https://drive.google.com/file/d/17iGn3c-sYNiLyRSY-A85QOzgzGnGiVI3/view  
https://huggingface.co/bigcode/starcoder2-15b  

      
What is StarCoder2?

StarCoder2是一系列用于编程的开放LLM,有3种不同的尺寸,分别为3B、7B和15B参数。StarCoder2-15B是在The Stack v2上训练的,使用了超过4万亿个token和600多种编程语言。所有模型都使用了grouped query 注意力,一个包含16384个token的上下文窗口,以及一个包含4096个token的sliding window注意力,并且是使用了Fill-in-the-Middle进行训练。

StarCoder2提供了三种模型尺寸:由ServiceNow训练的30亿参数模型,由Hugging Face训练的70亿参数模型,以及由NVIDIA使用NVIDIA NeMo在NVIDIA加速基础设施上训练的150亿参数模型:

  • StarCoder2-3B是在The Stack v2上使用17种编程语言训练的,包含了30万亿个token。
  • StarCoder2-7B是在The Stack v2上使用17种编程语言训练的,包含了35万亿个token。
  • StarCoder2-15B是在The Stack v2上使用600多种编程语言训练的,包含了40万亿个token。

StarCoder2-15B在其尺寸类别中表现最佳,并在许多评估中与33B+模型相匹配。StarCoder2-3B的性能与StarCoder1-15B相匹配。

picture.image

What is The Stack v2?

The Stack v2 是最大的开放代码数据集,适用于LLM预训练。The Stack v2 比 The Stack v1 更大,遵循了改进的语言和许可检测程序,以及更好的过滤启发式算法。此外,训练数据集按存储库分组,可以训练具有存储库上下文的模型。

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
DevOps 在字节移动研发中的探索和实践
在日益复杂的APP工程架构下,如何保证APP能高效开发,保障团队效能和工程质量?本次将结合字节内部应用的事件案例,介绍DevOps团队对移动研发效能建设的探索和思考。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论