OLMO:一个大模型预训练全流程、所有东西都开源的工作

“ 又是一个倡导open的研究,训练日志都开源了。。。


        
          
 model https://huggingface.co/allenai/OLMo-7B  
 github https://github.com/allenai/OLMo  
 dataset https://huggingface.co/datasets/allenai/dolma  
 Evaluation https://github.com/allenai/OLMo-Eval  
 Adaptation https://github.com/allenai/open-instruct  

      

整体上没什么太多的新东西,但是就是属于面面俱到,所有的东西全部开源,并且训练出来的模型能达到开源领先水平。

与以往只发布模型权重和推理代码的努力不同,OLMo项目不仅发布了模型,还包括了整个框架,包括训练数据、训练和评估代码。这样做的目的是为了让社区能够全面访问强大的开放语言模型,以便更好地研究这些模型的优缺点、偏见和潜在风险。

  • 介绍了OLMo框架的各个方面,包括模型架构、预训练数据集(Dolma)、评估框架等。并提供了不同规模(1B、7B和即将推出的65B版本)的模型。这些模型在至少2T token上进行了训练。
  • 关于模型训练的方面,提到了,包括分布式训练框架、优化器设置、数据准备和硬件使用。特别提到了使用ZeRO优化器策略和PyTorch的FSDP框架进行训练,以及使用AdamW优化器进行模型训练。
  • 在评估方面,文章介绍了使用Catwalk框架进行下游任务评估,以及使用Paloma进行基于困惑度的评估。OLMo-7B模型在多个任务上的表现与当前公开可用的模型进行了比较,显示出竞争力。
  • 此外,还讨论了模型训练过程中的能源消耗和碳足迹,强调了在模型开发过程中考虑环境影响的重要性。最后,文章提到了未来工作的方向,包括发布更多的模型、指令调整和RLHF(强化学习人类反馈)适应的模型,以及持续支持和扩展OLMo框架。

picture.image

0
0
0
0
评论
未登录
暂无评论