OLMO：一个大模型预训练全流程、所有东西都开源的工作 - 文章 - 开发者社区

“ 又是一个倡导open的研究，训练日志都开源了。。。


        
          
 model https://huggingface.co/allenai/OLMo-7B  
 github https://github.com/allenai/OLMo  
 dataset https://huggingface.co/datasets/allenai/dolma  
 Evaluation https://github.com/allenai/OLMo-Eval  
 Adaptation https://github.com/allenai/open-instruct

整体上没什么太多的新东西，但是就是属于面面俱到，所有的东西全部开源，并且训练出来的模型能达到开源领先水平。

与以往只发布模型权重和推理代码的努力不同，OLMo项目不仅发布了模型，还包括了整个框架，包括训练数据、训练和评估代码。这样做的目的是为了让社区能够全面访问强大的开放语言模型，以便更好地研究这些模型的优缺点、偏见和潜在风险。

介绍了OLMo框架的各个方面，包括模型架构、预训练数据集（Dolma）、评估框架等。并提供了不同规模（1B、7B和即将推出的65B版本）的模型。这些模型在至少2T token上进行了训练。
关于模型训练的方面，提到了，包括分布式训练框架、优化器设置、数据准备和硬件使用。特别提到了使用ZeRO优化器策略和PyTorch的FSDP框架进行训练，以及使用AdamW优化器进行模型训练。
在评估方面，文章介绍了使用Catwalk框架进行下游任务评估，以及使用Paloma进行基于困惑度的评估。OLMo-7B模型在多个任务上的表现与当前公开可用的模型进行了比较，显示出竞争力。
此外，还讨论了模型训练过程中的能源消耗和碳足迹，强调了在模型开发过程中考虑环境影响的重要性。最后，文章提到了未来工作的方向，包括发布更多的模型、指令调整和RLHF（强化学习人类反馈）适应的模型，以及持续支持和扩展OLMo框架。

picture.image