OLMo一个真正的开放大模型(权重、代码、数据、评测、指令微调)

火山方舟向量数据库大模型

          
论文题目:OLMo:Accelerating the Science of Language Models
          
论文链接:https://allenai.org/olmo/olmo-paper.pdf
          
已开源GitHub:https://github.com/allenai/OLMo
      

这篇论文介绍了 OLMo (Open Language Model),这是一个真正开放的大型语言模型(LLM),旨在推动语言建模科学的研究。 随着商业价值的增加,最强大的语言模型变得封闭,其训练数据、架构和开发细节未公开。 为了解决这一问题,Allen Institute for Artificial Intelligence(AI2)发布了OLMo,包括模型权重、训练和评估代码、训练数据,以及用于构建和研究语言模型的框架。

OLMo提供了 1B、7B和65B(仍在训练中) 三种规模的模型。这些模型基于Vaswani等人(2017)提出的解码器-only Transformer架构,并在多个硬件类型上进行了训练。OLMo的发布包括了从数据到训练再到评估工具的整个框架,以及在Apache 2.0许可下发布的所有代码和权重。

论文详细描述了OLMo框架的组成部分,包括 OLMo模型及其架构、预训练数据集Dolma,以及评估框架 。Dolma是一个多样化的、多源的语料库,包含了来自不同数据源的 3T (3万亿)标记。OLMo的评估分为在线评估和离线评估两个阶段,使用Catwalk框架进行下游任务评估和Paloma进行基于困惑度的评估。

在性能方面, OLMo-7B 在多个下游任务上表现出色,与公开可用的其他模型相比,它在某些任务上表现最佳,在大多数任务上保持在 前三名 。此外,OLMo在Paloma的评估中也显示出竞争力,尤其是在与训练数据分布相似的任务上。

论文还讨论了OLMo在预训练过程中的 能源消耗和碳足迹 ,强调了在模型开发过程中考虑环境影响的重要性。最后,论文提到了未来工作的方向,包括发布训练日志、权重和偏差日志、以及经过指令调整和 RLHF (强化学习人类反馈)的适应性OLMo模型。

总的来说,OLMo的发布旨在促进开放研究,鼓励创新,并为理解语言模型及其在现实世界中的应用提供支持。

资源汇总:


          
Weights https://huggingface.co/allenai/OLMo-7B
          
Code https://github.com/allenai/OLMo
          
Data https://huggingface.co/datasets/allenai/dolma
          
Evaluation https://github.com/allenai/OLMo-Eval
          
Adaptation https://github.com/allenai/open-instruct
      

推荐阅读


欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动大数据容器化构建与落地实践
随着字节跳动旗下业务的快速发展,数据急剧膨胀,原有的大数据架构在面临日趋复杂的业务需求时逐渐显现疲态。而伴随着大数据架构向云原生演进的行业趋势,字节跳动也对大数据体系进行了云原生改造。本次分享将详细介绍字节跳动大数据容器化的演进与实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论