Orion-14B:猎户星空开源优于千问14B的大模型,支持200k上下文

“ 开源大模型消停了一小阵子,又开始发力卷了,deepseek,internlm2, yi-多模态。。


        
          
https://github.com/OrionStarAI/Orion/blob/master/doc/Orion14B_v3.pdf  
https://huggingface.co/OrionStarAI/Orion-14B-Base/blob/main/README_cn.md  

      

picture.image

Orion-14B-Base是一个具有140亿参数的多语种大模型,该模型在一个包含2.5万亿token的多样化数据集上进行了训练,涵盖了中文、英语、日语、韩语等多种语言。在多语言环境下的一系列任务中展现出卓越的性能。在主流的公开基准评测中,Orion-14B系列模型表现优异,多项指标显著超越同等参数基本的其他模型。

Orion-14B系列大模型有以下几个特点:

  • 基座20B参数级别大模型综合评测效果表现优异
  • 多语言能力强,在日语、韩语测试集上显著领先
  • 微调模型适应性强,在人类标注盲测中,表现突出
  • 长上下文版本支持超长文本,在200k token长度上效果优异,最长可支持可达320k
  • 量化版本模型大小缩小70%,推理速度提升30%,性能损失小于1%

Orion-14B系列大语言模型包含:

  • Orion-14B-Base: 基于2.5万亿tokens多样化数据集训练处的140亿参数量级的多语言基座模型。
  • Orion-14B-Chat: 基于高质量语料库微调的对话类模型,旨在为大模型社区提供更好的用户交互体验。
  • Orion-14B-LongChat: 在200k token长度上效果优异,最长可支持可达320k,在长文本评估集上性能比肩专有模型。
  • Orion-14B-Chat-RAG: 在一个定制的检索增强生成数据集上进行微调的聊天模型,在检索增强生成任务中取得了卓越的性能。
  • Orion-14B-Chat-Plugin: 专门针对插件和函数调用任务定制的聊天模型,非常适用于使用代理的相关场景,其中大语言模型充当插件和函数调用系统。
  • Orion-14B-Base-Int4: 一个使用int4进行量化的基座模型。它将模型大小显著减小了70%,同时提高了推理速度30%,仅引入了1%的最小性能损失。
  • Orion-14B-Chat-Int4: 一个使用int4进行量化的对话模型。

技术报告的一些关键点:

  • 数据调度策略:Orion-14B使用了一种数据调度方法来训练基础模型。这种方法涉及在训练过程中有策略地安排数据的输入顺序,以提高模型的学习效率。训练数据来源于多种语言,包括英语、中文、日语、韩语等,总共包含2.5万亿个token。
  • Orion-14B遵循了LLaMA2的架构,但在某些方面进行了修改,例如将标记数量扩展到84,608个,并将前馈网络(FFN)的维度扩大到15,360。模型使用了40层Transformer和40个注意力头,总参数量为14.4亿,略高于LLaMA2-13B
  • Orion-14B的训练使用了Megatron-LM框架,并在包含11台服务器的集群上进行,每台服务器配备了8个NVIDIA H800 GPU。为了优化训练效率,集成了FlashAttention2和APEX,实现了每GPU每秒4,000-5,000个标记的训练速度
  • 模型训练开始于学习率的预热阶段,持续2000个迭代,期间线性增加学习率至最大值3e-4。然后采用余弦调度逐渐降低学习率至3e-5。训练过程中使用了AdamW优化器,设置了β1和β2的值分别为0.9和0.95,并应用了权重衰减和梯度裁剪来确保训练过程的稳定性
  • 为了防止训练数据中的重复内容影响模型的性能,文章中提到了一种去重策略,通过提取文档的关键词汇和短语,计算它们的嵌入向量和SimHash向量,然后与数据库中的向量进行比较,以识别并移除重复的文档

最好简单看看测试效果

picture.image

picture.image

0
0
0
0
评论
未登录
暂无评论