Orion-14B：猎户星空开源优于千问14B的大模型,支持200k上下文 - 文章 - 开发者社区

“ 开源大模型消停了一小阵子，又开始发力卷了，deepseek，internlm2, yi-多模态。。


        
          
https://github.com/OrionStarAI/Orion/blob/master/doc/Orion14B_v3.pdf  
https://huggingface.co/OrionStarAI/Orion-14B-Base/blob/main/README_cn.md

picture.image

Orion-14B-Base是一个具有140亿参数的多语种大模型，该模型在一个包含2.5万亿token的多样化数据集上进行了训练，涵盖了中文、英语、日语、韩语等多种语言。在多语言环境下的一系列任务中展现出卓越的性能。在主流的公开基准评测中，Orion-14B系列模型表现优异，多项指标显著超越同等参数基本的其他模型。

Orion-14B系列大模型有以下几个特点：

基座20B参数级别大模型综合评测效果表现优异
多语言能力强，在日语、韩语测试集上显著领先
微调模型适应性强，在人类标注盲测中，表现突出
长上下文版本支持超长文本，在200k token长度上效果优异，最长可支持可达320k
量化版本模型大小缩小70%，推理速度提升30%，性能损失小于1%

Orion-14B系列大语言模型包含:

Orion-14B-Base: 基于2.5万亿tokens多样化数据集训练处的140亿参数量级的多语言基座模型。
Orion-14B-Chat: 基于高质量语料库微调的对话类模型，旨在为大模型社区提供更好的用户交互体验。
Orion-14B-LongChat: 在200k token长度上效果优异，最长可支持可达320k，在长文本评估集上性能比肩专有模型。
Orion-14B-Chat-RAG: 在一个定制的检索增强生成数据集上进行微调的聊天模型，在检索增强生成任务中取得了卓越的性能。
Orion-14B-Chat-Plugin: 专门针对插件和函数调用任务定制的聊天模型，非常适用于使用代理的相关场景，其中大语言模型充当插件和函数调用系统。
Orion-14B-Base-Int4: 一个使用int4进行量化的基座模型。它将模型大小显著减小了70%，同时提高了推理速度30%，仅引入了1%的最小性能损失。
Orion-14B-Chat-Int4: 一个使用int4进行量化的对话模型。

技术报告的一些关键点：

数据调度策略：Orion-14B使用了一种数据调度方法来训练基础模型。这种方法涉及在训练过程中有策略地安排数据的输入顺序，以提高模型的学习效率。训练数据来源于多种语言，包括英语、中文、日语、韩语等，总共包含2.5万亿个token。
Orion-14B遵循了LLaMA2的架构，但在某些方面进行了修改，例如将标记数量扩展到84,608个，并将前馈网络（FFN）的维度扩大到15,360。模型使用了40层Transformer和40个注意力头，总参数量为14.4亿，略高于LLaMA2-13B
Orion-14B的训练使用了Megatron-LM框架，并在包含11台服务器的集群上进行，每台服务器配备了8个NVIDIA H800 GPU。为了优化训练效率，集成了FlashAttention2和APEX，实现了每GPU每秒4,000-5,000个标记的训练速度
模型训练开始于学习率的预热阶段，持续2000个迭代，期间线性增加学习率至最大值3e-4。然后采用余弦调度逐渐降低学习率至3e-5。训练过程中使用了AdamW优化器，设置了β1和β2的值分别为0.9和0.95，并应用了权重衰减和梯度裁剪来确保训练过程的稳定性
为了防止训练数据中的重复内容影响模型的性能，文章中提到了一种去重策略，通过提取文档的关键词汇和短语，计算它们的嵌入向量和SimHash向量，然后与数据库中的向量进行比较，以识别并移除重复的文档

最好简单看看测试效果

picture.image