“ 开源大模型消停了一小阵子,又开始发力卷了,deepseek,internlm2, yi-多模态。。
https://github.com/OrionStarAI/Orion/blob/master/doc/Orion14B_v3.pdf
https://huggingface.co/OrionStarAI/Orion-14B-Base/blob/main/README_cn.md
Orion-14B-Base是一个具有140亿参数的多语种大模型,该模型在一个包含2.5万亿token的多样化数据集上进行了训练,涵盖了中文、英语、日语、韩语等多种语言。在多语言环境下的一系列任务中展现出卓越的性能。在主流的公开基准评测中,Orion-14B系列模型表现优异,多项指标显著超越同等参数基本的其他模型。
Orion-14B系列大模型有以下几个特点:
- 基座20B参数级别大模型综合评测效果表现优异
- 多语言能力强,在日语、韩语测试集上显著领先
- 微调模型适应性强,在人类标注盲测中,表现突出
- 长上下文版本支持超长文本,在200k token长度上效果优异,最长可支持可达320k
- 量化版本模型大小缩小70%,推理速度提升30%,性能损失小于1%
Orion-14B系列大语言模型包含:
- Orion-14B-Base: 基于2.5万亿tokens多样化数据集训练处的140亿参数量级的多语言基座模型。
- Orion-14B-Chat: 基于高质量语料库微调的对话类模型,旨在为大模型社区提供更好的用户交互体验。
- Orion-14B-LongChat: 在200k token长度上效果优异,最长可支持可达320k,在长文本评估集上性能比肩专有模型。
- Orion-14B-Chat-RAG: 在一个定制的检索增强生成数据集上进行微调的聊天模型,在检索增强生成任务中取得了卓越的性能。
- Orion-14B-Chat-Plugin: 专门针对插件和函数调用任务定制的聊天模型,非常适用于使用代理的相关场景,其中大语言模型充当插件和函数调用系统。
- Orion-14B-Base-Int4: 一个使用int4进行量化的基座模型。它将模型大小显著减小了70%,同时提高了推理速度30%,仅引入了1%的最小性能损失。
- Orion-14B-Chat-Int4: 一个使用int4进行量化的对话模型。
技术报告的一些关键点:
- 数据调度策略:Orion-14B使用了一种数据调度方法来训练基础模型。这种方法涉及在训练过程中有策略地安排数据的输入顺序,以提高模型的学习效率。训练数据来源于多种语言,包括英语、中文、日语、韩语等,总共包含2.5万亿个token。
- Orion-14B遵循了LLaMA2的架构,但在某些方面进行了修改,例如将标记数量扩展到84,608个,并将前馈网络(FFN)的维度扩大到15,360。模型使用了40层Transformer和40个注意力头,总参数量为14.4亿,略高于LLaMA2-13B
- Orion-14B的训练使用了Megatron-LM框架,并在包含11台服务器的集群上进行,每台服务器配备了8个NVIDIA H800 GPU。为了优化训练效率,集成了FlashAttention2和APEX,实现了每GPU每秒4,000-5,000个标记的训练速度
- 模型训练开始于学习率的预热阶段,持续2000个迭代,期间线性增加学习率至最大值3e-4。然后采用余弦调度逐渐降低学习率至3e-5。训练过程中使用了AdamW优化器,设置了β1和β2的值分别为0.9和0.95,并应用了权重衰减和梯度裁剪来确保训练过程的稳定性
- 为了防止训练数据中的重复内容影响模型的性能,文章中提到了一种去重策略,通过提取文档的关键词汇和短语,计算它们的嵌入向量和SimHash向量,然后与数据库中的向量进行比较,以识别并移除重复的文档
最好简单看看测试效果
