传统上,使用大型语言模型(LLM)构建顶级企业级智能的成本高昂且需要大量资源,通常花费数千万至数亿美元。Snowflake AI研究团队推出Snowflake Arctic,这是一所以企业为中心的顶级LLM,推动了经济高效的训练和和开放性的前沿。 Arctic高效智能且真正开放 。
Snowflake Arctic 480B A17B的特点:
🧠 模型参数总数为480B,生成时激活的参数为17B。
👨🏫 包含128个专家模型,生成时激活2个。
2️⃣ 发布了指令( Arctic-Instruct ) 和 基础( Arctic-Base ) 两个版本。
🏙️ 专注于企业任务(代码、SQL、推理、跟随) 。
🔓 根据Apache 2.0协议发布。
🗻 在使用半精度浮点数(fp16)时大约需要900GB内存,在整数4位(int4)时大约需要240GB。
🤗 开源在huggingface。
🏋🏻 使用DeepSpeed-MoE进行训练。
框架 : 标准专家混合模型(MoE)架构与北极(Arctic)的比较。Arctic 被设计为拥有 480B参数 ,这些参数分布在 128个 细粒度的专家模型上,并使用 top-2 gating 来选择17B活跃参数。相比之下,最近的 MoE(专家混合模型)模型构建时使用的专家数量明显较少。直观上,Arctic 利用大量的总参数和众多的专家来扩大模型的容量,以实现顶级智能,同时它在众多但紧凑的专家中审慎选择,并在训练和推理过程中启用适度数量的活跃参数,以实现资源高效。
训练资源: Arctic、Llama-2 70B、DBRX 和 Mixtral 8x22B 的模型架构和训练计算资源。训练计算资源与活跃参数和训练令牌的乘积成正比。
训练数据 :
对Arctic进行三阶段训练的动态数据组合,重点强调企业智能。
评测: 企业智能 - 编码(HumanEval+ 和 MBPP+)、SQL生成(Spider)以及指令跟随(IFEval)的平均表现与推理过程中活跃参数的比较。
https://huggingface.co/Snowflake/snowflake-arctic-instruct
https://www.snowflake.com/blog/arctic-open-efficient-foundation-language-models-snowflake/
https://twitter.com/_philschmid/status/1783140561483960620
推荐阅读
- • 对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
- • 2024:ToB、Agent、多模态
- • TA们的RAG真正投产了吗?(上)
- • Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。
