Snowflake开源专注企业AI的大模型Arctic：480B 密集MoE，17B激活参数 - 文章 - 开发者社区

传统上，使用大型语言模型（LLM）构建顶级企业级智能的成本高昂且需要大量资源，通常花费数千万至数亿美元。Snowflake AI研究团队推出Snowflake Arctic，这是一所以企业为中心的顶级LLM，推动了经济高效的训练和和开放性的前沿。 Arctic高效智能且真正开放 。

Snowflake Arctic 480B A17B的特点：

🧠 模型参数总数为480B，生成时激活的参数为17B。

👨‍🏫 包含128个专家模型，生成时激活2个。

2️⃣ 发布了指令（ Arctic-Instruct ）和基础（ Arctic-Base ）两个版本。

🏙️ 专注于企业任务（代码、SQL、推理、跟随） 。

🔓 根据Apache 2.0协议发布。

🗻 在使用半精度浮点数（fp16）时大约需要900GB内存，在整数4位（int4）时大约需要240GB。

🤗 开源在huggingface。

🏋🏻 使用DeepSpeed-MoE进行训练。

框架：标准专家混合模型（MoE）架构与北极（Arctic）的比较。Arctic 被设计为拥有 480B参数 ，这些参数分布在 128个 细粒度的专家模型上，并使用 top-2 gating 来选择17B活跃参数。相比之下，最近的 MoE（专家混合模型）模型构建时使用的专家数量明显较少。直观上，Arctic 利用大量的总参数和众多的专家来扩大模型的容量，以实现顶级智能，同时它在众多但紧凑的专家中审慎选择，并在训练和推理过程中启用适度数量的活跃参数，以实现资源高效。

训练资源： Arctic、Llama-2 70B、DBRX 和 Mixtral 8x22B 的模型架构和训练计算资源。训练计算资源与活跃参数和训练令牌的乘积成正比。

训练数据：

对Arctic进行三阶段训练的动态数据组合，重点强调企业智能。

picture.image

评测： 企业智能 - 编码（HumanEval+ 和 MBPP+）、SQL生成（Spider）以及指令跟随（IFEval）的平均表现与推理过程中活跃参数的比较。

picture.image


          
https://huggingface.co/Snowflake/snowflake-arctic-instruct
          
https://www.snowflake.com/blog/arctic-open-efficient-foundation-language-models-snowflake/
          
https://twitter.com/_philschmid/status/1783140561483960620