Snowflake开源专注企业AI的大模型Arctic:480B 密集MoE,17B激活参数

传统上,使用大型语言模型(LLM)构建顶级企业级智能的成本高昂且需要大量资源,通常花费数千万至数亿美元。Snowflake AI研究团队推出Snowflake Arctic,这是一所以企业为中心的顶级LLM,推动了经济高效的训练和和开放性的前沿。 Arctic高效智能且真正开放

Snowflake Arctic 480B A17B的特点:

🧠 模型参数总数为480B,生成时激活的参数为17B。

👨‍🏫 包含128个专家模型,生成时激活2个。

2️⃣ 发布了指令( Arctic-Instruct ) 和 基础( Arctic-Base ) 两个版本。

🏙️ 专注于企业任务(代码、SQL、推理、跟随)

🔓 根据Apache 2.0协议发布。

🗻 在使用半精度浮点数(fp16)时大约需要900GB内存,在整数4位(int4)时大约需要240GB。

🤗 开源在huggingface。

🏋🏻 使用DeepSpeed-MoE进行训练。

框架 标准专家混合模型(MoE)架构与北极(Arctic)的比较。Arctic 被设计为拥有 480B参数 ,这些参数分布在 128个 细粒度的专家模型上,并使用 top-2 gating 来选择17B活跃参数。相比之下,最近的 MoE(专家混合模型)模型构建时使用的专家数量明显较少。直观上,Arctic 利用大量的总参数和众多的专家来扩大模型的容量,以实现顶级智能,同时它在众多但紧凑的专家中审慎选择,并在训练和推理过程中启用适度数量的活跃参数,以实现资源高效。

picture.image

训练资源: Arctic、Llama-2 70B、DBRX 和 Mixtral 8x22B 的模型架构和训练计算资源。训练计算资源与活跃参数和训练令牌的乘积成正比。

picture.image

训练数据

对Arctic进行三阶段训练的动态数据组合,重点强调企业智能。

picture.image

评测: 企业智能 - 编码(HumanEval+ 和 MBPP+)、SQL生成(Spider)以及指令跟随(IFEval)的平均表现与推理过程中活跃参数的比较。

picture.image


          
https://huggingface.co/Snowflake/snowflake-arctic-instruct
          
https://www.snowflake.com/blog/arctic-open-efficient-foundation-language-models-snowflake/
          
https://twitter.com/_philschmid/status/1783140561483960620
      

推荐阅读


欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

0
0
0
0
评论
未登录
暂无评论