Mixtral of Experts(MoE)官方技术报告出炉！ - 文章 - 开发者社区


          
论文题目：Mixtral of Experts
          
论文链接：https://arxiv.org/abs/2401.04088
          
Github：https://github.com/mistralai/mistral-sr
          
Webpage: https://mistral.ai/news/mixtral-of-experts/

概要

picture.image

研究背景：

大型语言模型（LLMs）在处理长文本和多样化任务时面临挑战，尤其是在资源有限的情况下。为了提高模型的性能，同时保持高效的计算成本，研究者们提出了稀疏专家混合（Sparse Mixture of Experts, SME）模型。Mixtral 8x7B是一个基于SME的模型，它在保持参数数量相对较少的同时，通过专家选择机制提高了模型的表达能力。

模型设计：

Mixtral 8x7B采用了稀疏专家混合（SMoE）架构，每个层由8个前馈网络块（即专家）组成。在每个层级，一个路由器网络为每个标记选择两个专家来处理当前状态并组合它们的输出。尽管每个标记只看到两个专家，但每个时间步选择的专家可以不同。这样，每个标记在推理时只使用13B活跃参数，但可以访问47B参数。

picture.image

实验结论：

Mixtral 8x7B在多种基准测试中超越或匹配了Llama 2 70B和GPT-3.5的性能。特别是在数学、代码生成和多语言基准测试中，Mixtral显著优于Llama 2 70B。此外，Mixtral 8x7B - Instruct模型在遵循指令的聊天模型上进行了微调，其性能超过了GPT-3.5 Turbo、Claude-2.1、Gemini Pro和Llama 2 70B - chat模型。Mixtral 8x7B和Mixtral 8x7B - Instruct模型都在Apache 2.0许可下发布。

picture.image

讨论

1、Mixtral 8x7B是如何在保持较低活跃参数的同时实现高性能的？

答案： Mixtral 8x7B通过稀疏专家混合（SMoE）架构实现了这一目标。在每个层级，路由器网络为每个标记选择两个专家来处理当前状态并组合它们的输出。这种机制允许模型在每个时间步只使用部分专家，从而减少了活跃参数的数量，同时通过专家的选择和组合来增加模型的表达能力。

2、Mixtral 8x7B在多语言理解任务上的表现如何，与Llama 2 70B相比有何优势？

答案： Mixtral 8x7B在多语言理解任务上表现优异，特别是在法语、德语、西班牙语和意大利语中显著超越了Llama 2 70B。这种改进得益于Mixtral在预训练期间对多语言数据的显著上采样，这增加了模型的容量，使其能够在保持高英语准确性的同时，在多语言任务上表现良好。

3、Mixtral 8x7B在处理长上下文时的表现如何，它在哪些方面优于其他模型？

答案： Mixtral 8x7B在处理长上下文方面表现出色，能够在长提示中随机插入的密码检索任务中实现100%的检索准确率，不受上下文长度或密码在序列中位置的影响。此外，随着上下文大小的增加，Mixtral在proof-pile数据集上的困惑度单调下降，表明其在长上下文任务中的能力。