2024最新开源LLM为何好？Mixtral、Llama 3、Phi-3与OpenELM，兼看PPO与DPO！

2024年4月，四大发布并开源的LLM： Mixtral 、Meta AI的 Llama 3 、微软的 Phi-3 和苹果的 OpenELM 。

全面回顾并讨论了过去几周发生的所有四个主要的基于Transformer的LLM模型版本，随后介绍了使用PPO和DPO算法进行指令微调的强化学习和人类反馈方法的新研究。

1. Mixtral、Llama 3和Phi-3有多好？
2. OpenELM：具有开源训练和推理框架的高效语言模型家族
3. DPO是否比PPO更适合LLM对齐？综合研究
4. 4月份其他有趣的研究论文

Mixtral、Llama 3和Phi-3：有什么新内容？ =================================

首先，从最突出的话题开始：本月新发布的主要LLM课程。将简要介绍 Mixtral、Llama 3和Phi-3，并附有简短的博客文章或简短的技术论文。下一节将更详细地介绍Apple的OpenELM，值得庆幸的是，它附带了一篇研究论文，其中分享了许多有趣的细节。

1.1 Mixtral 8x22B：型号越大越好！

Mixtral 8x22B 是Mistral AI最新的专家混合 (MoE) 模型，已在宽松的 Apache 2.0 开源许可证下发布。

与2024年1月发布的 Mixtral 8x7B 类似，该模型背后的关键思想是用 8个专家层替换Transformer架构中的每个前馈模块。此处跳过MoE的解释。

Mixtral博客文章中可能最有趣的图，它在两个轴上将 Mixtral 8x22B 与几个 LLM 进行了比较：流行的测量大规模多任务语言理解(MMLU) 基准的建模性能和活动参数（与计算资源需求相关）。

Mixtral 8x22B与其他LLM之间的比较。（注释图基于https://mistral.ai/news/mixtral-8x22b的绘图）

picture.image

1.2 Llama 3：数据越大越好！

Meta AI于202年2月发布的第一个Llama模型是开放式LLM的重大突破，也是开源LLM的关键时刻。因此，自然地，每个人都对去年Llama 2的发布感到兴奋。现在，Meta AI开始推出的Llama 3模型同样令人兴奋。

虽然Meta仍在训练一些最大的模型（例如 400B变体），但他们发布了熟悉的 8B和70B尺寸范围的模型。他们都很好！下面，将官方Llama 3博客文章中的 MMLU分数添加到之前Mixtral图中。

Llama 3、Mixtral 和其他LLM之间的比较 。（注释图基于https://mistral.ai/news/mixtral-8x22b的绘图）

picture.image

总体而言，Llama 3架构与Llama 2几乎相同。主要区别是 词汇量增加 ，以及 Llama 3还对较小规模的模型使用分组查询注意力。

下面是用于在LitGPT中实现Llama 2和Llama 3的配置文件，这有助于一目了然地显示主要差异。

通过LitGPT对Llama 2和Llama 3配置进行比较 ，https://github.com/Lightning-AI/litgpt

picture.image

训练数据大小

与 Llama 2 相比，其性能大幅提高的主要原因是 数据集更大 。Llama 3使用15T tokens进行训练，而 Llama 2“仅”使用了2T。

这是一个非常有趣的发现，因为正如Llama 3博客文章指出的那样，根据 Chinchilla缩放定律，8B个参数模型的最佳训练数据量要小得多，约为200B tokens。此外，Llama 3的作者观察到，

即使在15T规模上，8B和70B参数模型也表现出了对数线性改进

。这表明可以使用超过15T tokens的更多训练数据来进一步增强模型。

指令微调和对齐

对于指令微调和对齐，研究人员通常选择通过近端策略优化（PPO）使用带有人类反馈的强化学习（RLHF）或无奖励模型的直接偏好优化（DPO）。有趣的是，

Llama 3研究人员并不偏爱其中一种。他们都用了！

（稍后部分将详细介绍 PPO 和 DPO。）

1.3 Phi-3：数据质量越高越好！

就在Llama 2发布一周后，微软分享了他们新的Phi-3 LLM。根据技术报告中的基准测试，即使是最小的Phi-3型号，尽管尺寸还不到Llama 3 8B型号的一半，但其性能仍优于Llama 3 8B型号。

Phi-3、Llama 3、Mixtral 和其他LLM之间的比较 。（注释图基于https://mistral.ai/news/mixtral-8x22b的绘图）

picture.image

值得注意的是，基于Llama架构的Phi-3的训练令牌比Llama 3少5倍（3.3T而不是15T）。Phi-3甚至使用与Llama 2相同的词汇量为32,064的分词器，这比 Llama 3的词汇量小得多。

此外，Phi-3-mini“仅”有3.8B个参数，不到 Llama 3 8B大小的一半。

那么，秘诀是什么？根据技术报告， 数据集的质量胜于数量：“经过严格过滤的网络数据和合成数据” 。

该论文没有详细介绍数据管理，但它很大程度上

遵循了之前Phi模型使用的方法

。

但是，人们仍然不确定Phi-3是否真的像承诺的那样好。例如， 许多人都指出，在非基准任务方面，Phi-3比Llama 3差得多 。

1.4 结论

基于上述三个主要版本，对于公开提供的LLM来说，这是一个特殊的月份。

在实践中应该使用哪种模型？上述三种型号都具有不同的吸引力。

Mixtral的活跃参数数量比Llama 3 70B少，但仍保持相当好的性能水平。
Phi-3 3.8B对于移动设备可能非常有吸引力；据作者称，它的量化版本可以在iPhone 14上运行。
Llama 3 8B可能是最有趣的微调全能工具，因为使用LoRA时它可以在单个GPU上轻松进行微调。

OpenELM：具有开源训练和推理框架的高效LLM =============================

OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework是Apple研究人员分享的最新LLM模型套件和论文， 旨在提供用于在移动设备上部署的小型LLM 。

与OLMo类似，看到一篇LLM论文分享了讨论架构、训练方法和训练数据的详细信息，令人耳目一新。

OpenELM与共享数据集、代码和权重的其他开源LLM之间的比较 （类似开放的并不多）。OpenELM论文中的注释表，https://arxiv.org/abs/2404.14619 。

picture.image

从最有趣的花絮开始：

OpenELM有4种相对较小且方便的尺寸：270M、450M、1.1B 和 3B
对于每种尺寸，还有一个可用的指令版本，经过拒绝采样和直接偏好优化的训练
OpenELM的性能比OLMo稍好，尽管它的训练标记数量减少了2倍
主要的架构调整是分层扩展策略

2.1 架构细节

除了逐层扩展策略之外，整体架构设置和超参数配置与OLMo和Llama等其他 LLM相对相似，如下图所示。

OpenELM、最小OLMo模型和最小Llama 2模型之间的架构和超参数比较。 OpenELM 论文中的注释表，https://arxiv.org/abs/2404.14619 。

picture.image

2.2 训练数据集

他们从各种公共数据集（RefinedWeb 、RedPajama 、The PILE和Dolma ）中采样了相对较小的1.8T tokens子集。该子集比用于训练OLMo的Dolma小2 倍。但进行二次抽样的理由是什么？抽样标准是什么？

其中一位作者善意地说“关于数据集：

我们没有任何数据集采样背后的理由，除了我们想使用大约2T tokens的公共数据集（遵循LLama2）

。”

用于训练OpenELM的标记数量与数据集中的原始标记数量 （请注意，精确的标记数量取决于所使用的标记生成器）。OpenELM 论文中的注释表，https://arxiv.org/abs/2404.14619 。

picture.image

2.3 逐层缩放

逐层缩放策略（采用DeLighT：Deep and Light-weight Transformer论文）非常有趣。本质上，研究人员逐渐扩大了从早期到后期变压器块的层数。特别是，在保持头部尺寸不变的情况下，研究人员增加了注意力模块中头部的数量。它们还缩放前馈模块的隐藏维度，如下图所示。

LLM架构基于 Sebastian Raschka博士 《从头开始构建大型语言模型》一书。

picture.image

希望有一项消融研究可以在同一数据集上使用或不使用分层扩展策略来训练LLM。但这些实验成本高昂，可以理解为什么没有进行。

然而，可以在DeLighT: Deep and Light-weight Transformer论文中找到消融研究，该论文首先基于原始编码器-解码器架构在较小的数据集上引入了分层缩放，如下所示。

DeLighT论文中的标准转换器块和具有分层（块式）缩放的转换器块之间的比较 ，https://arxiv.org/abs/2008.00623 。

picture.image

2.4 LoRA 与 DoRA

一个有趣的事是，研究人员比较了LoRA和DoRA的参数高效微调！但事实证明，这两种方法之间没有明显的差异。

两种参数高效微调方法（LoRA 和 DoRA）之间的建模性能比较。 OpenELM 论文中的注释表，https://arxiv.org/abs/2404.14619 。

picture.image

2.5 结论

虽然本文没有回答任何研究问题，但它是LLM实施细节的精彩、透明的撰写。从现在开始，分层扩展策略可能会在LLM中更常见。此外，该论文只是发布的一部分。欲了解更多详细信息，苹果还在GitHub上分享了OpenELM代码。

不管怎样，这是一项伟大的工作，对研究人员（和苹果）的分享表示极大的敬意！

DPO是否比PPO更适合LLM对齐？综合研究 ==========================

在深入研究结果之前，先简单概述一下：PPO（邻近策略优化）和DPO（直接偏好优化）都是通过强化学习与人类反馈 (RLHF) 来调整LLM的流行方法。

RLHF是LLM开发的关键组成部分，它用于使LLM与人类偏好保持一致，例如，提高 LLM 生成的响应的安全性和有用性。

典型的 LLM 培训生命周期

picture.image

3.1 什么是RLHF-PPO和DPO？

RLHF-PPO是最初的LLM对齐方法，一直是OpenAI的InstructGPT和 ChatGPT中部署的LLM的支柱。然而，近几个月来，随着DPO微调的LLM的出现，情况发生了变化，这对公共排行榜产生了重大影响。受欢迎程度的激增可归因于DPO的无奖励替代方案，该替代方案明显更易于使用：与PPO不同，DPO不需要训练单独的奖励模型，而是使用类似分类的目标来直接更新LLM。

picture.image

如今，大多数排名靠前的LLM都接受过DPO而不是PPO的训练。但不幸的是，直到这篇新论文出现之前，还没有任何直接的比较，即使用相同的数据集使用PPO或DPO训练相同的模型。

3.2 PPO总体优于DPO

DPO 是否比 PPO 更适合 LLM 对齐？《综合研究》 是一篇写得很好的论文，其中包含大量实验和结果， 但主要要点是PPO通常优于DPO，并且DPO受到分布外数据的影响更大。

这里，分布外数据意味着LLM之前已经接受过与DPO 偏好数据不同的指令数据（使用监督微调）的训练。例如，LLM在通用羊驼数据集上进行了训练，然后在带有偏好标签的不同数据集上进行了DPO微调。（改进分布外数据上的DPO 的一种方法是在进行DPO微调之前在偏好数据集上添加一轮监督指令微调）。

主要发现总结如下图。

注释表来自《对于LLM对齐来说DPO优于PPO吗？》综合研究（https://arxiv.org/abs/2404.10719 ）论文。

picture.image

除了上面的主要结果之外，论文还包括一些额外的实验和消融研究，如果您对此主题感兴趣，我建议您查看这些实验和消融研究。

3.3 最佳实践

此外，论文的有趣要点包括使用DPO和PPO时的最佳实践建议。

例如，如果您使用DPO，请确保首先对偏好数据执行监督微调。
此外，迭代 DPO（涉及使用现有奖励模型标记附加数据）比现有偏好数据上的DPO更好。
如果您使用PPO，关键的成功因素是大批量、优势标准化以及通过指数移动平均线进行参数更新。

偏好数据集的摘录（示例取自Orca数据集）

picture.image

3.4 结论

如果使用正确，PPO似乎优于DPO。然而，鉴于DPO更易于使用和实施，预计DPO仍将是一种流行的首选方法。
如果有真实奖励标签（因此您不必预先训练自己的奖励模型）或者可以下载域内奖励模型，则一个好的实用建议可能是使用PPO

。否则，为了简单起见，请使用DPO。

另外，根据从LLama 3博客文章中了解到的信息，不必决定是使用PPO还是DPO，但可以同时使用两者！例如，Llama 3背后的配方是以下流程：

预训练 → 监督微调 → 拒绝采样 → PPO → DPO

。

4月份其他有趣的研究论文

其他有趣论文的精选。即使与前几个月的强劲相比，四月份的LLM 研究确实非常出色。


          
KAN: Kolmogorov–Arnold Networks by Liu, Wang, Vaidya, et al. (30 Apr), https://arxiv.org/abs/2404.19756
          

          
Kolmogorov-Arnold Networks (KANs), which replace linear weight parameters with learnable spline-based functions on edges and lack fixed activation functions, seem to offer an attractive new alternative to Multi-Layer Perceptrons, which they outperform in accuracy, neural scaling, and interpretability.
          

          
When to Retrieve: Teaching LLMs to Utilize Information Retrieval Effectively by Labruna, Ander Campos, and Azkune (30 Apr), https://arxiv.org/abs/2404.19705
          

          
This paper proposes a custom training approach for LLMs that teaches them to either utilize their parametric memory or an external information retrieval system via a special token <RET> when it doesn't know the answer.
          

          
A Primer on the Inner Workings of Transformer-based Language Models by Ferrando, Sarti, Bisazza, and Costa-jussa (30 Apr), https://arxiv.org/abs/2405.00208
          

          
This primer offers a succinct technical overview of the techniques used to interpret Transformer-based, decoder-only language models
          

          
RAG and RAU: A Survey on Retrieval-Augmented Language Model in Natural Language Processing by Hu and Lu (30 Apr), https://arxiv.org/abs/2404.19543
          

          
This survey provides a comprehensive view of retrieval-augmented LLMs, detailing their components, structures, applications, and evaluation methods
          

          
Better & Faster Large Language Models via Multi-token Prediction by Gloeckle, Idrissi, Rozière, et al. (30 Apr), https://arxiv.org/abs/2404.19737
          

          
This paper suggests that training LLMs to predict multiple future tokens simultaneously rather than just the next token not only improves sample efficiency but also improves performance on generative tasks.
          

          
LoRA Land: 310 Fine-tuned LLMs that Rival GPT-4, A Technical Report by Zhao, Wang, Abid, et al. (28 Apr), https://arxiv.org/abs/2405.00732


          
Sebastian Raschka, PHD
          
How Good Are the Latest Open LLMs? And Is DPO Better Than PPO?
          
https://magazine.sebastianraschka.com/p/how-good-are-the-latest-open-llms
          
https://twitter.com/rasbt/status/1789634508448211114

1.1 Mixtral 8x22B：型号越大越好！

Mixtral 8x22B 是Mistral AI最新的专家混合 (MoE) 模型，已在宽松的 Apache 2.0 开源许可证下发布。

1.2 Llama 3：数据越大越好！

Meta AI于202年2月发布的第一个Llama模型是开放式LLM的重大突破，也是开源LLM的关键时刻。因此，自然地，每个人都对去年Llama 2的发布感到兴奋。现在，Meta AI开始推出的Llama 3模型同样令人兴奋。

1.3 Phi-3：数据质量越高越好！

就在Llama 2发布一周后，微软分享了他们新的Phi-3 LLM。根据技术报告中的基准测试，即使是最小的Phi-3型号，尽管尺寸还不到Llama 3 8B型号的一半，但其性能仍优于Llama 3 8B型号。

1.4 结论

基于上述三个主要版本，对于公开提供的LLM来说，这是一个特殊的月份。

除了逐层扩展策略之外，整体架构设置和超参数配置与OLMo和Llama等其他 LLM相对相似，如下图所示。

一个有趣的事是，研究人员比较了LoRA和DoRA的参数高效微调！但事实证明， 这两种方法之间没有明显的差异 。

虽然本文没有回答任何研究问题，但它是LLM实施细节的精彩、透明的撰写。从现在开始，分层扩展策略可能会在LLM中更常见。此外，该论文只是发布的一部分。欲了解更多详细信息，苹果还在GitHub上分享了OpenELM代码。

此外，论文的有趣要点包括使用DPO和PPO时的最佳实践建议。

一个有趣的事是，研究人员比较了LoRA和DoRA的参数高效微调！但事实证明，这两种方法之间没有明显的差异。