纯干货！盘点2024 年最值得关注的 AI 研究报告(下半年) - 文章 - 开发者社区

前言

月上柳梢头，人约黄昏。小伙伴们，元宵节快乐！我是微信公众号<小窗幽记机器学习>的小编扔炮仗的小男孩。新年伊始，继往开来。延续之前的2024年年度AI论文盘点(上)：盘点2024年最值得关注的AI研究报告(上篇) 。今天这篇小作文是关于2024年人工智能研究亮点系列文章的第二部分，主要回顾了7月至12月期间值得关注的AI研究论文。这篇年度(下半年)回顾文章涵盖了从混合专家模型到新的LLM精度缩放定律等多个相关主题。

原始参考文章：

https://substack.com/@rasbt/p-153692738

7月：Llama 3模型家族

尽管小伙伴们可能已经熟悉Llama 3及其相关论文，但考虑到这些模型的重要性和广泛应用，仍然有必要专门讨论《The Llama 3 Herd of Models》这篇论文。Llama 3模型家族的显著特点在于，相比其前代Llama 2，预训练和后训练流程更加复杂。这种趋势不仅在Llama 3上有所体现，也在其他LLM如Gemma 2、Qwen 2和Apple的基础模型等中出现。

picture.image

Llama 2和Llama 3架构差异

picture.image

不同模型训练数据集数量

Llama 3在不同时间发布了多个版本，包括80亿和700亿参数的初始版本，以及后续的3.1、3.2和3.3版本，参数规模从10亿到4050亿不等。Llama 3的架构与Llama 2相似，主要区别在于更大的词汇量以及为较小模型引入的分组查询注意力机制。Llama 3的训练过程也进行了更新，使用了15万亿个token进行训练，并且预训练过程为多阶段。在后训练方面，Llama 3从Llama 2的RLHF-PPO切换到了DPO。Llama 3.2版本还加入了多模态支持，尽管实际应用和讨论目前相对较少。Llama模型仍然是最广为人知和使用的开源权重LLM之一。Meta AI通过迭代Llama 3模型，发布不同规模的版本，以满足从设备端到高性能应用的不同需求。尽管市场上涌现出许多竞争对手，但多数情况下Llama系列仍将是大多数用户的首选。未来Llama 4的发布仍然值得期待。

picture.image Llama 3.1中的预训练

picture.image Llama 3.1中的后训练

8月：通过扩展推理时计算改进LLM

本月一篇名为《Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters》的论文值得重点介绍。该论文探讨了增加推理时计算资源是否可以改进LLM的输出。这可以类比为人类在困难任务中需要更多时间思考以得出更好答案，因此认为LLM在推理时获得更多资源也可能产生更好的结果。研究人员试图找出，在推理时使用额外计算资源，模型的性能可以比其训练时的性能高出多少。此外，这篇论文的作者还研究了在固定计算预算下，增加推理时计算是否比进一步预训练模型更有效。

文章详细介绍了增加和改进测试时计算的技术，建议读者可以仔细阅读该论文。主要方法包括：生成多个解决方案，并使用单独训练的基于过程的验证器奖励模型来选择最佳响应；以及自适应地更新模型的响应分布，即在推理生成过程中修改响应。作者还通过举例解释了这些方法，例如最佳N次采样、集束搜索等。针对哪种方法更有效，作者指出没有统一的答案，这取决于基础LLM和具体问题。论文还提出了一种“最优”策略，基于查询(query)的难度级别来选择合适的策略。论文还探讨了在固定计算预算下，是使用更大的模型还是增加推理时计算更划算。研究发现， 对于难题，更大的模型表现更好；但对于简单和中等难度的问题，使用推理时计算可以达到与14倍大型模型相同的性能水平 。作者认为，通过合理分配推理计算，可以显著提高响应质量，并且强调了该论文对于部署模型的重要性。此外， 增加设备端LLM的推理时计算 将是一个热门话题。

9月：对比多模态LLM范式

多模态LLM是2024年的一大发展方向。这里选择一篇名为《NVIDIA's NVLM: Open Frontier-Class Multimodal LLMs》的论文，该论文对两种主要的多模态范式进行了比较。构建多模态LLM主要有两种方法： 统一嵌入解码器架构 和 跨模态注意力架构 。前者依赖于一个解码器模型，将图像转换为与文本token具有相同嵌入大小的token，以便LLM处理；后者则通过跨注意力机制直接集成图像和文本嵌入。

picture.image 两种多模态LLM架构

NVIDIA的论文比较了三种方法：统一嵌入解码器架构（NVLM-D）、跨模态注意力架构（NVLM-X）以及一种混合方法（NVLM-H）。NVLM-H结合了前两种方法的优点，首先接受图像缩略图作为输入，然后通过跨注意力处理动态数量的图像块，以捕获更精细的高分辨率细节。研究发现， NVLM-X在高分辨率图像方面具有卓越的计算效率，NVLM-D在OCR任务方面具有更高的准确性，而NVLM-H则结合了两种方法的优点以获得最佳性能 。作者认为，多模态LLM是基于文本的常规LLM的下一个发展方向。尽管目前多模态功能在实际应用中可能只占一小部分，但相信随着工具和API的改进，开放权重LLM将会出现更多多模态选择。

picture.image 三种多模态方法的概述

10月：复制OpenAI的o1推理能力

本月选择了一篇名为《O1 Replication Journey: A Strategic Progress Report -- Part 1》的论文。该论文试图复制OpenAI的o1模型，该模型在推理任务上表现出了显著的性能提升。OpenAI的o1的具体细节尚未公开，因此一些论文试图描述或复制它。选择这篇论文的原因是它不寻常的结构和关于学术研究现状的哲学论点。

该论文提出了一个关键假设，即O1采用了“旅程学习”(journey learning)而非“捷径学习”。传统上，LLM在正确的解决方案路径上进行训练（捷径学习），而旅程学习则包含整个试错纠正过程。这种方法与前面讨论的基于树的搜索方法类似，但研究人员创建旅程学习训练示例来进行模型微调，而非仅在推理时应用此技术。研究人员还构建了一个推理树，强调试错。在他们的框架中，推理树中的每个节点都使用奖励模型进行注释，指示步骤是否正确，并给出推理。他们基于deepseek-math-7b-base通过监督微调和DPO训练了一个模型，并比较了捷径学习和旅程学习的性能。在MATH500基准测试中，旅程学习的性能显著优于捷径学习。

picture.image

随后，该团队发布了第二部分报告：《O1 Replication Journey -- Part 2: Surpassing O1-preview through Simple Distillation, Big Progress or Bitter Lesson?》。他们使用蒸馏方法，通过仔细的提示来从o1中提取思考过程，以训练模型达到相同的性能。尽管蒸馏方法取得了成功，但研究人员指出，这并非推动进步的关键，它只是匹配了现有上游模型的性能，没有刷新性能记录。他们认为，当前研究心态正在从关注“它是如何工作”转向关注“什么有效”，这对未来的创新能力有潜在的负面影响。他们呼吁研究人员保持第一性原理思维，并强调公开承认使用学术论文中的想法的重要性。尽管如此，这篇O1复制论文具有重要的价值，其中包含有助于取得更好结果的想法。相信，“长思考”模型如o1和o3将在LLM研究中发挥关键作用。

11月：LLM精度缩放定律

本月选择了《Scaling Laws for Precision》这篇论文，因为它对2022年Chinchilla缩放定律进行了更新，以考虑低精度设置下的训练和推理。该论文扩展了Chinchilla定律，考虑了训练和推理过程中的低精度设置，并将各种低精度和量化相关的观察结果统一为一个函数形式，该形式可以预测低精度训练和后训练量化带来的额外损失。

picture.image

原始的Chinchilla定律描述了LLM参数计数和数据集大小如何共同影响模型的验证损失。一般来说， 在固定计算预算下，最佳的数据参数比率约为20 。然而，也有现代的例外情况，例如Llama 3团队训练时使用了15万亿个token。作者强调，比确切的数据参数比更重要的是模型和数据集大小必须按比例缩放。作者还简要介绍了LLM权重不同数值精度格式，包括Float32、Float16和Bfloat16。该论文将模型参数计数重新解释为“有效参数计数”，并添加了一个额外项，以捕获后训练量化如何降低模型性能。作者还指出，更多的预训练数据并不总是更好，如果模型在以非常小的精度训练后进行量化，可能是有害的。文章表明，更多数据训练的模型在训练后更难量化为较低的精度格式，因为它们在太多数据上“过度训练”。

picture.image

精度缩放定律的研究为2025年的挑战提供了重要的视角，即 随着模型在更大的数据集上进行训练，它们可能会更难以量化为低精度格式，而不损失性能 。

12月：Phi-4和从合成数据中学习

最后，选择了一篇关于Microsoft的Phi-4模型的技术报告。Phi-4的独特之处在于它主要在GPT-4o生成的合成数据上进行训练。根据基准测试，Phi-4的性能优于其他类似大小的LLM，包括其前身Phi-3，后者主要在非合成数据上进行训练。Phi-4在SimpleQA上的表现较差可能是由于该基准测试相对较新，并未包含在GPT-4o的训练数据中。

picture.image

作者还介绍了Phi-4的训练数据集组合，并指出仅在合成数据上训练的模型在基于知识的基准测试中表现不佳。他提出了一个问题，即合成数据是否缺乏足够的知识信息，或是否包含更多的事实错误。研究人员发现， 增加合成数据的训练epoch数比仅添加更多网络数据更能提高性能 。总之，合成数据比例过高会对基于知识的性能产生负面影响，但在平衡的合成数据与网络数据混合中，增加合成数据集的迭代次数是有益的。作者认为，合成数据对模型预训练非常有益，并强调高质量数据的重要性。他将高质量数据的使用比作迁移学习，认为利用高质量模型生成的合成数据有助于模型从一开始就更有效地学习。

picture.image

结论与展望

最后，对2025年的发展做出了一些预测：多模态LLM将继续发展，尽管在许多用例中，纯文本模型仍然足够；计算效率将成为关注重点，更多的技术将被用来提高LLM的计算效率，例如混合专家、分组查询注意等；状态空间模型虽然有趣，但目前仍处于实验阶段，并且正在与transformer模型融合；关于LLM扩展的讨论也很多，通过数据缩放带来的收益将会减少，post-training将成为未来发展的重要方向。希望在2025年更多地尝试特殊用途的模型微调。

总而言之，这篇文章回顾了2024年下半年AI领域的一些重要研究成果，为读者提供了关于LLM和相关技术发展的见解，并对未来发展趋势做出了展望。