Llama 4 系列:开启原生多模态 AI 创新的新纪元

大模型向量数据库机器学习

点击下方

卡片

,关注“

慢慢学AIGC

2025 年 4 月 5 日

我们正在分享 Llama 4 系列的首批模型,这些模型将使人们能够构建更加个性化的多模态体验。

Llama 4 Scout,一个拥有 16 个专家的 170 亿激活参数模型,是世界上同类别中最佳的多模态模型,比所有之前的 Llama 模型都更强大,同时可以在单个 NVIDIA H100 GPU 上运行。此外,Llama 4 Scout 提供了业界领先的 1000 万上下文窗口,并在广泛报道的基准测试中表现优于 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1。

Llama 4 Maverick,一个拥有 128 个专家的 170 亿激活参数模型,是同类别中最佳的多模态模型,在广泛报道的基准测试中超越了 GPT-4o 和 Gemini 2.0 Flash,同时在推理和编码方面与新的 DeepSeek v3 取得了相当的结果——而激活参数不到后者的一半。Llama 4 Maverick 提供了一流的性能成本比,其实验性聊天版本在 LMArena 上的 ELO 评分为1417。

这些模型是我们迄今为止最好的模型,这要归功于从 Llama 4 Behemoth 蒸馏而来,后者是一个拥有 16 个专家的 2880 亿激活参数模型,是我们最强大的模型,也是世界上最智能的 LLM 之一。Llama 4 Behemoth 在多个 STEM 基准测试中表现优于 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。Llama 4 Behemoth 仍在训练中,我们很高兴在它仍在发展阶段就分享更多关于它的细节。

立即在 llama.com 和 Hugging Face 上下载 Llama 4 Scout 和 Llama 4 Maverick 模型。

llama.cpp:

https://www.llama.com/llama-downloads/

HuggingFace:https://huggingface.co/meta-llama

你可以在 WhatsApp、Messenger、Instagram Direct 和网页( https://www.meta.ai/)上试用基于 Llama 4 构建的 Meta AI。

picture.image

随着越来越多的人继续使用人工智能来提升日常生活,重要的是领先的模型和系统能够公开使用,让每个人都能构建个性化体验的未来。今天,我们很高兴宣布最先进的模型套件,支持整个 Llama 生态系统。我们推出了 Llama 4 Scout 和 Llama 4 Maverick,这是首批开放权重的原生多模态模型,具有前所未有的上下文长度支持,也是我们首次使用混合专家(MoE)架构构建的模型。我们还预览了 Llama 4 Behemoth,这是世界上最智能的 LLM 之一,也是我们迄今为止最强大的模型,作为我们新模型的教师。

这些 Llama 4 模型标志着 Llama 生态系统新时代的开始。我们在 Llama 4 系列中设计了两个高效模型,Llama 4 Scout,一个拥有 16 个专家的 170 亿激活参数模型,和 Llama 4 Maverick,一个拥有 128 个专家的 170 亿激活参数模型。前者可以在单个 H100 GPU 上运行(使用 Int4 量化),而后者可以在单个 H100 主机上运行。我们还训练了一个教师模型,Llama 4 Behemoth,它在 MATH-500 和 GPQA Diamond 等以 STEM 为重点的基准测试中表现优于 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。虽然我们尚未发布 Llama 4 Behemoth,因为它仍在训练中,但我们很高兴分享更多关于我们方法的技术细节。

我们继续相信,开放促进创新,对开发者有利,对 Meta 有利,对世界有利。我们今天在 llama.com 和 Hugging Face 上提供 Llama 4 Scout 和 Llama 4 Maverick 供下载,让每个人都可以继续使用我们最新技术构建新体验。我们也将在未来几天通过我们的合作伙伴提供这些模型。从今天开始,您还可以在 WhatsApp、Messenger、Instagram Direct 和 Meta.AI 网站上试用搭载 Llama 4 的 Meta AI。

这只是 Llama 4 系列的开始。我们相信,最智能的系统需要能够采取通用行动,与人类自然交流,并解决它们以前没有见过的具有挑战性的问题。在这些领域赋予 Llama 超能力将带来更好的产品,为我们平台上的人们提供更多机会,让开发者在下一个重大消费者和商业用例上进行创新。我们正在继续研究和原型开发模型和产品,我们将在 4 月 29 日的 LlamaCon 上分享更多关于我们愿景的内容——请注册以了解更多信息。

注册链接:

https://www.llama.com/events/llamacon/signup/

无论您是在我们的模型上构建的开发者,将它们集成到您的工作流程中的企业,还是只是对 AI 的潜在用途和好处感到好奇,Llama 4 Scout 和 Llama 4 Maverick 都是为您的产品添加下一代智能的最佳选择。今天,我们很高兴分享更多关于它们开发的四个主要部分以及我们研究和设计过程的见解。我们也迫不及待地想看到社区用我们新的 Llama 4 模型构建的令人难以置信的新体验。

预训练

这些模型代表了 Llama 的最佳水平,以具有吸引力的价格提供多模态智能,同时优于显著更大尺寸的模型。构建下一代 Llama 模型需要我们在预训练期间采取几种新方法。

我们新的 Llama 4 模型是我们首批使用混合专家(MoE)架构的模型。在 MoE 模型中,单个 token 只激活总参数的一小部分。MoE 架构在训练和推理方面更加计算高效,并且在固定的训练 FLOP 预算下,与密集模型相比提供更高的质量。

picture.image

例如,Llama 4 Maverick 模型有 170 亿激活参数和 4000 亿总参数。我们使用交替的稠密层和混合专家(MoE)层来提高推理效率。MoE 层使用 128 个路由专家和一个共享专家。每个 token 被发送到共享专家,并且也被发送到 128 个路由专家中的一个。因此,虽然所有参数都存储在内存中,但在服务这些模型时只有一部分总参数被激活。这通过降低模型服务成本和延迟来提高推理效率——Llama 4 Maverick 可以在单个 NVIDIA H100 DGX 主机上运行以便于部署,或者使用分布式推理以获得最大效率。

Llama 4 模型设计具有原生多模态性,结合早期融合无缝地将文本和视觉 token 集成到统一的模型主干中。早期融合是一个重大进步,因为它使我们能够用大量未标记的文本、图像和视频数据联合预训练模型。我们还改进了 Llama 4 中的视觉编码器。这基于 MetaCLIP,但与冻结的 Llama 模型一起单独训练,以更好地使编码器适应 LLM。

我们开发了一种新的训练技术,我们称之为 MetaP,它允许我们可靠地设置关键模型超参数,如每层学习率和初始化尺度。我们发现,所选的超参数在不同的批量大小、模型宽度、深度和训练 token 值之间转移得很好。Llama 4 通过在 200 种语言上进行预训练支持开源微调,其中超过 100 种语言每种都有超过 10 亿个token,总体上比 Llama 3 多 10 倍的多语言 token。

此外,我们通过使用 FP8 精度专注于高效模型训练,不牺牲质量并确保高模型 FLOP 利用率——在使用 FP8 和 32K GPU 预训练我们的 Llama 4 Behemoth 模型时,我们实现了每 GPU 390 TFLOP。总体训练数据混合包含超过 30 万亿个 token,是 Llama 3 预训练混合的两倍多,包括多样化的文本、图像和视频数据集。

我们继续在我们称为"中期训练"的阶段训练模型,使用特殊数据集的长上下文扩展等新训练配方来提高核心能力。这使我们能够提高模型质量,同时为 Llama 4 Scout 解锁最佳的 1000 万输入上下文长度。

后训练我们的新模型

我们最新的模型包括更小和更大的选项,以适应各种用例和开发者需求。Llama 4 Maverick 在图像和文本理解方面提供无与伦比的行业领先性能,使创建跨越语言障碍的复杂 AI 应用成为可能。作为我们产品的主力模型,用于一般助手和聊天用例,Llama 4 Maverick 在精确图像理解和创意写作方面表现出色。

picture.image

在后训练 Llama 4 Maverick 模型时,最大的挑战是保持多种输入模态、推理和对话能力之间的平衡。对于混合模态,我们提出了一个精心策划的课程策略,与单个模态专家模型相比,性能不会折衷。有了 Llama 4,我们通过采用不同的方法彻底改变了我们的后训练流程:轻量级监督微调(SFT) > 在线强化学习(RL) > 轻量级直接偏好优化(DPO)。一个关键发现是,SFT 和 DPO 可能过度约束模型,限制在线 RL 阶段的探索,导致次优精度,特别是在推理、编码和数学领域。为了解决这个问题,我们通过使用 Llama 模型作为评判,移除了超过 50% 被标记为简单的数据,并对剩余的更困难集合进行轻量级 SFT。在随后的多模态在线 RL 阶段,通过精心选择更困难的提示,我们能够实现性能的阶跃式提升。此外,我们实施了一个连续在线 RL 策略,在其中我们交替训练模型,然后使用它来持续过滤并只保留中等到高难度的提示。这种策略在计算和精度权衡方面证明是非常有益的。然后我们进行了轻量级 DPO 来处理与模型响应质量相关的边缘情况,有效地实现了模型智能和对话能力之间的良好平衡。流水线架构和具有自适应数据过滤的连续在线 RL 策略最终形成一个行业领先的通用聊天模型,具有最先进的智能和图像理解能力。

作为通用 LLM,Llama 4 Maverick 包含 170 亿激活参数、128 个专家和 4000 亿总参数,与 Llama 3.3 70B 相比,以较低的价格提供高质量。Llama 4 Maverick 是最佳多模态模型,在编码、推理、多语言、长上下文和图像基准测试中超越了类似的模型,如 GPT-4o 和 Gemini 2.0,并且在编码和推理方面与大得多的 DeepSeek v3.1 竞争。

我们的较小模型,Llama 4 Scout,是一个通用模型,拥有 170 亿激活参数、16 个专家和 1090 亿总参数,为其类别提供最先进的性能。Llama 4 Scout 显著增加了支持的上下文长度,从 Llama 3 的 128K 增加到业界领先的 1000 万 tokens。这开启了无限可能性,包括多文档摘要、解析大量用户活动以进行个性化任务,以及对庞大代码库进行推理。

Llama 4 Scout 以 256K 上下文长度进行预训练和后训练,这赋予了基础模型高级长度泛化能力。我们在诸如"检索大海捞针"等文本检索任务以及对 1000 万 tokens 代码的累积负对数似然(NLL)等任务中提供了令人信服的结果。Llama 4 架构的一个关键创新是使用没有位置嵌入的交错注意力层。此外,我们在推理时使用注意力的温度缩放来增强长度泛化。我们称这为 iRoPE 架构,其中"i"代表"交错"注意力层,突出支持"无限"上下文长度的长期目标,而"RoPE"指的是在大多数层中使用的旋转位置嵌入。

picture.image

picture.image

我们在各种图像和视频帧静止画面上训练了这两个模型,使它们具有广泛的视觉理解能力,包括时间活动和相关图像。这使得在文本提示之外的多图像输入上进行视觉推理和理解任务变得轻松。这些模型在预训练时最多使用 48 张图像,我们在后训练中测试了最多 8 张图像,并取得了良好的结果。

Llama 4 Scout 在图像定位方面也是同类最佳,能够将用户提示与相关视觉概念对齐,并将模型响应锚定到图像中的区域。这使 LLM 能够更精确地进行视觉问答,更好地理解用户意图并定位感兴趣的对象。Llama 4 Scout 还在编码、推理、长上下文和图像基准测试中超越了类似的模型,并提供比所有以前的 Llama 模型更强的性能。

picture.image

这些新模型是帮助实现人类连接未来的重要构建块。为了履行我们对开源的承诺,我们正在 llama.com 和 Hugging Face 上提供 Llama 4 Maverick 和 Llama 4 Scout 供下载,随后将在最广泛使用的云和数据平台、边缘硅片和全球服务集成商上提供。

推动 Llama 迈向新尺寸:2 万亿参数的 Behemoth

我们很高兴分享 Llama 4 Behemoth 的预览,这是一个在同类模型中展示先进智能的教师模型。Llama 4 Behemoth 也是一个多模态混合专家模型,拥有 2880 亿激活参数、16 个专家和接近 2 万亿的总参数。它在数学、多语言和图像基准测试中为非推理模型提供最先进的性能,是教导较小 Llama 4 模型的完美选择。我们从 Llama 4 Behemoth 作为教师模型共同蒸馏了 Llama 4 Maverick 模型,这导致了终端任务评估指标的大幅质量提升。我们开发了一种新颖的蒸馏损失函数,通过训练动态加权软目标和硬目标。来自 Llama 4 Behemoth 的预训练共同蒸馏分摊了计算为蒸馏计算目标所需的资源密集型前向传递的计算成本,这些计算用于学生训练中使用的大部分训练数据。对于学生训练中包含的额外新数据,我们在 Behemoth 模型上运行前向传递来创建蒸馏目标。

picture.image

后训练一个拥有 2 万亿参数的模型也是一个重大挑战,需要我们从数据规模开始完全改造和修改配方。为了最大化性能,我们必须删减 95% 的 SFT 数据,而不是较小模型的 50%,以实现必要的质量和效率关注。我们还发现,进行轻量级 SFT,然后进行大规模强化学习(RL),在模型的推理和编码能力方面产生了更显著的改进。我们的 RL 配方专注于通过对策略模型进行 pass@k 分析来采样困难提示,并制定难度递增的训练课程。我们还发现,在训练期间动态过滤掉零优势的提示,并构建包含来自多种能力的混合提示的训练批次,对数学、推理和编码的性能提升起到了重要作用。最后,从各种系统指令中采样对确保模型保持推理和编码的指令遵循能力并能够在各种任务中表现良好至关重要。

为一个拥有 2 万亿参数的模型扩展 RL 也需要改造我们的底层 RL 基础设施,因为它的规模前所未有。我们优化了 MoE 并行化的设计以提高速度,这使得更快的迭代成为可能。我们开发了一个完全异步的在线 RL 训练框架,增强了灵活性。与现有的分布式训练框架相比,后者为了将所有模型堆叠在内存中而牺牲了计算内存,我们的新基础设施使得根据计算速度灵活地分配不同的模型到单独的 GPU 成为可能,在多个模型之间平衡资源。这一创新导致了训练效率比之前几代提高约 10 倍。

安全保障和保护

我们的目标是开发最有帮助和最有用的模型,同时防止和减轻最严重的风险。我们遵循《开发者使用指南:AI 保护》中概述的最佳实践构建了 Llama 4。这包括在模型开发的每一层,从预训练到后训练,再到可调系统级缓解措施,这些措施保护开发者免受恶意用户的影响。通过这样做,我们使开发者能够为他们支持 Llama 的应用程序创建有帮助、安全和适应性的体验。

预训练和后训练缓解措施

对于预训练,我们使用数据过滤结合其他数据缓解措施来保护模型。对于后训练,我们应用一系列技术来确保我们的模型符合对用户和开发者有帮助的政策,包括在每个阶段的适当安全数据水平。

系统级方法

在系统级别,我们已经开源了几种安全保障,可以帮助识别和防止潜在有害的输入和输出。这些工具可以集成到我们的 Llama 模型中,也可以与其他第三方工具集成:

  • Llama Guard:我们的输入/输出安全大型语言模型,基于我们与 MLCommons 一起开发的危害分类法。开发者可以使用它来检测输入或输出是否违反了他们为特定应用程序创建的政策。
  • Prompt Guard:一个在大量攻击语料库上训练的分类器模型,能够检测明确恶意的提示(越狱)以及包含注入输入的提示(提示注入)。
  • CyberSecEval:帮助 AI 模型和产品开发者理解并减少生成式 AI 网络安全风险的评估。

我们从开发者那里听说,这些工具在可以根据其应用程序进行定制时最有效和最有帮助。我们提供开放的解决方案,让开发者能够根据他们的需求创建最安全和最有效的体验。我们还将继续与全球合作伙伴合作,创建有利于开源社区的行业系统标准。

评估和红队测试

我们以控制和可重复的方式在广泛的场景和用例中系统地测试模型。这产生的数据会被纳入后训练中。

我们使用自动和手动测试,通过对抗性动态探测在一系列主题上对我们的模型进行压力测试。我们在理解和评估潜在模型风险方面取得了进展。其中一个例子是我们新开发的生成式攻击代理测试(GOAT)。使用 GOAT,我们通过模拟中等技能的对抗行为者的多轮交互,解决了传统红队测试的局限性,帮助我们增加测试覆盖范围并更快地发现漏洞。通过将自动化添加到我们的测试工具包中,GOAT 使我们的专家人类红队成员能够专注于更新颖的对抗领域,而自动化则专注于已知风险领域。这使流程更加高效和有效,并使我们能够构建更好的风险定量和定性图景。

解决 LLM 中的偏见

众所周知,所有领先的 LLM 都存在偏见问题——特别是,在有争议的政治和社会主题上,它们历来倾向于左倾。这是由于互联网上可用的训练数据类型造成的。

我们的目标是消除 AI 模型中的偏见,并确保 Llama 能够理解和表达有争议问题的双方观点。作为这项工作的一部分,我们继续使 Llama 更具响应性,以便它能够回答问题,能够在不做出判断的情况下响应各种不同的观点,而不偏爱某些观点。

在这次发布中,我们在这些努力上取得了改进——Llama 4 在有争议的政治和社会主题上的表现明显优于 Llama 3,并与 Grok 相当:

  • Llama 4 在有争议的政治和社会主题上拒绝回应的比例总体降低(从 Llama 3.3 的 7% 降至 2% 以下)。
  • Llama 4 在拒绝回应的提示上显著更加平衡(在一组有争议的主题问题上,不平等回应拒绝的比例现在不到 1%)。
  • 我们的测试表明,在一系列有争议的政治或社会主题上,Llama 4 以与 Grok 相当的速率(Llama 3.3 的一半)表现出强烈的政治倾向。虽然我们正在取得进展,但我们知道我们还有更多工作要做,并将继续进一步降低这一比率。

我们为迄今取得的进展感到自豪,并仍然致力于我们消除模型中整体偏见的目标。

探索 Llama 生态系统

虽然模型的智能很重要,但人们也希望模型能够以个性化的方式以人类般的速度回复。作为我们迄今为止最先进的模型,Llama 4 经过优化以满足这些需求。

当然,模型只是使这些体验成为现实的更大生态系统的一部分。我们专注于全栈,包括新的产品集成。我们很高兴继续与我们的合作伙伴和开源社区的对话,和往常一样,我们迫不及待地想看到人们在新的 Llama 生态系统中构建的丰富体验。

立即在 llama.com 和 Hugging Face 上下载 Llama 4 Scout 和 Llama 4 Maverick 模型。在 WhatsApp、Messenger、Instagram Direct 和 Meta.AI 网站上试用基于 Llama 4 构建的 Meta AI。

这项工作得到了 AI 社区合作伙伴的支持。我们要感谢并认可(按字母顺序):Accenture、Amazon Web Services、AMD、Arm、CentML、Cerebras、CloudFlare、Databricks、Deepinfra、DeepLearning.AI、Dell、Deloitte、Fireworks AI、Google Cloud、Groq、Hugging Face、IBM Watsonx、Infosys、Intel、Kaggle、Mediatek、Microsoft Azure、Nebius、NVIDIA、ollama、Oracle Cloud、PwC、Qualcomm、Red Hat、SambaNova、Sarvam AI、Scale AI、Scaleway、Snowflake、TensorWave、Together AI、vLLM、Wipro。


扫描下方

二维码

,关注“

慢慢学AIGC

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论