llama 4, 开源!

大模型向量数据库机器学习

Meta 开源 llama4, 原生多模态模型, 惯例,支持200多种语言,除了中文。

picture.image

有点堆活,主要特色是,可以单张GPU运行近1000w token上下文的模型,所以直接对标gemini了?

picture.image

1000万token上下文窗口意味着什么?相当于可以处理20多小时的视频内容(因为它是原生多模态模型)。

三款全新模型同步发布

  • Scout :17B激活参数(16个专家)。速度极快,原生多模态,智能程度高。 达到业界领先的1000万+token上下文窗口 ,并且可以在单个GPU上运行!
  • Maverick :17B激活参数(128个专家,100万token上下文窗口)。在多模态领域表现优于GPT-4o和Gemini 2.0 Flash,在广泛的基准测试中领先,同时在推理和编码方面达到与DeepSeek v3相当的结果,但激活参数不到后者的一半。它在性能与成本比上表现出色,实验性聊天版本在LMArena上得分1417 ELO。同样可在单台主机上运行!
  • Behemoth :288B激活参数(16个专家)。这个模型仍在训练中,是Meta迄今为止最强大的模型,也是全球最智能的LLM之一。Llama 4 Behemoth在多项STEM基准测试中超越了GPT4.5、Claude Sonnet 3.7和Gemini 2.0 Pro。

目前只有Scout和Maverick已经发布。

核心亮点

  • 原生多模态架构:所有模型使用 早期融合 技术,将 文本、图像视频 无缝整合到统一的模型主干中。
  • 采用了混合专家(MoE)架构,MoE设计降低了推理成本同时提高了质量。
  • 两个MoE模型训练了 高达40万亿token ,预训练涵盖200种语言,性能显著超越前代产品Llama 3.1 405B。
  • Llama 4 Scout拥有1000万token的上下文窗口。
  • 从2T参数的教师模型共同蒸馏,强化了推理能力。
  • 减少了政治偏见,拒绝率更加平衡。
  • 训练采用了新策略,包括用于优化超参数的"MetaP"方法、通过自适应过滤增强的实时强化学习,以及从更大的Behemoth模型共同蒸馏。
  • 根据Meta的计算,Llama 4 Scout可以在单个Nvidia H100 GPU上运行,而Maverick则需要Nvidia H100 DGX系统或同等配置。

性能基准测试

Llama 4 Scout(17B激活参数,1000万上下文)在编码、推理和长文本任务上超越了之前的Llama模型,在图像理解方面也能与更大的模型相媲美。Llama 4 Maverick(17B激活参数,总计400B)在多语言理解、编码基准和视觉推理方面超过了GPT-4o和Gemini 2.0。两款模型都受益于与尚未开源的的Llama 4 Behemoth(288B激活参数)的共同蒸馏,在STEM测评中获得了更高分数。

picture.image

LMArena ELO评分与成本对比 :"为了提供用户体验,每个token在一次性350毫秒预填充延迟后达到30毫秒解码延迟,我们估计模型每百万token的服务成本在

0.49之间(3:1混合)"

picture.image

Llama 4 Maverick位居总排名第二 - 成为第四个在Arena上突破1400+的组织!

picture.image

下载地址:

惯例,虽然你可以广泛、免费使用、修改和分发Llama 4,如果你将模型用于商业用途,且你的产品或服务月活用户超过7亿,则需要在继续合法使用模型前向Meta申请并获得单独的许可。

iRoPE:Llama 4 Scout长上下文支持的技术基础

iRoPE详解

目标 :在较短上下文上训练,并泛化到极长序列(256K或更多),无需处处使用显式位置嵌入。它被称为"iRoPE",因为它使用交错层("i")和旋转位置嵌入(RoPE)。理论上通过巧妙结合局部和全局注意力,使上下文长度无界限。

  1. 具有RoPE的局部可并行分块注意力 在局部注意力块上使用RoPE。每个块处理较短的上下文窗口(例如8K token)。在较小序列上训练更节省内存,仍能捕获局部依赖关系。这些短上下文注意力层完全可并行化。
  2. 无位置嵌入的全局注意力 某些层作为"全局"注意力层,视野超过8K token。在这些层中省略固定位置嵌入以改善长度外推。目标是让模型处理远超训练中明确见过的序列长度。
  3. 最大训练长度 :256K 尽管局部和全局注意力是同一模型的一部分,iRoPE只训练到256K token。超过这个长度,它依靠模型的外推能力而非匹配精确的训练模式。
  4. 极长位置注意力权重扁平化 在非常大的位置(如数十万token),注意力权重趋于扁平化。这损害了模型关注相关token的能力。
  5. 推理时温度缩放 为抵消扁平化注意力,iRoPE在全局注意力层中将 查询 向量乘以缩放因子:

xq *= 1 + log(floor(i / α) + 1) * β

这为上下文后期出现的token赋予额外权重,帮助模型在极长序列中保持更有意义的注意力信号。它在保持短程性能(低于α)的同时增强长程推理能力。

  • i = 位置索引
  • α = 阈值(例如8K)
  • β = 缩放因子

训练后处理管道

这个总参数量为2万亿的模型(Behemoth)在训练后处理方面是个巨大挑战,他们不得不因应规模重新设计底层RL基础设施。

picture.image

训练后管道简述 :轻量级SFT → 在线RL → 轻量级DPO。过度使用SFT/DPO会过度约束模型并限制在线RL期间的探索能力,因此保持轻量级处理。

首先应用轻量级监督微调(SFT),在筛选的数据子集上进行。他们移除了一半以上的"简单"提示(由Llama评判识别),以强调更难的问题。提高了模型的基线性能而不过度约束它。

然后切换到持续在线强化学习(RL),配合自适应数据过滤。模型在中高难度提示上生成响应,没难度的提示被过滤掉。通过训练和过滤循环,集中精力于具挑战性的例子,增强数学、编码和推理能力。

最后进行直接偏好优化(DPO),管理细粒度质量问题。采用更轻量级的DPO阶段,避免降低复杂任务的性能。这套流程确保了模型能平衡处理多模态输入,保持创造力,同时可靠处理高难度提示。

Llama 4 Behemoth 的共同蒸馏进一步提炼了两个较小的Llama 4模型,以更少的激活参数传递高级推理技能,进一步提升了训练后结果。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 GPU Scale-up 互联技术白皮书
近日,字节跳动正式发布基于以太网极致优化的 GPU Scale-up 互联技术白皮书,推出 EthLink 的创新网络方案,旨在为 AI 集群提供低延迟、高带宽的高速互联传输,满足 AI 应用对 GPU 之间高效通信的需求。这一举措标志着字节跳动在 AI 基础设施领域的突破,有望推动通用人工智能(AGI)和大语言模型(LLM)的进一步发展。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论