Meta发布Llama 4模型系列，MoE架构，最高2万亿参数，超越GPT-4.5、Sonnet 3.7和Gemini

素材来源官方媒体/网络新闻

主要模型介绍\x0a1. Llama 4 Scout:\x0a - 170亿活跃参数，16个专家模块，总计1090亿参数\x0a - 首个可在单个NVIDIA H100 GPU上运行的多模态模型\x0a - 支持创纪录的1000万token上下文窗口\x0a - 超越Gemma 3、Gemini 2.0 Flash-Lite和Mistral 3.1等同类模型\x0a\x0a2. Llama 4 Maverick:\x0a - 170亿活跃参数，128个专家模块，总计4000亿参数\x0a - 性能超越GPT-4o和Gemini 2.0 Flash\x0a - 在推理和编码方面与DeepSeek v3相当，但参数量不到一半\x0a - 聊天版本在LMArena上达到1417 ELO分\x0a\x0a3. Llama 4 Behemoth (目前仍在训练中):\x0a - 2880亿活跃参数，16个专家模块，接近2万亿总参数\x0a - 在STEM基准测试中超越GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro\x0a - 作为\x26quot;教师模型\x26quot;蒸馏知识到较小的模型\x0a\x0a技术创新\x0a1. 混合专家架构(MoE):\x0a - 首次在Llama模型中采用MoE架构\x0a - 每个token只激活部分参数，提高计算效率\x0a - 使用交替的密集层和MoE层提高推理效率\x0a\x0a2. 原生多模态能力:\x0a - 早期融合方法将文本和视觉token整合到统一模型中\x0a - 改进的视觉编码器基于MetaCLIP但专门适配LLM\x0a - 支持多达48张图像的预训练，可处理视频帧和多图理解\x0a\x0a3. 超长上下文窗口:\x0a - Scout模型支持1000万token的上下文长度(远超Llama 3的128K)\x0a - 采用交错注意力层和温度缩放的iRoPE架构\x0a - 无需位置嵌入，提高长度泛化能力\x0a\x0a4. 训练技术改进:\x0a - 开发MetaP超参数优化技术\x0a - 使用FP8精度高效训练而不牺牲质量\x0a - 200种语言预训练，其中100多种语言各超10亿token\x0a - 整体数据混合包含超30万亿token