多模态大模型 | Gemma 3技术报告全面解读

大模型向量数据库机器学习
  1. 引言 ========

芳树无人花自落,春山一路鸟空啼。小伙伴们好,我是微信公众号<小窗幽记机器学习>的小编 吃黄焖鸡的打工人。近日,谷歌DeepMind团队升级Gemma正式发布Gemma 3家族。Gemma 3是多模态大模型,支持长达128K上下文和多高达140种语言,该系列分别有1B、4B、12B和27B四种规模,其中27B版本性能卓越,击败DeepSeek V3 671B,是仅次于DeepSeek R1的最优开源模型。

GitHub地址:

https://github.com/google-deepmind/gemma

模型下载地址:

https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d

技术报告地址:

https://storage.googleapis.com/deepmind-media/gemma/Gemma3Report.pdf

  1. 简介 ========

Gemma 3是多模态大模型,参数规模上从10亿(1B)到270亿(27B)不等,相比于Gemma 2新增了视觉理解能力,扩展了语言覆盖范围,并将上下文长度至少提升至128K tokens(1B版是32k)。 为了应对长上下文带来的KV缓存内存增长问题,模型架构调整了局部注意力层和全局注意力层的比例,通过增加局部注意力层与全局注意力层的比例并保持局部注意力范围较短,从而减少了在长上下文场景下容易出现的 KV 缓存内存激增问题。 此外,通过蒸馏训练和创新的后训练方法,Gemma 3在数学、聊天、指令跟随和多语言能力上均超越了Gemma 2。Gemma3-4B-IT 模型能够与 Gemma2-27B-IT 相媲美,而 Gemma3-27B-IT 模型在多个基准测试中可以与 Gemini-1.5-Pro 相媲美。该报告详细阐述了Gemma 3的架构、训练方法、评估结果,以及在安全性、责任和隐私方面的考量,并向社区开放了所有模型。以下为模型概况:

| 对比维度 | Gemma 2 | Gemma 3 | | --- | --- | --- | | Size Variants | * 2B

  • 9B
  • 27B | * 1B
  • 4B
  • 12B
  • 27B | | Context Window Length | 8k | * 32k (1B)
  • 128k (4B, 12B, 27B) | | Multimodality (Images and Text) | ❌ | * ❌ (1B)
  • ✅ ( 4B,2B, 27B) | | Multilingual Support | – | English (1B) +140 languages (4B, 12B, 27B) |

下面以一问一答的方式概述论文的核心内容:

Q1: 这篇文章想要解决什么问题?

A1: 本文旨在介绍 Gemma 系列轻量级开放模型的最新版本 Gemma 3

  • 它在之前的版本基础上增加了 多模态能力(视觉理解)、更广阔的语言覆盖以及更长的上下文处理能力(除了1B版是32K,其余是 128K tokens)
  • 同时,本文还致力于解决长上下文推理中 KV 缓存内存激增 的问题。

Q2: 这篇文章如何解决这些问题?

A2:

  • Gemma 3 通过 集成一个定制化的 SigLIP 视觉编码器 引入了多模态能力,将图像视为软 tokens 序列进行处理。
  • 为了处理长上下文,模型架构采用了 局部滑动窗口自注意力层和全局自注意力层交替 的方式(5 个局部层对应 1 个全局层),并限制局部注意力层的跨度为 1024 tokens,从而减少 KV 缓存内存的使用。
  • 模型采用 知识蒸馏 进行训练 ,并通过一种 新颖的后训练方法 显著提升了数学、聊天、指令跟随和多语言能力。

Q3: 文章所提出方法的效果如何?

A3: Gemma 3 模型在预训练和指令微调版本上都实现了 优于 Gemma 2 的性能 。特别地, Gemma3-4B-IT 的性能可与 Gemma2-27B-IT 相媲美,而 Gemma3-27B-IT 在各项基准测试中与 Gemini-1.5-Pro 的表现相当 。在 LMSYS Chatbot Arena 中, Gemma 3 27B IT 模型跻身前十 ,其得分高于其他更大的开源模型以及 Gemma 2。

Q4: 文章所提方法还有哪些不足?

A4:

  • 预训练数据污染的风险。尽管 Gemma 3 团队采用了去污染技术来降低评估基准被预训练数据污染的风险,但作者承认,始终存在这种风险,这使得对模型能力的明确评估更加困难。
  • 长上下文能力的局限性。实验中发现,当继续扩展上下文长度时,模型的性能会迅速下降。
  • 模型在特定领域的知识可能不足:在评估模型在化学、生物、放射性和核(CBRN)知识时,作者提到他们的评估表明 Gemma 3 模型在这些领域的知识水平较低。

更多大模型相关如语言大模型、多模态大模型、推理大模型、智能体Agent等的解读和实践可以留意微信公众号<小窗幽记机器学习>:

  1. 方法 =======

Gemma 3 模型遵循与之前版本相同的仅解码器 Transformer 架构。主要的创新和改进体现在以下几个方面:

模型架构:

局部-全局注意力机制 (Local-Global Attention): Gemma 3 采用了 5:1 的局部自注意力层与全局自注意力层交替的结构,且模型的第一层是局部层。局部自注意力采用滑动窗口机制,窗口大小为 1024 tokens。只有全局自注意力层能够处理长达 128K tokens 的上下文。这种设计旨在在不显著降低模型性能的前提下,有效减少长上下文推理过程中 KV 缓存的内存占用。 ◦

长上下文处理 (Long Context): Gemma 3 模型支持 128K tokens 的上下文长度,只有 1B 模型例外,其上下文长度为 32K。为了支持更长的上下文,全局自注意力层的 RoPE (Rotary Positional Embeddings) 基频从 10k 增加到 1M,而局部自注意力层的基频保持在 10k。此外,模型还采用了类似于 Chen 等人 (2023) 提出的 位置插值 方法来扩展全局自注意力层的范围。 ◦

视觉模态 (Vision Modality): Gemma 3 集成了一个 4 亿参数的 SigLIP 编码器,这是一个基于 Vision Transformer (ViT) 的模型,通过 CLIP 损失的变体进行训练。视觉编码器接收 896 x 896 的方形图像作为输入,并将图像编码为固定大小的 256 维向量。为了处理不同宽高比和高分辨率的图像,模型在推理阶段采用了 Pan & Scan (P&S) 方法。 该方法将图像分割成多个非重叠的等尺寸区域,并将它们缩放至 896x896 像素后输入视觉编码器。视觉编码器在 4B、12B 和 27B 模型之间共享,并且在训练过程中被冻结。 ◦

注意力机制 (Attention Mechanisms): 模型使用分组查询注意力 (Grouped-Query Attention, GQA),并采用 post-norm 和 pre-norm 结合 RMSNorm。受 Dehghani 等人 (2023) 等工作的启发,Gemma 3 使用 QK-norm 替代了 Gemma 2 中使用的软裁剪 (soft-capping)。

类似于 PaliGemma,Gemma 3 中的注意力机制对于文本和图像输入采用了不同的处理方式。文本采用单向注意力机制,模型只关注序列中前面的单词。而图像则采用完全的双向注意力机制,没有掩码MASK,允许模型查看图像的每个部分,从而获得对视觉输入的完整、无限制的理解。在下图中可以看到,图像token <img> 具有双向注意力(整个正方形都被点亮),而文本token具有因果注意力。下图展示了注意力机制如何与滑动窗口算法协同工作。

picture.image

训练方法:

预训练 (Pre-training):

Gemma 3 的预训练过程与 Gemma 2 类似,采用了知识蒸馏。训练数据使用了比 Gemma 2 更大的 tokens 预算,并增加了多语言数据的比例,同时引入了图像数据。模型使用了与 Gemini 2.0 相同的 SentencePiece tokenizer,词汇量为 262k。预训练数据经过了安全和质量过滤,包括评估数据集的去污染和使用 Sachdeva 等人 (2024) 提出的方法进行质量重加权。知识蒸馏通过采样每个 token 的 256 个 logits,并让学生模型学习教师模型的分布来实现. ◦

Gemma 3 的预训练数据量相比 Gemma 2 略有增加。不同规模的 Gemma 3 模型使用了不同数量的 tokens 进行预训练:

  • Gemma 3 27B: 14T (万亿) tokens
  • Gemma 3 12B: 12T (万亿) tokens
  • Gemma 3 4B: 4T (万亿) tokens
  • Gemma 3 1B: 2T (万亿) tokens

预训练阶段的知识蒸馏: Gemma 3 的预训练流程与 Gemma 2 类似,采用了知识蒸馏。

  • 在每个 token 的训练过程中,会从教师模型中采样 256 个 logits (模型输出的未归一化概率值),这些 logits 是根据教师模型的概率进行加权的。
  • 学生模型(即正在训练的 Gemma 3 模型)通过交叉熵损失 (cross-entropy loss) 学习教师模型在这 256 个采样 logits 上的概率分布。
  • 对于教师模型输出的未被采样的 logits,其目标概率被设置为零,然后重新归一化采样的 logits 的概率分布。

总结来说,Gemma 3 的知识蒸馏过程涉及到让较小的学生模型学习较大教师模型的输出分布。在预训练阶段,这是通过对教师 logits 进行采样并使用交叉熵损失来实现的。在后训练阶段,则采用了改进的版本,并以一个大型的指令调优模型为教师。后训练还结合了强化学习,这可能意味着蒸馏在此阶段的作用更加复杂,旨在使模型不仅模仿教师的输出,还能学习到更优的行为和策略。

量化感知训练

量化感知训练 (Quantization Aware Training, QAT)。 除了原始的 bf16 精度模型,Gemma 3 还提供了多种量化版本(per-channel int4, per-block int4, switched fp8)。这些量化模型通过在少量步骤(通常为 5,000 步)内使用 QAT 进行微调得到,微调的目标是未量化检查点的概率分布,即使用来自非量化检查点的概率作为目标,并调整数据以匹配预训练和后训练分布。

计算基础设施 (Compute Infrastructure):

模型训练使用了 TPUv4, TPUv5e 和 TPUv5p。视觉编码器的嵌入预先计算,以减少语言模型训练的成本。优化器状态通过 ZeRO-3 的实现进行分片。多 Pod 训练通过数据中心网络进行数据副本规约,采用了 Pathways 的方法。训练框架基于 Jax 和 Pathways,并使用了 GSPMD partitioner 和 MegaScale XLA compiler.

指令微调 (Instruction-Tuning):

预训练模型通过一种改进的后训练方法转化为指令微调模型。该方法依赖于从一个大型指令微调教师模型进行知识蒸馏的改进版本,以及基于 BOND(Best-of-N Distillation,Sessa et al., 2024)、WARM(Weight Averaged Reward Models,Ramé et al., 2024b) 和 WARP(Weight Averaged Rewarded Policies,Ramé et al., 2024a)的改进版本的 强化学习微调阶段

这种改进的知识蒸馏是从一个大型的 IT(Instruction-Tuning) 教师模型中进行的。这意味着一个能力更强的、已经过指令调优的模型被用来指导 Gemma 3 IT 模型的训练。后训练使用了多种奖励函数(包括从通过人类反馈数据训练的权重平均奖励模型中学习、代码执行反馈、解决数学问题的真值奖励)来提升模型的各种能力,并优化了后训练所使用的数据。预训练和指令微调模型都在文本的开头添加 [BOS] token,并且指令微调模型在生成结束时输出 <end_of_turn> token。具体如表4所示:

picture.image

预训练(PT)与指令微调(IT)格式。所有模型共享相同的分词器(tokenizer),其中一些控制 token 专用于 IT 格式。一个关键的区别在于,PT 模型在生成结束时输出 <eos> token,而 IT 模型在生成结束时输出 <end_of_turn> token,如表 4 中 IT 模型所示。因此,微调任何一种模型类型都需要添加它们各自的结束 token。

  1. 实验结果 ==========

官方对 Gemma 3 模型在多个方面进行了全面的评估,并与之前的 Gemma 版本以及其他先进模型进行了比较:

  • LMSYS Chatbot Arena: 在人类评估的盲测中,Gemma 3 27B IT 模型取得了 1338 的 Elo 评分,位列前茅,显著高于 Gemma 2 27B IT 模型的 1220 分。其性能优于 DeepSeek-V3、LLaMA 3 405B 和 Qwen2.5-70B 等更大的开源模型。
  • 标准基准测试: 在各种零样本基准测试中,Gemma 3 模型在 MMLU-Pro, LiveCodeBench, Bird-SQL (dev), GPQA Diamond, MATH, HiddenMath 等多个方面都展现出优于 Gemma 2 的性能。例如,Gemma 3 4B-IT 在许多基准测试中与 Gemma 2 27B-IT 具有竞争力,而 Gemma 3 27B-IT 的性能可以与 Gemini 1.5 Pro 和 Gemini 2.0 的部分版本相媲美。
  • 预训练能力探测: 通过多个标准基准测试对预训练模型的能力进行评估,结果表明,尽管加入了视觉能力,Gemma 3 在科学、代码、事实性、多语言能力、推理和视觉等多个方面都优于 Gemma 2。特别是在多语言能力方面,Gemma 3 取得了显著的进步.
  • 局部-全局注意力层消融实验: 实验结果表明,局部层与全局层的比例变化对困惑度的影响很小,即使局部层与全局层的比例高达 7:1。局部注意力滑动窗口大小的减小也不会显著影响困惑度。然而,采用 5:1 的局部-全局比例和 1024 的滑动窗口大小(Gemma 3 的配置)可以显著降低推理过程中 KV 缓存的内存占用,相较于仅使用全局注意力或 1:1 比例的配置,内存开销减少明显.
  • 长上下文性能: Gemma 3 模型在长上下文基准测试 RULER 和 MRCR 上表现出良好的性能,在 32K 上下文长度下取得了较高的准确率,在 128K 上下文长度下性能有所下降但仍然可用。这表明模型通过 RoPE 重缩放等技术成功扩展了上下文处理能力.
  • 视觉编码器和 Pan & Scan 的影响: 实验表明,使用更高分辨率的视觉编码器可以提升模型在视觉任务上的性能。Pan & Scan (P&S) 方法在处理具有不同宽高比或包含可读文本的图像的任务上显著提高了性能.
  • 与 PaliGemma 2 的比较: 在多模态基准测试上进行微调后,Gemma 3 在文档理解相关的基准测试中优于更大的 PaliGemma 2 模型。此外,由于视觉编码器中的平均池化,Gemma 3 的 4B 和 12B 模型在迁移学习时的成本远低于 PaliGemma 2 的 9B 和 27B 模型.
  • 多语言性能: Gemma 3 预训练模型在 MGSM, Global-MMLU-Lite, WMT24++, Flores, XQuAD, ECLeKTic, IndicGenBench 等多语言基准测试中均展现出优于 Gemma 2 的性能,表明其多语言能力得到了有效提升.
  • 指令微调模型性能: Gemma 3 指令微调模型在包括 MMLU, MBPP, HumanEval, N2C, LiveCodeBench, GSM8K, MATH, BBH 等在内的多个内部和外部基准测试中都显著优于 Gemma 2 指令微调模型。同时,Gemma 3 IT 模型在激活 P&S 的情况下,在多模态基准测试和视频理解基准测试上也表现出了强大的能力.
  1. 总结 ========

Gemma 3 作为 Gemma 系列的最新成员,通过引入多模态能力、更长的上下文处理能力以及增强的多语言和 STEM 相关能力,实现了显著的进步。其关键创新包括高效处理长上下文的局部-全局注意力机制、集成 SigLIP 视觉编码器并采用 Pan & Scan 实现灵活的图像处理,以及一种能够大幅提升模型在各种任务上性能的新颖后训练方法。实验结果表明,Gemma 3 不仅超越了其前身 Gemma 2,还在多个基准测试中展现出与更大规模模型(如 Gemini 1.5 Pro)相媲美的性能。该系列模型的设计充分考虑了与标准硬件的兼容性,并已向社区开放,有望推动更广泛的 AI 应用和研究. 尽管 Gemma 3 取得了显著的进展,但报告中也指出了其潜在的不足和未来可改进的方向:

  • 长上下文处理的进一步优化: 如何在超过 128K tokens 的更长上下文中保持性能稳定, 避免性能快速下降。
  • 评估基准的可靠性: 进一步研究和开发更可靠、更不易被污染的评估基准,以更准确地衡量模型的能力.
  • 安全性的全面评估: 探索更全面的安全性评估方法,以覆盖更广泛的潜在风险场景,而不仅仅依赖于合成对抗性查询.
  • 多模态能力的深入融合: 研究在语言模型训练过程中更有效地利用视觉编码器信息的方法,例如取消冻结视觉编码器或探索更紧密的跨模态交互方式.
  • 多语言能力的持续提升: 继续扩大语言覆盖范围,提升在低资源语言上的性能,并解决多语言场景下的潜在偏见问题.
  • 实际应用和局限性分析: 在更广泛的实际应用中测试 Gemma 3 的性能,并深入分析其在不同应用场景下的优势和局限性,以便更好地指导模型的使用和未来的发展方向.

更多大模型相关,欢迎关注微信公众号《小窗幽记机器学习》:

picture.image

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
IDC 大模型应用落地白皮书
大模型技术已深度融入业务实践,各企业期望其释放更大商业价值。 但大模型落地之路面临许多挑战和顾虑。 如何精准对接业务需求与发展蓝图,制定切实可行的大模型落地策略? IDC发布首个大模型应用策略与行动指南 一为您揭晓一
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论