全面解读Gemini 2.5技术细节,并纵观Gemini 1.0到2.5 的演进路线

大模型向量数据库机器学习
  1. 引言 =====

最近,谷歌公布了Gemini 2.5技术报告。Gemini 2.5,凭借思考机制、原生工具使用和增强多模态,超越了1.0与1.5,实现长上下文深度理解。本文先介绍Gemini 2.5的技术细节,再横向对比Gemini 1.0、Gemini 1.5和Gemini 2.5这3者的差异,从而展现Gemini技术迭代的演进路径。

参考资料:

更多AI相关可以留意本公众号"小窗幽记机器学习"

  1. Gemini 2.X 系列有哪些版本? ======================

Gemini 2.5系列模型是Google DeepMind推出的最新一代AI模型,旨在推动高级推理、多模态理解、长上下文处理和下一代智能体能力的前沿发展。该系列模型包括多个版本,各有侧重。

Gemini 2.X 系列(包括2.5系列及其2.0 Flash和Flash-Lite)的所有模型都具备原生多模态 支持、超过100万个token的长上下文输入 能力和原生工具使用 支持。这意味着它们能够理解文本、音频、图像、视频甚至整个代码库等各种信息源中的大量数据集,并处理复杂问题。

以下是Gemini 2.X系列中的主要版本及其差异:

Gemini 2.5 Pro

  • 定位与能力 :它是当时发布之际最强大、最智能的思考模型 ,在领先的编码和推理基准测试中取得了最先进 (SoTA) 的性能。它在生成交互式Web应用程序、代码库级别理解以及多模态编码能力方面表现出色。即使在目前,Gemini 2.5 Pro依然是最顶尖的模型之一。
  • 多模态 :擅长多模态理解,能够处理长达3小时 的视频内容。其长上下文、多模态和推理能力的独特结合可以解锁新的智能体工作流。
  • 思考能力 :具备动态思考 能力,能够在推理时使用额外的计算资源来获得更准确的答案,甚至可以在“思考”阶段进行数万次前向传播。思考能力与多模态输入和长上下文能力原生集成,并支持用户设置思考预算以平衡性能和成本。
  • 长上下文 :能够处理长达 100 万个token 的长上下文输入序列,并且在处理长文本、整个代码库以及长音频和视频数据方面超越了Gemini 1.5 Pro。
  • 工具使用 :支持工具使用。
  • 知识截止日期 :2025年1月。
  • 性能提升 :在LMArena Elo分数上,Gemini 2.5 Pro比Gemini 1.5 Pro高出超过120分。在编码、数学和推理任务上,如LiveCodeBench、Aider Polyglot、SWE-bench Verified、AIME 2025和GPQA(diamond),其性能显著优于之前的模型。
  • 安全性 :虽然在某些关键能力(如网络安全和机器学习研发)上有所提升,但并未达到任何关键能力级别 (CCL)。

Gemini 2.5 Flash

  • 定位与能力 :这是一款混合推理模型 ,具有可控的思考预算 。它适用于大多数复杂任务,同时能够很好地平衡质量、成本和延迟。
  • 思考能力 :具备动态思考 能力。
  • 长上下文 :能够处理长达 100 万个token 的长上下文输入。
  • 工具使用 :支持工具使用。
  • 知识截止日期 :2025年1月。
  • 性能提升 :Gemini 2.5 Flash已成为Gemini系列中第二强大的模型 ,甚至超越了去年的Gemini 1.5 Pro。在LMArena Elo分数上,比Gemini 1.5 Flash高出111分。
  • Gemini 2.5 Flash-Lite (实验性版本)
  • 定位与能力 :于2025年6月发布,旨在提供一个经济高效 的模型类别,具有超低延迟每美元高吞吐量 的特点。
  • 能力继承 :继承了Gemini 2.5的关键能力,包括可调节的思考预算、连接Google搜索和代码执行等工具的能力,以及多模态输入和100万token的上下文长度支持。

Gemini 2.0 Flash

  • 定位与能力 :这是一款 快速且成本高效的非思考模型 ,适用于日常任务。
  • 思考能力 :通常被描述为 非思考模型 。然而,曾有一个实验性的“Gemini 2.0 Flash Thinking”版本于2024年12月发布,具有思考能力,这为Gemini 2.5思考系列奠定了基础。
  • 长上下文 :支持 100 万个token 的长上下文输入。
  • 工具使用 :支持工具使用。
  • 知识截止日期 :2024年6月。
  • 性能 :与Gemini 1.5模型相比,在安全性方面显著提升,但在某些良性用户请求上可能过度拒绝。

Gemini 2.0 Flash-Lite

  • 定位与能力 :Gemini系列中 最快且成本效益最高 的模型,专为大规模使用而设计。
  • 思考能力 :不具备思考能力。
  • 长上下文 :支持 100 万个token 的长上下文输入。
  • 工具使用 :支持工具使用。
  • 知识截止日期 :2024年6月。

其他实验性或特定功能版本

  • Gemini 2.0 Pro (实验性版本)
  • 于2025年2月发布,曾是Gemini系列中编码性能最强、理解和世界知识最好的模型,并配备了当时最大的 200 万token 上下文窗口。
  • Gemini 2.0 Flash原生图像生成模型 (实验性版本)
  • 于2025年3月发布,通过与图像生成能力的深度集成,为用户带来了新的能力,例如通过自然语言提示进行图像生成和编辑,包括多步对话式编辑或文本-图像交错生成。
  • Gemini 2.5 音频生成
  • 包括可控TTS(文本到语音)和原生音频对话功能。
  • Gemini 2.5 Preview TTS Pro 和 Flash 支持超过80种语言,可通过自由格式提示控制语音风格(如风格、情感、语速),并支持多说话人语音生成。
  • Gemini 2.5 Flash Preview 原生音频对话模型 提供与TTS相同级别的风格、语速和口音控制,支持工具使用和函数调用,并支持超过24种语言。它能够理解并适当响应用户语气,并判断何时响应、何时不响应(忽略背景和非设备定向音频)。
  • Gemini 2.5 Pro Deep Think (实验性版本)
  • 于2025年6月发布给信任测试人员和高级用户,采用了新颖的“深度思考”推理方法,在生成响应时自然地融合了并行思考技术。它能 创造性地生成多个假设并仔细评估它们 ,从而在奥林匹克数学、LiveCodeBench(竞争性编码)和MMMU(多模态理解)等挑战性基准测试中取得最先进的性能。

总的来说,Gemini 2.X系列通过提供不同能力和成本平衡的模型,涵盖了模型能力与成本之间的整个帕累托最优边界(Pareto Frontier),使用户能够探索复杂智能体问题解决的可能性边界。

补充说明:

所谓的Pareto Frontier是指在多目标决策问题中,由所有帕累托最优解组成的集合,其中任何一个解的改进都无法在不损害其他至少一个目标的情况下实现。

  1. 如何训练Gemini 2.5? ==================

Gemini 2.5 Pro 模型是 Gemini 2.X 系列中能力最强 的模型,其训练涉及模型架构、数据集、基础设施和后训练方法等全链路的先进设计与实现

以下是 Gemini 2.5 Pro 具体训练环节的设计和实现。

  • 模型架构
  • Gemini 2.5 模型是 稀疏混合专家 (Sparse Mixture-of-Experts, MoE) Transformers 模型
  • 这种架构通过 动态路由 token 到参数的子集(专家) ,从而实现 解耦总模型容量和每个 token 的计算与服务成本
  • 与 Gemini 1.5 相比,Gemini 2.5 的模型架构在 大规模训练稳定性、信号传播和优化动态 方面取得了显著进展,从而在预训练阶段就 大幅提升了性能
  • Gemini 2.5 模型原生支持 多模态 输入,包括文本、视觉和音频。
  • 数据集
  • 这些数据包括 多模态数据(配对指令和响应)、人类偏好数据以及工具使用数据
  • 此外,还包括人类偏好数据和工具使用数据
  • 它包括 公开的网络文档、代码(各种编程语言)、图像、音频(包括语音和其他音频类型)和视频 。原始技术报告中 并未透露 具体的数据量。
  • Gemini 2.5 的知识截止日期是 2025 年 1 月 ,而 Gemini 2.0 的截止日期是 2024 年 6 月。
  • 与 Gemini 1.5 的预训练数据集相比,Gemini 2.5 在 数据质量方面采用了新的改进方法 ,包括 过滤和去重
  • 预训练数据集 是一个大规模、多样化 的数据集合,涵盖了广泛的领域和模态。
  • 后训练数据集 与 Gemini 1.5 类似,由精心收集和验证的指令调优数据 组成。
  • 训练基础设施
  • 切片粒度弹性 (Slice-Granularity Elasticity):系统现在能够在出现局部故障时,自动以更少的 TPU 芯片“分片”继续训练,这种重配置每次中断只会造成几十秒的训练时间损失,而如果没有弹性机制,等待健康机器重新调度则可能会延迟10分钟甚至更久。在故障分片恢复期间,系统仍以大约97%的吞吐率继续训练。在训练2.5系列模型期间,每小时会多次遇到硬件故障带来的中断,这种容错机制使得系统可以承受更大规模下更高故障率。
  • 分阶段 SDC 检测 (Split-Phase SDC Detection):通过** 轻量级确定性回放(deterministic replay)** 立即重复任何指标可疑的步骤,并比较 每台设备中间校验和 (per-device intermediate checksums) 以定位数据损坏的根本原因。这使得在几分钟内就能识别并排除出现间歇性 SDC 的加速器。
  • Gemini 2.5 模型系列是 首个在 TPUv5p 架构上训练 的模型家族。
  • 训练采用 同步数据并行训练 ,通过 Google 的 TPUv5p 加速器在 多个 8960 芯片 节点上并行化,并 分布在多个数据中心
  • 与 Gemini 1.5 相比,软件预训练基础设施的主要进步体现在 弹性 (elasticity) 和 SDC(Silent Data Corruption,静默数据损坏)错误缓解 方面。
  • 这些技术得益于 Pathways 系统的 单控制器设计 ,这使得所有加速器都可以通过一个具有全局系统状态视图的 Python 程序进行协调。控制器可以利用 TPU 工作节点上的并行“远程Python”操作来监控训练指标、追踪性能落后者,并定位 SDC 错误的根本原因。
  • 在整个训练过程中,93.4%的时间用于执行 TPU 计算;其余时间大约一半用于弹性重配置,另一半用于弹性机制失效时的罕见尾部情况。大约4.5%的计算步骤是为模型调试干预而进行的重放或回滚。
  • 后训练
  • 结合了 可验证奖励 (verifiable rewards)基于模型的生成奖励 (model-based generative rewards),以提供更复杂和可扩展的反馈信号。
  • RL 过程的算法改进也提高了 长期训练的稳定性
  • 这些进步使得 Gemini 2.5 能够从 更多样化、更复杂的 RL 环境 中学习,包括那些需要 多步操作和工具使用 的环境。
  • 这些改进共同促成了 全面的性能提升 ,Gemini 2.5 Flash 和 Pro 的 LMArena Elo 分数比其 Gemini 1.5 对应模型 提升了超过 110 分 (Gemini 2.5 Pro 提升 122 分,Gemini 2.5 Flash 提升 111 分)。
  • 对于RL增加训练计算资源的分配 ,以更深入地探索和完善模型行为。
  • 自 Gemini 1.5 发布以来,在 监督微调 (Supervised Fine-Tuning, SFT)、奖励建模 (Reward Modeling, RM) 和强化学习 (Reinforcement Learning, RL) 阶段的数据质量方面取得了显著进步。
  • 一个关键焦点是 利用模型本身来辅助这些过程 ,实现更高效和精细的质量控制。
  • 思考能力
  • 模型可以 自行决定思考多久 ,并且用户可以 设置思考预算 ,以平衡性能和成本。增加思考预算可以显著提高模型的准确性。
  • 思考能力已与其他 Gemini 能力(包括原生多模态输入和百万 token 长上下文)集成。
  • Gemini 思考模型通过 强化学习进行训练 ,以便在推理时 使用额外的计算资源来获得更准确的答案
  • 模型可以在 “思考”阶段进行数万次前向传播 ,然后响应问题或查询。
  • 这项训练方法从最初的实验性思考模型 Gemini 2.0 Flash Thinking (2024 年 12 月发布) 演变而来,如今 Gemini 2.5 思考系列 将思考能力原生集成到所有领域
  • 特定能力提升
  • 代码能力 :在预训练中增加了 更多和更多样化的代码数据 ,并在后训练中开发了 新颖的训练技术 ,以解决现代工程挑战。Gemini 2.5 Pro 在 LiveCodeBench、Aider Polyglot 和 SWE-bench Verified 等基准测试中表现显著提升。
  • 事实性 :Gemini 2.0 首次支持 原生调用 Google 搜索等工具 ,Gemini 2.5 则进一步整合了 高级推理能力 ,使其能够将搜索与内部思考过程交织,回答复杂的多跳查询和执行长周期任务。
  • 长上下文 :建模和数据方面的进步改善了模型在百万 token 上下文窗口下的响应质量。Gemini 2.5 Pro 能够处理长达 100 万 token 的长上下文输入序列,并且在处理长文本、整个代码库以及长音频和视频数据方面表现优异。
  • 多语言性 :通过 优化预训练和后训练数据质量、改进分词技术以及核心建模创新 ,显著增强了多语言能力,尤其是在印度语、中文、日语和韩语方面。
  • 音频 :除了理解,Gemini 2.5 还训练了 音频生成任务 ,例如文本到语音(TTS)和原生音视频到音频对话。增加了超过 200 种语言的预训练数据。
  • 视频 :显著扩展了预训练和后训练的视频理解数据,提高了音视频和时间理解能力。模型可以以更低的视觉 token 数(66 而非 258)与竞争对手媲美,使得在 1M token 上下文窗口内处理约 3 小时视频 成为可能。
  • 智能体用例 :例如 Gemini Deep Research,一个基于 Gemini 2.5 Pro 的智能体,能够策略性地浏览网页并提供深入的答案。具体入口:https://gemini.google/overview/deep-research/
  • 安全、保障和责任 Google DeepMind 致力于负责任地开发 Gemini ,在能力提升的同时创新安全性
  • 模型通过 数据过滤、有条件预训练、监督微调 (SFT) 和Reinforcement Learning from Human and Critic Feedback (RL*F) 将安全性融入模型。
  • 通过 自动化红队 (Automated Red Teaming, ART) 大规模动态评估模型,以识别不安全或无益的响应,并利用这些案例改进评估和训练数据。
  • Gemini 2.5 模型在安全指标方面表现出 更强的健壮性 ,并且 相比 1.5 版本更加有用 ,减少了对良性请求的过度拒绝。
  • Gemini 2.5 Flash 和 Gemini 2.5 Pro 对所有三种攻击技术(Actor Critic, Beam Search, TAP)都表现出 更大的弹性 ,这得益于在 Gemini 2.5 中增加了针对间接提示注入攻击的安全对抗训练。

综合来看,Gemini 2.5 Pro 的训练是一个高度复杂且集成度极高 的过程,通过先进的模型架构、大规模高质量多模态数据、创新的训练基础设施以及精细的后训练和安全保障机制 ,使其成为目前最强大、最智能的 AI 模型之一。

  1. Gemini 2.5的演进路径 ==================

Gemini 2.5 演进过程涉及了多个实验性模型的测试与发布,这些模型和能力的引入共同推动了最终 Gemini 2.5 Pro 和 Gemini 2.5 Flash 的诞生。

以下是通往 Gemini 2.5 的具体演进路径中的一些关键实验性模型和能力:

  • Gemini 2.0 Flash Thinking :作为最初的实验性思考模型,于 2024 年 12 月 推出。它标志着模型推理时使用额外计算(即“思考”)以获得更准确答案能力的开端。Gemini 2.5 思考系列后来将这种“思考”能力原生集成到所有领域中,使得模型能普遍实现更强的推理性能。
  • Gemini 2.0 Pro :于 2025 年 2 月 发布了一个实验版本。当时,它是 Gemini 模型家族中编码性能最强、理解能力和世界知识最佳的模型,并且拥有当时最大的 200 万 token 上下文窗口 ,使其能够全面分析和理解大量信息。
  • Gemini 2.0 Flash 原生图像生成模型 :于 2025 年 3 月 发布了实验版本。它通过 Gemini 模型与图像生成能力的紧密集成,为用户带来了新的图像生成和图像编辑体验,支持多步对话编辑和文本-图像交错生成。这种原生集成使得 Gemini 能够通过文本和图像来表达想法,并在两者之间无缝切换。
  • Gemini 2.5 Audio Generation :这项能力作为独立选项在 AI Studio 中提供,包括可控文本转语音 (Controllable TTS)原生音频对话 (Native Audio Dialog)
  • Gemini 2.5 Preview TTS Pro 和 Flash 模型支持超过 80 种语言 ,并能通过自由格式的提示来控制语音风格(如风格、情感、语速等),甚至能遵循转录中指定的更细粒度的指导。它还能生成多说话人的语音,支持如 NotebookLM 音频概览等应用。
  • Gemini 2.5 Flash Preview 原生音频对话模型支持超过 24 种语言 ,具有与可控 TTS 类似的声音风格、语速和口音控制。该对话模型支持工具使用和函数调用,能够理解并恰当回应用户语气,并判断何时应答以及何时忽略背景或非指令指向的音频。此外,它还提供了一个高级的“思考”变体,能更有效地处理复杂查询并提供更严谨的响应,但会增加一些延迟。
  • Gemini 2.5 Flash-Lite :于 2025 年 6 月 发布了实验版本。它的目标是提供一个经济型模型类别 ,具备超低延迟和每美元高吞吐量。它继承了 Gemini 2.5 的核心能力,包括可控的思考预算、与 Google 搜索和代码执行等工具的连接、多模态输入支持以及 100 万 token 的上下文长度。
  • Gemini 2.5 Pro Deep Think :于 2025 年 6 月 在 Google I/O 上宣布,并向受信任的测试者和高级用户发布了实验版本。它开发了一种名为“Deep Think”的新型推理方法,将并行思考技术自然地融入到响应生成中。Deep Think 允许 Gemini 创造性地生成多个假设并仔细批判它们,从而在奥林匹克数学(Olympiadmath)、LiveCodeBench 和 MMMU 等挑战性基准测试中达到最先进的性能

这些实验性的模型和能力的推出,以及在模型架构、训练方法和数据集方面的进步,共同构成了 Gemini 2.5 家族的演进路径,使其在能力与成本之间实现了帕累托前沿的突破。最终,Gemini 2.5 Pro 成为了 Google 迄今为止最强大的模型,在编码和推理基准测试中达到了最先进的性能,并具备了高级Agent工作流的潜力。

  1. 对比 Gemini 1.0、1.5和Gemini 2.5 ===============================

以下综合对比Gemini 1.0、Gemini 1.5和Gemini 2.5在训练数据集、模型架构和训练方法上的演进细节及其差异。

4.1 模型架构

  • Gemini 1.0:
  • 提供三种主要尺寸: Ultra 用于高度复杂的任务, Pro 用于增强性能和大规模部署, Nano 用于设备端应用。
  • 基于 Transformer 解码器 架构,并针对大规模稳定训练和在Google Tensor Processing Units (TPU) 上的优化推理进行了改进。
  • 原生多模态支持 ,能够理解图像、音频、视频和文本输入。
  • 支持 32K token 的上下文长度 ,并采用多查询注意力(MQA)等高效注意力机制。
  • Gemini 1.5:
  • Gemini 1.5 Pro 采用 稀疏混合专家 (MoE) Transformer 模型架构,延续了Gemini 1.0的研究进展和多模态能力。
  • Gemini 1.5 Flash 是一款基于 密集 Transformer 的模型,通过 在线蒸馏 (online distillation) 从Gemini 1.5 Pro中蒸馏而来。
  • 在模型架构上进行了重大改进,使其能够支持 高达至少1000万 token 的超长上下文窗口 。这意味着可以处理数小时的视频和音频,以及数百万字的文本。
  • 原生多模态能力使其能够 在同一输入序列中交错处理音频、视觉、文本和代码输入
  • Gemini 2.5:
  • Gemini 2.5 系列模型(包括Pro和Flash)均为具有 原生多模态支持 (文本、视觉、音频输入)的 稀疏混合专家 (MoE) Transformer 模型。
  • 在模型架构方面, 显著提升了大规模训练稳定性、信号传播和优化动态 ,从而在预训练阶段就带来了性能的显著提升。
  • Gemini 2.5 Pro 在处理长达 100万 token 的长上下文输入序列 时性能超越了Gemini 1.5 Pro。
  • 引入了 “思考”(Thinking)机制 ,Gemini 2.5 Pro是其最智能的“思考”模型,Gemini 2.5 Flash是带有可控思考预算的混合推理模型。
  • Gemini 2.5 Deep Think 引入了一种新的推理方法,将 并行思考技术自然地融入到响应生成中 ,允许模型生成多个假设并批判性地评估它们。
  • 较小的Gemini 2.5系列模型(Flash尺寸及以下)继续使用 蒸馏技术 ,并利用k-稀疏分布来近似教师模型的下一个token预测分布,以降低存储成本并提高质量。

4.2 训练数据集

  • Gemini 1.0:
  • 预训练数据集 :包含 多模态和多语言数据 ,来源包括网络文档、书籍、代码,并整合了图像、音频和视频内容。
  • 应用 质量过滤 (启发式规则和模型分类器)和 安全过滤 (去除有害内容)。
  • 为保持评估的完整性,会从训练语料库中 移除任何评估数据
  • 后训练/微调数据集 :通过 监督微调 (SFT) 在示范数据上进行,示范数据可以是人类专家编写的,也可以是模型生成并经人类修订的。
  • 奖励模型 (RM) 基于人类反馈数据进行训练,这些数据包括对候选响应的相对偏好和对单个响应的反馈。
  • 后训练也使用了 多语言数据 ,包括人类生成的非英语提示-响应对和自动翻译的对,并进行质量过滤。
  • 多模态视觉能力通过混合文本和专家策划的图像-文本数据进行微调。
  • 代码能力通过高质量的示范数据和反馈数据进行增强,包括人类和合成方法。
  • 知识截止日期未直接说明,但通过后续版本对比推断约为 2023年11月
  • Gemini 1.5:
  • 预训练数据集 :与Gemini 1.0系列类似,在 多模态和多语言数据 混合数据集上进行预训练,数据源包括网络文档、代码,并包含图像、音频和视频内容。
  • 知识截止日期为 2023年11月
  • 后训练/微调数据集 :通过 指令微调 (instruction-tuning) 在多模态数据集合上进行,这些数据包含配对的指令和相应的预期响应,并进一步基于人类偏好数据进行微调。
  • 预训练阶段进行了 安全过滤 ,并为部分训练数据添加了 控制标签 (例如基于文本毒性分类器),以帮助在后训练阶段更容易地实现安全对齐。
  • 监督微调 (SFT) 阶段会利用对抗性提示,并结合受“Constitutional AI”启发的定制数据生成方法和人工干预来修改响应。
  • Gemini 2.5:
  • 预训练数据集 :是 大规模、多样化的数据集合 ,涵盖广泛的领域和模态,包括公开可用的网络文档、代码(各种编程语言)、图像、音频和视频。
  • 知识截止日期更新 :Gemini 2.0 的知识截止日期为 2024年6月 ,而 Gemini 2.5 的知识截止日期为 2025年1月
  • 相较于Gemini 1.5,Gemini 2.5在 数据质量方面采用了新的改进方法,包括过滤和去重
  • 在预训练中 增加了更大体量和更多样化的代码数据 ,以支持对复杂、多模态软件环境的理解。
  • 后训练/微调数据集 :指令微调数据取得了 显著进步
  • 核心在于 持续关注 SFT(监督微调)、RM(奖励模型)和 RL(强化学习)阶段的数据质量
  • 利用模型本身辅助数据处理过程 ,实现了更高效和细致的质量控制。

4.3 训练方法

  • Gemini 1.0:
  • 对Gemini API模型进行微调,使其学习使用编程和搜索工具。
  • 在部署前进行负责任的部署评估,包括影响评估、模型策略制定、安全评估和危害缓解。Gemini Advanced(使用Ultra 1.0)经过多轮红队测试。
  • Gemini Ultra 采用了 不确定性引导的链式思考 (uncertainty-routed chain-of-thought) 方法,通过多样本和共识阈值来提高准确率。
  • 能够 原生输出图像 ,无需中间的自然语言描述。
  • 原生支持工具使用 :Gemini Apps模型可通过Gemini Extensions调用Google Workspace、地图、YouTube等工具。
  • 主要在 **Google 的 TPUv4 和 TPUv5e **上进行训练,特别是Ultra模型使用了大规模TPUv4集群。
  • 使用JAX和ML Pathways作为实现框架。
  • 通过对训练语料库的采样训练分词器以提高分词效率和模型质量。
  • 模型训练过程中会分阶段改变数据混合比例,在后期增加领域相关数据的权重。
  • 采用链式思考 (chain-of-thought) 提示和自洽性 (self-consistency) 来提高推理能力。
  • Gemini 1.5:
  • 针对所有上下文长度进行了 高效率和低延迟设计 ,Gemini 1.5 Flash在所有测试语言中实现了最快的输出生成。
  • 在安全方面,显著 减少了政策违规率 ,并 提高了越狱(jailbreak)的鲁棒性
  • 相比之前的模型, 记忆化(memorization)的训练数据量显著减少
  • 仍可能受到“发散攻击”(divergence attacks)的影响,特别是在较长的提示下更容易发生,但通常不会导致高敏感度私人数据泄露。
  • 多语言低资源翻译 任务中,通过 多样本上下文学习 (many-shot in-context learning) 持续提升性能。
  • Gemini 1.5 Flash使用 在线蒸馏 技术,并采用 高阶预处理方法 以提高质量。
  • 在训练架构和配方方面进行了重大改进,使得 训练计算量显著减少,服务效率显著提高 ,同时保持甚至超越了Gemini 1.0 Ultra的质量。
  • 实现了 超长上下文的理解 ,几乎没有性能下降。
  • 在“大海捞针”任务中实现了 近乎完美的召回率 (>99%),甚至在1000万token的文本、107小时的音频和10.5小时的视频中也能保持。
  • 展示了 语境中学习新语言 的能力,例如仅通过语境中提供的语法手册就能学习翻译卡拉芒语。
  • 训练于Google的TPUv4上。
  • Gemini 2.5:
  • 大规模训练稳定性、信号传播和优化动态 方面取得了显著进步,从而在预训练阶段就获得了性能的显著提升。在运行过程中,93.4%的时间用于TPU计算,训练效率高。
  • “思考”(Thinking)机制 :模型通过强化学习训练,在推理时能够使用 额外的计算资源 (在“思考”阶段进行数万次前向传播)来获得更准确的答案。用户可以设置思考预算来平衡性能和成本。
  • Deep Think 推理方法 :Gemini 2.5 Pro Deep Think 引入了一种新的推理方法,将 并行思考技术自然地融入到响应生成中
  • 原生工具使用支持 :Gemini 2.0是 第一个原生支持调用 Google 搜索等工具的模型家族 。Gemini 2.5进一步集成了高级推理能力,允许它将搜索功能与内部思维过程交错进行,以回答复杂的、多跳查询并验证事实准确性。
  • 增强的代码能力 :在预训练阶段,增加了更大体量和更多样化的代码数据。在后训练阶段,开发了 结合推理能力的新训练技术 ,并整理了多样化的工程任务。
  • 音频能力扩展 :Gemini 2.5不仅专注于音频理解任务,还训练了 音频生成任务 ,如文本到语音 (text-to-speech) 和原生音视频到音频的对话。为了实现低延迟流式对话,融入了因果音频表示。
  • 强化学习 (RL) 投入增加 :RL训练计算资源分配增加,以更深入地探索和优化模型行为。引入了 可验证奖励(verifiable rewards)和基于模型的生成奖励(model-based generative rewards) ,提供更复杂和可扩展的反馈信号。RL过程的算法改进也提高了训练的稳定性。
  • 长上下文优化 :建模和数据方面的进步有助于提高模型对百万token长度上下文查询的响应质量。
  • 安全与帮助性 :相比Gemini 1.5,2.5模型在帮助性和通用语气方面有了显著提升,更少过度拒绝良性请求,且语气更少说教。通过 安全对抗性训练 提高了对间接提示注入攻击的韧性。记忆化率更低。对关键能力(如CBRN、网络安全、机器学习研发、欺骗性对齐)进行了评估,虽然某些能力有所提升,但未达到“临界能力水平”。
  1. 总结 =====

综上所述,Gemini系列模型在模型架构上从基础的Transformer演变为MoE架构,并持续优化其效率和扩展能力,尤其是对超长上下文的支持达到了前所未有的水平。在训练数据集方面,不断扩大规模、丰富模态并提升数据质量。在训练方法上,从基础的微调到引入复杂的RLHF、语境中学习,再到Gemini 2.5革命性的“思考”机制和原生工具使用能力,实现了从理解到推理和行动的全面跃升,同时不断强化模型的安全性和实用性。

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论