安特曼真的慌了，我们掰一掰Google 是怎么一步一个脚印，即将干掉不可一世的 OpenAI的 - 文章 - 开发者社区

你有没有发现，这两年讨论大模型，大家嘴上说的是“谁更智能”，实际盯的是谁的发布会更炸。
但真把输出关掉，只看输入——谁在算力、数据和训练方法上更狠——你会发现 Google 这几年其实一直在闷头干活。

picture.image

今天想聊的，就是一个简单但扎心的问题：Google 凭什么在 Gemini 3 这个代际上，敢说自己不输 OpenAI，甚至在长上下文、多模态上要强一头。

一、算力：先把地基打到别人很难学

很多人看到“TPU v5p”“AI Hypercomputer”这几个词，下意识觉得又是云厂商的宣传语。
但把参数往下翻一点，你会发现这玩意不太一样：单个 v5p pod 里是接近一万颗芯片，用 3D 互联把带宽拉满，相比上一代 TPU v4，FLOPS 翻倍，HBM 也翻了几倍，训练大模型的速度能快到 2–3 倍。

这意味着什么？
很现实：

• 你想试一个新架构，不用赌一次几个月的训练
• 你可以并行跑多个大规模实验，而不是押宝一个 config
• 你有余量去做“浪费算力但提高质量”的尝试，比如更复杂的 curriculum、更多的数据过滤轮次

从工程视角看，Google 不是靠“一个更聪明的模型”赢的，而是先把“训练大模型”这件事做成了一个高吞吐、高迭代的生产线。
别的公司在问“我们这次训练成不成”，他们在问“这一批次效果和上一批比有没有稳定提升”。

我们普通团队学不到 TPU，但可以学一个心态：
把训练当生产线，而不是当艺术创作。

二、训练：SALT 这步棋，算是把“小模型”用明白了

很多团队在有了第一版大模型之后，接下来的默认动作是：继续堆数据、继续堆算力。
Google 这次做了一件有点反直觉的事：让“小模型来教大模型”，这就是他们最近论文里讲的 SALT（Small‑model Aided Large‑model Training）。

picture.image

想象一下这个画面：

• 先训练一批相对便宜的小模型
• 让这些小模型给大模型的训练数据打“软标签”，相当于多一层监督
• 甚至让小模型负责筛选“哪一些样本更值得大模型认真学”，把算力集中到真正有信息量的部分

picture.image

结果呢？
官方公开的数字是，大模型整体训练算力能省将近 28%，而且效果不是“勉强持平”，而是在多个任务上还能更好一点。

这事对大厂是降本增效，对中小团队则是一个很现实的启发：

• 别急着上来就堆一个“全领先”的超大模型
• 先把小模型打磨好，用它们做过滤、做自博弈、自训练
• 等小模型把数据空间里有用的那一块“扫”了一遍，再让大模型出手

也就是说，“小模型不是过渡品，它是训练体系里的一等公民”。

三、多模态和长上下文：不是挂插件，而是从一开始就当主角

很多人会把“多模态”理解成：先有一个文本模型，再挂一个视觉 encoder 进来。
Gemini 这条线不太一样，他们从一开始就按多模态来设计架构和数据流程，训练阶段就让模型在图、文、音、视频之间来回切换。

这带来的直接效果是：

• 看代码截图、API 文档截图这种“半图半文”的场景，理解起来更自然
• 处理产品 demo 视频、UI 截图、报表图的时候，不用绕一圈手工标注

再加上一个关键点：长上下文 。
Gemini 3 Pro 现在公开给的上下文已经做到百万级别，输出上限也远超很多竞品；而一些老一代模型还停留在 128K 左右，只能靠切片、检索来绕路。

你做开发应该很清楚，这不是“能多塞一点字”的问题，而是：

• 能不能一次性把整个仓库丢进去，让模型真正理解模块关系
• 能不能把产品、运营、技术的所有文档合在一块，让模型做跨文档决策

Google 在这里做的事，本质上是：给模型足够大的“工作台”，再允许它同时操作多种“材料”（文本、图片、代码、表格）。
这样一来，很多过去要靠人工 glue code 拼接的场景，开始变成一个模型就能端到端搞定的事情。

四、产品闭环：模型不是发布出来，是跑出来的

说到底，模型表现好不好，不只看参数和论文，还看它每天被丢进了多少真实业务里。
这个部分 Google 的优势就比较朴素粗暴了：搜索、Android、Chrome、Workspace、Cloud……每一块都在接 Gemini。

对模型训练和对齐来说，这意味什么？

• 他们能拿到大量真实任务，而不是只靠开源 benchmark
• 可以看到“用户真正怎么用它”，从而做有针对性的对齐和安全策略
• 还能通过云和 API 产品，把这些经验反向传给企业客户

这就是为什么，你会看到很多第三方评测里，Gemini 3 在实战场景（代码、复杂检索、多文档推理）里，已经能和 GPT 新版本5 系列、Claude 新版本4.5 系列，掰手腕，甚至在某些开发任务上让开发者尖叫。

不是因为它“天赋异禀”，而是因为它每天都被扔进各种“脏活累活”的工作流里去打磨。

五、那我们能学什么？

看完可能会有点沮丧：
TPU 没有，千万卡预算也没有，多模态大模型更别想自己从头训。
但冷静一下，还是有几件很具体的事可以做的：

• 把“训练当生产线”：

哪怕只是在微调层面，也尽量把数据处理、训练配置、评估、回滚做成流水线，而不是一堆手动脚本。

• 把“小模型用到极致”：

用轻量模型做过滤、打标签、选难样本，再给主力模型吃，思路就是 SALT 那一套，只是规模不一样。

• 勇敢上长上下文和多模态：

不一定自己训，但要敢用。既然像 Gemini 3 Pro、GPT‑5 家族已经给了百万级上下文，就不要再把所有任务拆成 2K 小碎片，能整体建模就整体建模。

• 刻意做“有业务味道”的评测：

少盯纯学术 benchmark，多写一点自己的“项目级 benchmark”，比如“这个模型能否在一小时内完成我们真实项目的 code review + 文档整理”。

说到底，Google 并不是用一招奇技赢的，而是用一套很“工地化”的办法——更狠的算力、更聪明的训练方法、更扎实的产品闭环——一天一天把模型打磨出来的。

如果你把这套思路按自己团队的资源做个“缩放版”，哪怕只有 1% 的体量，也已经比只会调 API 参数的那一批人走得更远了。