关于Grok3和DeepSeek背后苦涩教训引发的思考

大模型向量数据库机器学习

引言

Ilya Sutskever(前 OpenAI 联合创始人兼首席科学家)曾在在召开的 NeurIPS 会议上表示, 大模型的预训练已经走到了尽头 。 而 Noam Brown(OpenAI 研究员,曾带领团队开发出在德州扑克中战胜职业选手的 AI 系统 Pluribus)在关于 OpenAI O1 发布的采访中提到, 提升 Test-Time Compute 是提升大模型答案质量的关键 。2024 年的圣诞节前夕,一片节日气氛下,湾区的硅谷 AI 大佬、机构和投资者们正在深入探讨 从 “Scaling Learning” 向 “Scaling Search” 转变的路径而这一切的思考,都可以追溯到 Rich Sutton(强化学习领域的奠基人之一)在 2019 年发表的经典短文 The Bitter Lesson (苦涩的教训)。

从 2025 年初持续火爆的 DeepSeek-R1,到近期马斯克带着团队全球直播发布了号称“史上最聪明 AI”的 Grok3, 一个是工程优化节省资源追求极致性价比,一个是力大拍砖大力出奇迹无脑坚定地 scale up ,两条相似但又非常不同的路线,恰如 AI 发展史上的两条岔路。这不仅是一场技术路线的对比,更是对“苦涩教训”深刻内涵的再审视。

picture.image

The Bitter Lesson:苦涩教训

The Bitter Lesson(苦涩的教训)又称AI工程师的必背经典!

picture.image

理查德·萨顿(Richard S. Sutton):阿尔伯塔大学计算机科学教授,被认为是现代计算的强化学习创立者之一。他为该领域做出了许多重大贡献,包括:时间差分学习(temporal difference learning)、策略梯度方法(policy gradient methods)、Dyna架构在内。

传说中OpenAI工程师需要背诵的经典文章《The Bitter Lesson(苦涩的教训)》,正是由他撰写。文章指出了过去70年来,AI研究走过的最大弯路,就是过于重视人类既有经验和知识,而他认为最大的解决之道是摒弃人类在特定领域的知识、利用大规模算力的方法,从而获得最终胜利。

今天,就让我们静下心来,细读这篇雄文。或许在阅读之后,我们可以对当下与未来的 AI 发展,拥有更深刻的理解和启发,这篇文章信息量密度极高,重点都划不过来,强烈建议大家反复阅读!

以下中文内容我由ChatGPT-4O翻译+润色而来,欢迎大家阅读英文原文

原文作者:

The Bitter Lesson Rich Sutton March 13, 2019

原文地址: http://www.incompleteideas.net/IncIdeas/BitterLesson.html

从70年的人工智能研究中可以得出的最大教训是: 利用算力的通用方法最终是最有效的,并且这种优势非常显著 。其根本原因在于摩尔定律,或者更准确地说, 就是单位算力成本随时间持续呈指数级下降这一客观规律 。大多数人工智能研究都是在假设算力保持恒定的前提下进行的(在这种情况下,利用人类知识几乎是唯一可行的提高性能的方法)。然而,若考虑比一般研究项目稍长的时间尺度,我们会发现,算力的增长是不可避免的,并且增长速度极快。在寻求短期内能带来提升的方法时,研究人员倾向于利用他们对特定领域的专业知识。然而,从长远来看,唯一重要的事情是如何利用算力。 领域知识和算力这两个事情客观来讲并不相关,但在实践中却常常相互冲突 。研究者的时间有限: 有限的时间投入到一种方法上,就必然会错失另一种方法带来的潜在收益

而且,研究者也容易对他们选择的方法产生心理上的依赖,甚至把这种依赖当做自己的特长,从而难以跳出固有思维

。更重要的是,基于人类知识的方法往往会增加研究的复杂性,限制了基于算力的通用方法的有效性。这条真理,是许多 AI 研究者在无数次的碰壁之后才痛彻心扉地领悟到的,其中一些典型的案例值得我们深思。

在计算机国际象棋领域,1997年击败世界冠军卡斯帕罗夫的方法,主要依赖于大规模的深度搜索。当时,大多数研究计算机国际象棋的研究人员对此感到失望,因为他们所采用的方法是基于人类对国际象棋的特殊理解。当一个更简单的、基于搜索的方法,结合专门的硬件和软件,证明其效果远远优于人类知识驱动的方法时,这些研究人类知识的象棋研究者无法坦然接受失败。他们认为,"蛮力"搜索可能在这次比赛中取胜,但它不是一种通用策略,而且这也不是人类下棋的方式。这些研究者希望基于人类经验的方法能胜出,但现实让他们感到失望。

在计算机围棋领域,类似的研究进展模式再次出现,不过这一过程比国际象棋晚了20年。最初,大量的研究努力都集中在如何避免搜索,而是利用人类知识或围棋的特殊特性。然而,随着大规模搜索的有效应用,所有这些努力都变得无关紧要,甚至起到了反作用。另一个关键因素是自我对弈学习(self-play)的方法,它用于学习价值函数。这种方法在其他许多游戏中,包括国际象棋中都发挥了重要作用(尽管1997年击败世界冠军的国际象棋程序并没有依赖学习)。自我对弈学习,以及学习方法本身,与搜索类似,它们都能利用大量算力。搜索和学习是人工智能研究中利用算力的两大核心技术。在计算机围棋研究中,研究人员最初的努力集中在如何利用人类理解(从而减少搜索需求),但最终,通过拥抱搜索和学习,才取得了更大的突破。

在语音识别领域,1970年代DARPA曾举办过一次早期竞赛。当时参赛的方法包括大量依赖人类知识的特殊技术,例如利用对单词、音素和人类声道结构的理解。而另一类方法则是更具统计性的方式,依赖大量计算,并基于隐马尔可夫模型(HMMs)。最终,统计方法战胜了基于人类知识的方法。这一结果引发了整个自然语言处理领域的重大变革,统计和计算方法逐渐在几十年间成为主导。最近,深度学习的兴起进一步推动了这一趋势。在语音识别领域,深度学习方法更少依赖人类知识,而是使用更多的算力,并在海量训练数据上进行学习,从而显著提高了语音识别系统的性能。和游戏领域一样,研究人员最初总是尝试构建符合他们对自身思维过程理解的系统——他们希望将这些知识直接植入系统中——但事实证明这最终是适得其反的。而随着摩尔定律的发展,大量算力的可用性使得基于计算的方法取得了更好的效果,研究人员却为此浪费了大量时间。

在计算机视觉领域,类似的模式也曾上演。早期的计算机视觉方法主要基于寻找边缘、广义圆柱体,或使用SIFT特征等方法。然而,如今这些方法已基本被淘汰。现代深度学习神经网络仅依赖卷积(convolution)和某些不变性假设,最终取得了远超传统方法的性能。

这个教训非常深刻。然而,作为一个领域,我们仍然没有完全吸取这一教训,因为我们仍在重复类似的错误。要意识到这一点,并有效地避免,我们需要理解这些错误的吸引力。我们必须学会这个 苦涩的教训 :试图构建符合人类思维模式的人工智能系统,从长远来看是行不通的。这个教训建立在如下历史观察之上:

  1. AI 研究人员往往尝试将人类知识直接植入智能体;
  2. 这种方法在短期内确实有所帮助,并且对研究者来说很有成就感;
  3. 但从长远来看,它会停滞不前,甚至阻碍进一步的进步;
  4. 重大突破最终是通过相反的方法实现的,即基于搜索和学习,利用大规模计算资源进行扩展。

最终的成功带有一种苦涩,因为它是对研究者所钟爱的“人类中心”方法的否定,这种成功往往难以被完全接受。

从这个苦涩的教训中,我们应该吸取的第一个重要经验是 通用方法的巨大威力 。只有那些能够持续利用增长算力的方法,才能在未来保持高效。目前来看,能够无限扩展的两类方法是 搜索和学习

第二个需要吸取的重要经验是: 人类思维的实际内容极其复杂,并且这种复杂性是无法简化的 。我们应该放弃试图以简单方式理解思维内容的做法,例如试图用简单方法来理解空间、物体、多智能体系统或对称性。这些概念都只是外部世界的一部分,它们本质上是复杂且无穷无尽的。我们不应该试图直接构建这些知识,因为它们的复杂性是不可避免的。相反,我们应该构建能够发现和捕捉这些复杂性的 元方法(meta-methods) 。这些方法的关键在于它们能够找到良好的近似解,而我们应该让AI系统通过搜索和学习找到这些解,而不是由我们手动去定义它们。我们希望AI智能体具备像人类一样的发现能力,而不是仅仅包含我们所发现的知识。将人类已有的发现直接植入AI系统,反而会使得理解发现过程变得更加困难。

DeepSeek与Grok3的对比

xAI 由埃隆·马斯克于 2023 年 3 月创立,目标是“理解宇宙的真正本质”。团队由来自 Google DeepMind、OpenAI 和 Microsoft 的顶尖专家组成,包括首席工程师 Igor Babuschkin 和顾问 Dan Hendrycks。Grok 是 xAI 开发的 AI 聊天机器人,采用 Mixture of Experts (MoE) 架构,最新版本 Grok 3 于 2025 年 2 月发布,声称在多项基准测试中超越了 OpenAI 的 GPT-4o 以及其最新的推理模型 o1。

Grok 的发展历程体现了 AI 领域的快速迭代:

  • Grok-1(2023 年 11 月):3140 亿参数,64 层,8 个专家模型。
  • Grok-1.5(2024 年 3 月):提升推理能力,上下文长度达 128,000 tokens。
  • Grok-2(2024 年 8 月):进一步提升推理和多语言支持。
  • Grok-3(2025 年 2 月):使用 Colossus 超级计算机训练,配备 10 万至 20 万 NVIDIA H100 GPU。

Grok 的独特之处在于它的幽默感和通过 X 平台获取实时信息的能力,以及较少受限的回答风格。但更重要的是,Grok 3 的成功离不开 xAI 在算力上的巨大投入 。 xAI 在孟菲斯建造的 Colossus 超级计算机,配备了 10 万至 20 万 NVIDIA H100 GPU,为 Grok 3 的训练提供了强大的支持。

picture.image picture.image picture.image

Grok基座模型分别领先了DeepSeek-v3 Gemini和GPT4o;推理模型在benchmark 上得分也高于OpenAI 的o1/o3系列和deepseek-R1模型。

Alberto Romero 在他的文章「Grok 3: Another Win For The Bitter Lesson」中写道:“Grok 3 的发布是「苦涩的教训」的又一次胜利”。xAI 没有像一些资源有限的公司那样需要极致的优化,而是直接利用大规模的算力来训练模型。xAI 正是通过这种方式,快速追赶上了 AI 领域的领先者。


和国内AI公司背靠互联网大厂不同,DeepSeek由量化对冲基金幻方量化运营。2016年,幻方量化推出首个AI模型,第一份由深度学习生成的交易仓位上线执行。到2017年底,几乎所有的量化策略都采用AI模型计算。2023年,幻方量化宣布成立创新性大模型公司DeepSeek。

  • 2024年12月,DeepSeek-V3首个版本上线,并同步开源,训练成本仅为557.6万美元,整个训练只需要280万个GPU小时。
  • 2025年1月20日,DeepSeek又正式开源R1推理模型。1月24日,DeepSeek-R1在Chatbot Arena综合榜单上排名第三,与OpenAI的顶尖推理模型o1并列。

DeepSeek之所以引发科技圈关注最主要的原因在于其以极小的成本训练出能和OpenAI的ChatGPT 一较高下的人工智能大模型。DeepSeek的R1的预训练(V3)费用只有557.6万美元,仅是OpenAI GPT-4o模型训练成本的不到十分之一。同时,DeepSeek公布了API的定价,每百万输入tokens 1元(缓存命中)/4元(缓存未命中),每百万输出tokens 16元。这个收费大约是OpenAI o1运行成本的三十分之一。

picture.image

DeepSeek与Grok3背后的苦涩教训

Grok3——规模的突破与代价

Grok3 是 xAI 在 2025 年推出的旗舰模型,被 Elon Musk 誉为“人类科学发现的超级加速器”。其训练过程堪称“暴力美学”的典范: 200,000 个 Nvidia H100 GPU、数亿甚至十亿美元的投入,以及海量数据的预训练和微调。这种“大力出奇迹”的策略直接呼应了 Rich Sutton 在《苦涩教训》中提出的核心观点—— 计算规模的增加最终会压倒一切人为设计的精巧方法

然而,这种成功的背后隐藏着苦涩的代价。首先,资源的消耗令人咋舌。200,000 个 H100 GPU 的训练不仅需要巨额资金,还伴随着巨大的能耗和环境影响。据估算,训练 Grok3 的电费可能相当于一个小型城市的年用电量。其次,规模化的收益似乎正在逼近天花板。尽管 Grok3 在推理能力和通用知识上表现出色,但与上一代模型相比,其边际提升是否匹配投入成本,仍是一个悬而未决的问题。

这种无脑堆积计算资源继续沿着scaling law 曲线发展的路子,对咱们国内的很多公司来说,是可望而不可及的。

Grok3 的“苦涩教训”是:规模可以带来突破,但也可能成为一种依赖。当计算资源成为竞争的核心壁垒时,AI 开发的门槛被推向了只有巨头才能企及的高度。这种路径虽然短期内有效, 却让中小型团队望尘莫及 ,同时也让人们开始反思: 如果“Scaling Learning”走到尽头,单纯的算力堆砌还能走多远?

DeepSeek-R1——效率的创新与挑战

与 Grok3 的“土豪式”训练形成鲜明对比,DeepSeek-R1 代表了另一种哲学: 在有限资源下通过技术创新追求极致性能 。这款由中国初创公司 DeepSeek 推出的开源模型,建立在 DeepSeek-V3 基础模型之上,通过强化学习(RL)和监督微调(SFT)优化推理能力。其训练成本仅为约 600 万美元,相较于动辄数亿美元的对手,堪称“性价比之王”。

DeepSeek-R1 的成功得益于一系列高效训练技术。例如,它采用了基于规则的奖励系统替代传统的神经网络奖励模型,显著降低了计算需求;同时,通过“冷启动数据”和 RL 的结合,减少了对昂贵人工标注数据的依赖。这种方法不仅降低了成本,还通过开源模式推动了社区协作,使其影响力迅速扩大。

然而,这种创新并非没有代价(可能的猜测,类似我们要做实验试错)。DeepSeek-R1 的训练过程可能存在的技术风险:纯 RL 训练曾导致模型输出可读性下降和语言混杂问题,迫使团队引入额外的 SFT 步骤进行矫正。这种“试错式”开发暴露了效率路径的苦涩一面—— 创新可能带来突破,但也伴随着更高的失败概率和调试成本 。其性能令人惊艳,在面对资源雄厚的对手时,DeepSeek-R1 的长期竞争力仍需时间验证。

DeepSeek-R1 的“苦涩教训”是:效率和创新可以在资源有限时打开局面,但技术复杂性和不确定性可能是其天花板。 当规模化的对手继续加码时,效率之路是否能持续领先?

两条路线的碰撞与启示

Grok3 和 DeepSeek-R1 的对比,就像 AI 发展史上规模与效率、蛮力与智慧的永恒对决。Grok3 遵循《苦涩教训》的经典教条——计算规模是王道;而 DeepSeek-R1 则试图挑战这一教条,通过工程优化和算法创新突破资源瓶颈。两者的训练资源对比清晰地展示了这种差异,下面我们看看:

模型训练资源(GPU)总成本(估计)方法论
Grok3
200,000 H100
数亿美元
预训练 + 微调
DeepSeek-R1
约50,000 H100 估算的,可能不准
约 600 万美元
RL + SFT

苦涩教训的再审视

Rich Sutton 的《苦涩教训》曾指出,AI 的进步往往依赖于通用方法和计算能力,而非人类设计的特定规则。然而,DeepSeek-R1 的成功似乎在提醒我们: 当计算资源成为稀缺品时,创新的“杠杆效应”可能比单纯的 scale up 更具价值 。反过来,Grok3 的高成本则表明,规模化的道路虽然稳健,但可能陷入“资源诅咒”——过度依赖硬件而忽视算法层面的突破。

这种碰撞引发了更深层次的思考:

  1. 从 Scaling Learning 到 Scaling Search

Ilya Sutskever 和 Noam Brown 的观点正在成为现实: 预训练的红利逐渐耗尽,未来的突破可能在于推理时的计算优化(Test-Time Compute)。DeepSeek-R1 的 RL 训练和 Grok3 的推理能力提升,都在不同程度上验证了这一趋势。

  1. 资源的民主化与集中化

Grok3 的路径强化了巨头垄断,而 DeepSeek-R1 的开源模式则试图将 AI 技术民主化。两者孰优孰劣,或许取决于未来 AI 生态是倾向于集中式控制还是分布式创新。 3. 可持续性与伦理

Grok3 的高能耗引发了对 AI 环境影响的担忧,而 DeepSeek-R1 的低成本则提供了一种更可持续的范式。AI 的未来是否需要在性能与责任之间找到平衡?

DeepSeek 在显卡资源有限的情况下,把工程优化做到了极致,但如果有更多高性能 GPU,当然会更好,这点毫无疑问。 换句话说,短期内通过工程上的优化来节省计算资源、提升性能,并不违背计算资源的 scaling law,二者并不冲突。而且从长期来看,英伟达(Nvidia)的优势依然稳固。

今天看到网上不少人在讨论 Grok-3 用了这么多 GPU,但相比 DeepSeek 提升似乎没有预期中那么大。其实这个很好理解,因为 Grok-3 主要是和自家系列对比,来验证性能和计算量之间的关系——这就是典型的 控制变量

未来的趋势很清晰:在算力占据主导地位的前提下,不断优化工程效率,尽可能逼近算力规模所决定的模型极限。实际上,这次商用大模型的落地已经验证了 scaling law 依然有效。“The Bitter Lesson” 也再次证明了一个道理——从长远看,算力始终是推动 AI 进步的决定性因素。从Grok3性能来看,尤其大家也不断尝试验证其Deep Search良好效果,当时2025年1月底英伟达股票暴跌时,当时市场可能有点过度悲观了。

结语:AI 未来的十字路口

Grok3 和 DeepSeek-R1 的故事,是 2025 年 AI 领域的一面镜子。Grok3 用规模证明了计算能力的无可替代,而 DeepSeek-R1 用创新展示了效率的潜力。然而,两者背后的“苦涩教训”告诉我们: 没有一条路是完美的。规模带来胜利的同时埋下成本的隐患,效率带来希望的同时伴随挑战的阴影。

站在这个十字路口,AI 社区需要回答的是:未来的突破是继续“力大拍砖”,还是转向“精巧杠杆”?或许,正如《苦涩教训》的深刻启示,最终的答案不在于选择哪条路,而是如何在这两条路之间找到融合之道——用规模赋能创新,用创新优化规模。 无论如何,Grok3 和 DeepSeek-R1 的较量,已经为我们打开了一扇思考未来 AI 发展的新窗口。

在年前举办的研讨会上,OpenAI的核心成员Noam Brown发表了一系列重要观点。 他强调尽管 Ilya 预训练模型的时代已经告一段落,但 Scaling Law 并未过时,而是进入了新的发展阶段。 Noam 提出了 o1 模式, 这种模式以推理计算为核心,优化算法和硬件设计,使 AI 在保持高性能的同时,大幅降低计算资源消耗。 Noam Brown 认为,传统 Scaling Law 主要依赖于增加数据、计算资源和模型参数,而 o1 模式则是通过优化推理计算,提高模型效率。采用 o1 模式后,某些模型的推理速度提高 50%,而计算资源消耗减少 30%。o1 模式的提出不仅是对 Scaling Law 的革新,也是人工智能可持续发展的重要探索。通过优化推理计算,AI 未来可以更广泛应用于自然语言处理、计算机视觉、强化学习等领域,并推动技术普及。

DeepSeek-R1 代表的高效计算路线,与 Grok3 代表的极致规模化路线,看似是两个完全不同的方向,但未来 AI 发展可能会融合这两种思路。我们可以预见以下几种可能的趋势:

  1. 混合架构(Hybrid Architecture) :未来的 AI 可能会结合 专家模型(Mixture of Experts, MoE)DeepSearch(深度搜索) ,在需要的时候调用最合适的计算资源,而不是盲目扩大模型规模。
  2. 动态计算(Adaptive Compute) : AI 可能会基于问题的复杂度调整计算资源,例如简单问题使用轻量推理,而复杂问题调用更强的搜索与规划能力。
  3. 边缘计算(Edge Compute) : 未来 AI 的应用将更多部署到终端设备上,因此如何在有限的计算资源下优化 AI 推理将是关键。
  4. 计算资源优化(Compute-Efficient Training & Inference) : 类似 DeepSeek 追求的高效计算方法,例如 MLA、RL、FP8 相关技术,将会成为未来大模型训练和推理的重要方向。

结合我们在做的事情,比如去年火爆的RAG,从一开始简单RAG、模块化RAG再到Graph RAG,Agentic RAG,其中演化路径也是伴随着计算规模与效率优化的权衡利弊。 在私有化部署以及应用场景中,受算力资源限制,可能应用了一个比较小参数量的大模型,其推理能力较差,在这种背景下我们需要做很多链路优化,比如用户问一个问题,可能经过查询改写、文档判断、信息压缩以及证据溯源等步骤。RAG应用场景很广泛,模式很好,但是需要反复优化可能变得棘手繁琐,如今结合DeepSeek-R1以及Grok3的能力可以进一步将RAG优化变得更简单,也会出现更强的变体。

最终,未来AI 竞赛的赢家将不仅仅是技术最先进的公司,而是那些能够在算力、技术创新和可持续性之间找到最佳平衡的公司。

参考资料

picture.image

添加微信,回复”LLM“进入交流群

picture.image

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论