点击下方 卡片 ,关注“ 慢慢学AIGC ”
本文由 DeepSeek 生成。
原始信息来源:
https://semianalysis.com/2025/01/31/deepseek-debates/
深度求索的故事席卷全球
深度求索(DeepSeek)正以风暴之势席卷全球。过去一周,这个中国 AI 公司成为全球科技界唯一的热议焦点。最新数据显示,DeepSeek 的日活流量已远超 Claude、Perplexity 甚至谷歌的 Gemini。
但对于长期观察者而言,这并非"全新"动向。我们数月来持续追踪深度求索的技术突破(每个链接都是例证)。这家公司虽非初创,但如此狂热的舆论热度实属新现象。SemiAnalysis 始终强调: 深度求索的技术实力不容小觑,只是美国主流市场此前选择漠视 。 当世界终于正视时,却陷入了脱离现实的非理性炒作 。
需要特别指出叙事框架的转变:上月舆论还在渲染" 扩展定律被打破 "(我们已证伪该谬论),如今话术又转向" 算法进步过快将损害英伟达 GPU 需求 "。这种逻辑跳跃暴露出市场对 AI 硬件生态认知的混乱。
当前舆论焦点已转向"深度求索的高效性将终结算力需求增长",其模型架构变革被指导致全球算力严重过剩。尽管杰文斯悖论(Jevons Paradox)在此语境下存在过度解读,但该理论确实更贴近现实——模型效率提升实际上通过激发新需求,已对英伟达 H100/H200 芯片定价产生实质性影响。
幻方资本(High-Flyer)作为中国量化对冲基金先驱,早在 AI 金融应用爆发前便洞察到两大核心:
1)AI 技术向非金融领域的渗透潜力;
2)算力规模化的战略价值。
该机构持续加码 GPU 储备,在经历数千 GPU 集群的模型实验后,于 2021 年出口管制前完成 10,000 块 A100 GPU 的战略采购,这一前瞻布局现已成为其竞争壁垒。随着技术积累突破,幻方资本于 2023 年 5 月正式分拆成立深度求索(DeepSeek),专注 AI 能力体系化建设。在外部资本因商业模式不清晰而观望之际,幻方资本以自有资金完成孵化。如今双方仍保持人才与算力资源的深度共享。
尽管部分媒体仍将深度求索视为"副业项目",但其已发展为系统性战略工程。即使考虑出口管制导致的设备折损,我们测算其 GPU 资产规模仍超 5 亿美元。这种重投入印证了中国 AI 产业从"应用创新"向"底层基建"的战略跃迁。
GPU 布局解码:深度求索的算力版图
据我们研判,
深度求索当前持有约 50,000 块 Hopper 架构 GPU
——需特别澄清这与部分媒体报道的"50,000 块 H100"存在本质差异。
英伟达为应对不同监管要求,开发了 H100 的衍生型号(如 H800、H20),其中仅有 H20 目前可向中国 AI 厂商供货。
技术关键点在于:
H800 虽与 H100 计算性能持平,但网络带宽遭刻意阉割。
深度求索实际持有约 10,000 块 H800 及 10,000 块 H100,同时正大规模采购 H20 芯片。值得关注的是,英伟达过去 9 个月已生产超百万块中国特供版 GPU,这种"合规定制"策略正在重塑地缘算力格局。这些算力资源由幻方资本与深度求索协同调度,实施跨地域分布式部署,覆盖量化交易、模型推理、算法训练及前沿研究四大场景(更详细的加速器配置模型分析可参阅我们的专属架构报告)。
我们分析 DeepSeek 服务器总资本支出约 16 亿美元,运营这些集群的成本高达 9.44 亿美元。 与其他 AI 实验室和超大规模企业类似,由于资源集中化的挑战,他们拥有大量用于研究和训练的 GPU,而不仅仅是用于单个训练任务。 X.AI 作为一家 AI 实验室的特殊之处在于所有 GPU 都集中在一个位置。
DeepSeek 的人才完全来自中国,不看重以往资历,而是高度重视能力和好奇心。他们经常在北大和浙大等顶尖高校举办招聘活动,很多员工都是这些学校的毕业生。职位并不一定预先定义,员工拥有灵活性,招聘广告甚至宣传可以无限制使用数万个 GPU。他们的薪资极具竞争力,据称对有潜力的候选人提供超过 130 万美元的年薪,远超其他中国大型科技公司和 AI 实验室(如 Moonshot)。目前约有 150 名员工,但正在快速增长。
历史表明,一个资金充足、重点突出的创业公司往往能突破可能的边界。与谷歌等公司的官僚作风不同,由于是自筹资金,DeepSeek 能够快速实施想法。然而,DeepSeek 与谷歌类似,主要运营自己的数据中心,不依赖外部方或供应商。这为实验创造了更多机会,使他们能够在各个层面进行创新。
我们认为他们是当今最好的"开放权重"实验室,超越了 Meta 的 Llama 项目、Mistral 等。
DeepSeek 的成本和性能
本周 DeepSeek V3 的"600 万美元"训练成本引发热议。这个数字是错误的。这就像只看产品物料清单中的某一项并将其视为总成本一样。预训练成本只是总成本中很小的一部分。
训练成本:
我们认为预训练费用远非实际花费。我们确信他们的硬件支出远超 5 亿美元。为开发新的架构创新,在模型开发过程中,测试新想法、新架构和消融实验都产生了大量支出。多头潜在注意力机制是 DeepSeek 的一项关键创新,其开发耗时数月,消耗了大量人力和 GPU 资源。
论文中提到的 600 万美元成本仅指预训练运行的 GPU 成本,这只是模型总成本的一部分。其中不包括研发和硬件本身的总拥有成本等重要部分。相比之下,Claude 3.5 Sonnet 的训练成本达数千万美元,如果这就是 Anthropic 所需的全部成本,他们就不会从谷歌筹集数十亿美元,从亚马逊筹集数百亿美元。这是因为他们需要进行实验、设计新架构、收集和清理数据、支付员工工资等等。
那么 DeepSeek 是如何拥有如此大规模的集群的?关键在于出口管制的滞后性,这将在下文的出口部分讨论。
缩小差距 - V3 的性能
V3 无疑是一个令人印象深刻的模型,但值得注意的是它相对什么而言令人印象深刻。许多人将 V3 与 GPT-4o 进行比较,指出 V3 的性能超过了 4o。这是事实,但 GPT-4o 是在 2024 年 5 月发布的。AI 发展迅速,2024 年 5 月的算法改进已经是很久以前的事了。此外,经过一段时间后,用更少的计算资源实现相当或更强的能力并不令人惊讶。推理成本的下降是 AI 进步的标志。
举个例子,可以在笔记本电脑上运行的小型模型现在能达到与 GPT-3 相当的性能,而 GPT-3 在训练时需要超级计算机,推理时需要多个 GPU。换句话说,算法的改进使得训练和推理具有相同能力的模型所需的计算量更少,这种模式一直在重复上演。这次引起全世界关注是因为这来自一个 中国的 实验室。但小型模型变得更好并不是什么新鲜事。
到目前为止,我们看到的模式是,AI 实验室在绝对金额上花费更多,以获得更高的投资回报率。估计算法进步速度为每年 4 倍,这意味着每过一年,实现相同能力所需的计算量就减少 4 倍。Anthropic 的 CEO Dario 认为算法进步甚至更快,可以带来 10 倍的提升。就 GPT-3 级别的推理定价而言,成本已下降 1200 倍。
在研究 GPT-4 的成本时,我们看到类似的成本下降趋势,尽管处于曲线的早期阶段。随时间推移的成本差异减少可以解释为不再像上图那样保持能力恒定。在这种情况下,我们看到算法改进和优化带来了 10 倍的成本降低和能力提升。
需要明确的是,DeepSeek 的独特之处在于他们首先达到了这种成本和能力水平。他们发布开放权重的做法很特别,但之前 Mistral 和 Llama 模型也这样做过。DeepSeek 已经达到了这种成本水平,但到年底如果成本再下降 5 倍也不要感到惊讶。
R1 的性能是否达到 o1 的水平
另一方面,R1 能够达到与 o1 相当的结果,而 o1 仅在 9 月份才宣布。DeepSeek 是如何能够如此快速地赶上的?
答案是 推理能力是一个新范式,它具有更快的迭代速度 ,与之前的范式相比, 较少的计算量就能获得显著的收益 。正如我们在扩展法则报告(详见前文《AI 扩展定律的演进》)中所述,之前的范式依赖于预训练,这变得越来越昂贵,且难以实现稳健的提升。
新范式通过在现有模型上进行合成数据生成和强化学习后训练,专注于推理能力的提升,这使得以更低的成本获得更快的进步成为可能。较低的准入门槛加上容易优化的特点,使得 DeepSeek 能够比往常更快地复制 o1 的方法。随着各方逐渐摸索如何在这个新范式中进行扩展,我们预计在匹配能力方面的时间差距会扩大。
值得注意的是, R1 论文完全没有提到所使用的计算量 。这不是偶然的 - 为 R1 后训练生成合成数据需要大量的计算资源。更不用说强化学习了。R1 确实是一个非常优秀的模型,我们并不否认这一点,如此快速地赶上推理能力的前沿确实令人印象深刻。DeepSeek 作为一家中国公司,以更少的资源追赶上来,这一点更加令人印象深刻。
但 R1 提到的一些基准测试也是具有误导性的 。将 R1 与 o1 进行比较很棘手,因为 R1 特意不提及那些他们不占优势的基准测试 。虽然 R1 在推理性能上相匹配,但它并非在所有指标上都是明显的赢家,在许多情况下它的表现比 o1 差。
而我们还没有提到 o3。o3 的能力显著高于 R1 和 o1。事实上,OpenAI 最近分享了 o3 的结果,基准测试的扩展呈垂直上升。"深度学习遇到了瓶颈",但这是一种不同类型的瓶颈。
谷歌的推理模型与 R1 旗鼓相当
虽然 R1 引发了一阵热潮,但一家市值 2.5 万亿美元的美国公司提前一个月发布了一个成本更低的推理模型:谷歌的 Gemini Flash 2.0 Thinking。这个模型已经可以使用,而且通过 API 提供了更长的上下文长度,价格却比 R1 便宜得多。
在公布的基准测试中,Flash 2.0 Thinking 胜过 R1,不过基准测试并不能说明全部情况。谷歌只发布了 3 项基准测试,所以这是一个不完整的画面。尽管如此,我们认为谷歌的模型很强大,在许多方面可以与 R1 抗衡,却没有受到任何关注。这可能是因为谷歌的市场战略乏力和用户体验欠佳,但也因为 R1 是来自中国的一个惊喜。
需要明确的是,这些都不会削弱 DeepSeek 的卓越成就。DeepSeek 作为一家行动迅速、资金充足、聪明且重点突出的创业公司,能在发布推理模型方面击败 Meta 这样的巨头,这是值得称赞的。
技术成就
DeepSeek 已经破解了代码并实现了领先实验室尚未能实现的创新。我们预计,DeepSeek 发布的任何改进几乎都会立即被西方实验室复制。
这些改进是什么?大多数架构成就特别与 V3 有关,V3 也是 R1 的基础模型。让我们详细说明这些创新。
训练(预训练和后训练)
DeepSeek V3 使用了前所未见规模的多标记预测(MTP),这些是新增的注意力模块,可以预测接下来的几个标记而不是单个标记。这提高了训练期间的模型性能,且可以在推理时丢弃。这是一个算法创新的例子,实现了用更少的计算获得更好的性能。
还有一些其他考虑因素,比如在训练中使用 FP8 精度,但领先的美国实验室已经使用 FP8 训练有一段时间了。
DeepSeek v3 也是一个专家混合模型,它是由许多专门处理不同任务的较小专家模型组成的一个大型模型,这是一种涌现行为。专家混合模型面临的一个困难是如何确定哪个标记应该由哪个子模型或"专家"处理。DeepSeek 实现了一个"门控网络",以平衡的方式将标记路由到正确的专家,而不会影响模型性能。这意味着路由非常高效,相对于模型的整体规模,每个标记在训练期间只需要改变很少的参数。这提高了训练效率并降低了推理成本。
尽管有人担心专家混合模型(MoE)带来的效率提升可能会减少投资,但Dario指出,更强大的AI模型带来的经济效益如此显著,以至于任何成本节省都会迅速被reinvested用于构建更大的模型。MoE提高的效率不会减少总体投资,反而会加速AI扩展的努力。这些公司都在专注于将模型扩展到更多计算资源,并在算法上使其更高效。
就 R1 而言,它从强大的基础模型(v3)中获益匪浅。这部分是因为强化学习(RL)。强化学习有两个重点:格式化(确保提供连贯的输出)以及有用性和无害性(确保模型有用)。 推理能力是在模型通过合成数据集进行微调时涌现的 。这正如我们在扩展法则文章中提到的,与 o1 发生的情况相同。注意,在 R1 论文中没有提到计算量,这是因为提到使用了多少计算量会显示他们拥有比其叙述所暗示的更多 GPU。这种规模的强化学习需要大量计算,尤其是在生成合成数据方面。
此外,DeepSeek 使用的部分数据似乎来自 OpenAI 的模型,我们认为这将对从输出中提取知识的政策产生影响。这在服务条款中已经是非法的,但未来可能会出现一种新趋势,即采用 KYC(了解你的客户)形式来阻止知识提取。
说到蒸馏,也许 R1 论文中最有趣的部分是能够通过对小型模型进行微调,使其具备推理能力,方法是使用来自推理模型的输出。数据集的整理包含了总共 80 万个样本,现在任何人都可以使用 R1 的 CoT 输出,制作自己的数据集,并借助这些输出来构建推理模型。我们可能会看到更多的小型模型展现推理能力,从而提高小型模型的性能。
多头潜在注意力 (MLA)
MLA 是 DeepSeek 显著降低推理成本的关键创新。 原因在于,MLA 比标准注意力机制减少了约 93.3% 的每个查询所需的 KV 缓存量。 KV 缓存是 Transformer 模型中的一种内存机制,存储表示对话上下文的数据,从而减少了不必要的计算。
正如我们在扩展定律文章中讨论的那样,KV 缓存随着对话上下文的增长而增加,从而造成了显著的内存限制。大幅减少每个查询所需的 KV 缓存量,减少了每个查询所需的硬件,从而降低了成本。然而,我们认为 DeepSeek 提供推理服务的成本是为了抢占市场份额,而实际上并没有赚到钱。Google Gemini Flash 2 Thinking 仍然更便宜,而且 Google 不太可能以成本价提供该服务。MLA 特别引起了许多美国顶级实验室的关注。MLA 在 2024 年 5 月发布的 DeepSeek V2 中发布。DeepSeek 还因其更高的内存带宽和容量,相比于 H100,在推理工作负载上获得了更多的效率。它们还宣布了与华为的合作,但与昇腾计算的合作至今进展甚微。
我们认为,最有趣的影响主要体现在利润率上,以及这对整个生态系统的意义。下面我们展示了整个 AI 行业未来的定价结构,并详细说明了为什么我们认为 DeepSeek 在补贴价格,以及为什么我们看到 Jevons 悖论在此发挥作用的早期迹象。我们还评论了出口管制的影响,以及中共可能如何反应以应 对 DeepSeek 的主导地位等等。
扫描下方 二维码 ,关注“ 慢慢学AIGC ”