AI 扩展定律的演进

大模型向量数据库机器学习

点击下方 卡片 ,关注“ 慢慢学AIGC ”

picture.image

阅读全文大约需要 76 分钟 ,建议将文章加入收藏,便于随时查阅。点击底部“阅读原文”可直达英文版。文章内容不代表本公众号观点,请注意鉴别。以下为正文。

关于 AI 扩展定律的恐惧、不确定性和怀疑(Fear, Uncertainty and Doubt, 简称 FUD)情绪日益增加。一群业余的 AI 行业预言家抓住了他们能找到的任何悲观叙述,宣称过去几年推动大型语言模型(LLM)能力快速提升的扩展定律已经结束。记者们也加入了这场混战,用充满模糊信息的嘈杂泄露来支持这些叙述,围绕模型因所谓的性能不佳而未能成功扩展的失败案例。其他怀疑论者指出,基准测试已经饱和,新模型在这些基准测试上的表现几乎没有改善。批评者还指出,可用的训练数据已经耗尽,训练硬件的扩展也在放缓。

picture.image

尽管存在这种焦虑,大型 AI 实验室和超大规模企业的数据中心建设加速和资本支出的增加说明了一切。从 亚马逊投入巨额资金加速其 Trainium2 定制硅芯片,并为 Anthropic 准备 40 万颗芯片,总 IT 和数据中心投资估计为 65 亿美元 ,到 Meta 在印第安纳州 2026 年的 2 GW 数据中心计划 ,再到 OpenAI 和谷歌积极的多数据中心训练计划以克服单一站点电力限制 ——关键决策者似乎对他们坚信扩展定律依然存在且良好毫不动摇。为什么?

训练规模扩大,新旧范式持续

事实是,除了简单地关注预训练(这一直是大多数业余预言家的唯一关注点)之外,还有更多的规模扩展维度。 OpenAI 的 o1 发布证明了推断模型 (笔者注:reasoning 工具翻译为“推理”,为了和“inference”的中文表述加以区分,下文将采用“推断”,请加以鉴别) 的实用性和潜力,为规模扩展开辟了一个新的未探索维度 。然而,这并不是唯一能在计算扩展时带来模型性能显著提升的技术。其他随着更多计算而带来模型改进的领域包括 合成数据生成、近端策略优化(PPO)、功能验证器 以及其他 推断训练基础设施 。规模扩展的沙地仍在移动和演变,随着它的发展,整个 AI 开发过程继续加速。

从有缺陷的基准测试转向更具挑战性的基准测试将使我们能够更好地衡量进步。在这份报告中,我们将概述 旧的预训练规模趋势 以及 后训练和推理时间的新规模趋势 。这包括新方法将如何推动前沿——并且将需要比之前想象的更多的训练时间实现计算扩展。

我们将从 训练基础设施推理 tokens 经济学 角度,包括成本、KVCache 扩展、批处理等,涵盖 OpenAI o1 和 o1 Pro 的架构。我们还将深入探讨领先的 AI 实验室合成数据和 RL 基础设施。最后,我们想要澄清 Anthropic 的 Claude 3.5 Opus 和 OpenAI 的 Orion 的“失败”,以及未来的扩展计划。

向最伟大的计算扩展定律致敬——摩尔定律

今天关于 AI 扩展定律的辩论与围绕计算规模和摩尔定律的数十年辩论并无二致。任何试图主要通过时钟速度——在 2000 年代末 Dennard Scaling 结束前常用的一个共同指标——来衡量 CPU 计算的人,都会认为自那以后我们根本没有取得任何进展。实际上,计算一直在进步—— 当我们在处理器时钟速度上遇到瓶颈时,重点转向了多核架构和其他提高性能的方法 ,尽管存在功率密度和冷却限制。

picture.image

1970-2015 年 CPU 晶体管密度、时钟速率、功耗和性能趋势图

随着半导体行业对摩尔定律终结的辩论,这种辩论最近已经变得较为安静,因为像英伟达这样的 AI 先驱通过沿着一些全新的维度进行扩展,提供了巨大的计算增益。先进的封装技术通过扩展输入/输出(I/Os)使计算得以继续进步,并使芯片能够利用超出掩膜版尺寸限制的总硅面积。芯片内部和跨芯片的并行计算以及构建更大的高带宽网络领域,使芯片能够在规模上更好地协同工作,特别是在推理方面。

picture.image

就像 2004 年的计算机爱好者一样,主流分析师和记者没有看到整个森林: 尽管一个趋势放缓,但由于其他新兴范式成熟,整个行业集体以惊人的速度向前发展,这些范式适合扩展和扩张 。可以堆叠“扩展定律”——预训练将成为改进的一个向量,总体的“扩展定律”将继续像过去 50 多年摩尔定律一样扩展。

预训练扩展的挑战——数据墙、容错

预训练扩展为模型性能提供了显著的提升,但行业目前正在关注几个障碍。

一个明显的障碍是 数据越来越难以收集 ——虽然互联网上的数据迅速扩张,但它的扩张速度并不与计算成比例。这就是为什么今天的 万亿参数巨型模型远未达到 Chinchilla 最优 ——相对于模型参数的训练令牌数量要少得多。

Chinchilla 扩展指的是相对于计算增加的数据与参数计数的最佳增加。数据不足会导致模型泛化能力差,而数据过多则会导致过度训练,浪费计算资源。在某些情况下,偏离最优比例是有意义的:过度训练模型(例如 GPT-4o 和 Llama)可以显著降低推理成本,对于有更多用户基础的服务提供商来说,这是首选。

在 2023 年 1 月 GPT-4 发布之前,我们写了关于扩展的实际限制以及 GPT-4 计划如何突破这些限制。从那时起,模型在 Chinchilla 最优(数据远大于模型参数)和 Chinchilla 不最优(数据受限)之间来回摆动。在过去,当训练和推理硬件的改进缓解了限制时,计算可用性的障碍被克服了。

关于当今围绕障碍的叙述——像教科书和文档这样的有用数据源已经耗尽,剩下的大多是质量较低的文本数据源。此外, 网络数据仍然是数据分布的一小部分,模型需要更多的分布外数据以继续泛化 。随着模型更难以最优方式扩展,预训练变得越来越具有挑战性。

此外,如果实验室在扩展时用不足的数据训练模型,模型就会变得过度参数化,变得效率低下,并导致大量记忆而非泛化。实验室反而越来越多地转向合成数据以缓解这个问题。

尽管如此,这个问题对主要的 AI 实验室来说影响较小。Meta 单独拥有的可用数据大约是公共互联网上的 100 倍(如果他们能够以合规的方式利用这些数据)。这可能给他们一个优势,使他们能够继续扩展,遇到的问题比其他人少。YouTube 每天有 720,000 小时的新视频上传——我们认为 AI 实验室才刚刚开始考虑训练包含在视频中的大量数据。这还不包括他们能够生成质量合成数据的能力,我们将在后面讨论架构。

要训练来自视频的千万亿替代令牌需要继续扩展整体训练 FLOPs,这将由硬件创新和系统工程提供。例如,训练 FLOPs 再扩展一个数量级将需要多数据中心训练,因为所需的加速器数量无法适应单个数据中心站点。Rainier 项目为 Anthropic 提供了 40 万 Tranium 2 芯片,但在原始 FLOPs 中,这还不到 10 万卡 GB200s。Anthropic 必须取得重大的工程成就才能在这样一个集群中进行训练。将加速器分布在一个大型校园或多个校园,本身就面临着由 Amdahl 定律提出的重大挑战,尽管已经有不止一种假设的解决方案来解决这个挑战。

扩展参数的另一个限制是推理经济学 。AI 实验室可以投入巨额投资来训练大型模型,并通过不断扩大和增长的用户基础以及内部用例来摊销模型的使用,以开发进一步的模型迭代。当涉及到推理时,他们必须小心不要将成本过高或不经济的模型推向市场。

评估也不全面 ;有许多模型的能力和属性是现有评估没有很好地覆盖的。迁移学习,即模型通过学习其他东西来更好地完成某个领域,以及上下文学习,都是需要开发更多评估的领域。最后,总会有一些难以提前预测的最终用例,但为最终用户提供了巨大的好处。

被衡量的东西,就会得到改进。

新的、更难的评估要攀登

新的评估已经出现,旨在更好地区分模型,并专注于直接解决特定有用的应用。SWE-Bench 是今天最重要的评估之一,旨在让模型解决开源 Python 仓库中由人类审查的 GitHub 问题。新的 Claude 3.5 Sonnet 目前在 SWE-Bench 验证中达到了 49% 的(最佳状态),但大多数模型要低得多。

另一个例子是调查 AI 研发能力的基准测试,一些人将其描述为“跟踪的最重要能力”。研究工程基准(RE)由七个具有挑战性和开放式的 ML 研究环境组成。人类通常在评估中在更长的时间范围内表现得更好,但在 2 小时的时间范围内,最好的 AI 代理的得分比人类高出 4 倍。像上述这样的重要任务,人类目前占据主导地位,是扩展推理时间计算的完美基础。我们预计,更好地利用这种扩展形式的模型将在未来超越人类。

picture.image

另一个趋势是评估包括极其困难的专家级问题。两个突出的例子是研究生级谷歌证明问答基准(GPQA)和前沿数学。GPQA 由 448 个多项选择题组成,涵盖化学、生物学和物理学。作为参考,OpenAI 发现专家级人类(即拥有博士学位的人)在 GPQA 钻石上的得分约为 70%,而 o1 在同一组上的得分为 78%。去年,带搜索的 GPT-4(以及在弃权上的 CoT)在 GPQA 钻石上的得分为 39%。

另一个趋势是使用极其困难的问题,例如前沿数学(FrontierMath,FM)。FM 是一个由数百个原始数学问题组成的基准,这些问题可能需要人类花费数小时甚至数天来解决。它涵盖了广泛的数学主题,包括数论、实分析等。这个评估的特别之处在于它没有公开发布,最小化了数据污染的风险,并且可以通过自动化验证器进行评分——简化了评估过程。

picture.image

在这个基准上表现最好的模型得分为 2%,但实验室预计这将显著提高。Anthropic 有望在适当的期限内达到 80%。

Post-Train/后训练:一个新的扩展领域

预训练(Pre-Train)往往是关于扩展定律辩论的焦点,因为它容易理解,但它只是 AI 生命周期的一部分。一旦模型预训练完成,还有相当多的工作要做,以使其准备好使用。 预训练的目标非常狭窄,即“正确预测下一个 token” 。完成这一目标仍然让我们远远没有达到 LLM 开发的最终目标,即“回答用户提示”或“执行任务”。

我们将概述监督式微调(SFT)、强化学习(RL)和合成数据,然后深入探讨 OpenAI 的 O1 Pro 模型的工作原理和创建过程。

监督式微调

监督式微调(SFT)是最著名的后训练类型。向模型展示输入和输出对的策划数据集,其中“示范数据”涵盖特定领域(例如代码、数学、指令遵循等)。与预训练不同,微调数据的质量在这里比数量更重要。鉴于数据量较少,这意味着计算量较小。

GPT 最初的魔力是使用来自 Scale AI 等公司的人生成和标注的大量策划样本。然而,随着时间的推移,人为生成的数据难以扩展。

合成数据在后训练中的重要作用

SFT 内部的最大挑战是构建足够大、高质量的数据集,涵盖所需领域。这允许模型在特定领域如代码、数学、推断等方面表现更好,并且由于迁移学习,对模型在其他领域也更好。显然,具有强大数学和编码技能的模型更擅长一般推断,但这也扩展到其他领域——接受中文和英文训练的模型比仅接受英文训练的模型更擅长英文。合成数据开辟了一个维度,在这个维度上,可以使用受控的、可扩展的方法生成高质量数据,以微调任何主题的模型。

合成数据的大量使用也激励了对更好模型的追求。例如,OpenAI 在其他人之前就有了 GPT-4,并可以使用它生成比其他模型提供者更好的合成数据集——直到其他提供者有了匹配的模型。许多在开源和中国实验室的模型之所以迅速迎头赶上,是因为它们是用 GPT-4 的合成数据训练的。

底层模型越好,用于训练的数据集就越好。这本身就是一个扩展定律。这就是我们得到“新的 Claude 3.5 Sonnet”的原因。Anthropic 完成了 Claude 3.5 Opus 的训练,并且它表现良好,并且它按比例扩展(忽略那些声称否则的规模否认者——这是 FUD)。

然而,Anthropic 并没有发布它。这是因为 Anthropic 没有公开发布,而是使用 Claude 3.5 Opus 生成合成数据,并用于奖励建模,以显著改进 Claude 3.5 Sonnet,以及用户数据。推理成本没有显著变化,但模型的性能确实如此。为什么要发布 3.5 Opus,当在成本基础上这样做在经济上没有意义,相对于发布一个从上述 3.5 Opus 进一步后训练的 3.5 Sonnet?

随着更多合成数据的到来,更好的模型。更好的模型提供更好的合成数据,并作为过滤或评分偏好的更好法官。在合成数据的使用中,有许多较小的扩展定律,集体推动开发更好的模型更快。

合成数据示例

1 拒绝采样

合成数据大量使用的一个领域是 生成代码数据集 。这通常是 通过指定各种编程任务或提示作为种子,并提示模型生成与这些任务相关的问题解决方案。然后,模型被要求生成一组潜在的解决方案。通过相应测试或能够正确执行的解决方案被添加到训练数据集中,有效地过滤掉了质量差的样本,这个过程被称为拒绝采样 。拒绝采样是合成数据生成过程中的一个重要部分,因为它确保了数据集的质量足够高,可以在监督式微调(SFT)或强化学习(RL)中使用。然而,结果就是,生成的许多令牌都被丢弃了——合成数据生成需要大量的计算。

这种构建用于微调的合成数据集的方法已被许多大型AI实验室采用,并且用于微调 Gemini、GPT、Llama 和 Claude。

但拒绝采样可能比看上去更复杂。在 Llama 的情况下,如果初始响应不正确,模型被提示修正其答案,模型在 20% 的情况下在第二次尝试时做对了。在另一个展示合成数据有用性的例子中,Meta 团队将 Python 代码翻译成 PHP,通过语法解析和执行确保质量,并将这些额外的数据输入到 SFT 数据集中,以弥补公共 PHP 代码的不足。这有效地展示了合成数据被用于可靠和可预测地为代表性不足的领域生成有用数据。

picture.image

2 模型评审

另一种趋势是使用另一个大型语言模型(LLM)作为评审者。Meta 使用了一个较早版本的 Llama 3 作为拒绝采样器,充当评审者的角色,对不完全可执行的代码(如伪代码)进行评估,并根据代码的正确性和风格将输出分为“通过”或“不通过”。在某些情况下,拒绝采样是通过多种模型并行运行来对模型进行评分完成的。尽管总体上这比人工数据便宜,但要实现这种自动化评审的“合唱”并不容易。

需要注意的是,无论是代码还是其他形式的拒绝采样方法, 评审模型的质量越高,生成的数据集质量就越好 。这种反馈循环虽然 Meta 今年才在生产环境中引入,但 Anthropic 和 OpenAI 早在一两年前就已开始使用。

3 长上下文数据集

另一个例子是合成数据用于长上下文长度。模型以限制的上下文长度进行预训练(因为大多数数据已经是低上下文长度),而且因为更长的序列长度意味着需要更大的 KV 缓存来保持在内存中——这使得部署训练基础设施比已经很困难的情况更加困难。像 Gemini、GPT 和 Claude 这样的模型最初以较低的序列长度进行预训练,然后进行后训练以增加更长的上下文长度。

对于人类来说,通常很难在 SFT 数据中注释长上下文示例,因为有足够的天赋水平来提供高质量注释的人力资源是有限的。阅读长文本既耗时又乏味。合成数据已成为解决这个问题的有用且可靠的方法。

生成长上下文长度合成数据的一种方法是使用早期检查点的模型,让它总结大量文本,将其分解为当前较小上下文长度的大小。这些摘要,或其他场合中的聊天,包括模拟的问题和答案,然后可以用来帮助生成用于SFT的合成数据集。

其他例子包括生成合成数据以使评估,如大海捞针的基准测试。还有更多复杂的合成数据类型,用于训练模型以泛化和理解扩展上下文长度的各个部分的数据。

强化学习

强化学习(RL)是一种领先的对齐和模型改进方法。 强化学习(RL)是一种方法,其中代理(例如,大型语言模型)被教导执行特定操作并寻求特定结果,通过最大化对这些特定操作或实现给定结果给予的奖励。 当涉及到 RL 时,有两个轴需要考虑: 反馈的来源,以及如何将反馈纳入其中。 前者是关于如何获取信号,后者是关于如何使用这些信号来更新模型。

在强化学习中——我们试图优化的大型语言模型扮演代理的角色,可以对输入或状态采取一系列操作,并根据其采取的操作接收不同的奖励。我们通过让代理学习可以最大化预期累积奖励的操作来优化这个代理的行为,以实现我们的强化学习目标。

在 RL 中,将反馈纳入并确定代理采取的操作有几个主要方法——使用基于价值的方法或基于策略的方法,如直接偏好优化和信任域策略优化(TRPO),以及结合策略和基于价值的方法的演员-评论家方法。近端策略优化(PPO)是一个突出的例子,它是一个演员-评论家模型,更复杂的变体是所有主要 AI 实验室中主要的 RL 方法。

基于价值的方法确定到达给定状态的价值,并为每个可能的状态分配价值。每个状态根据代理如果从该状态开始,然后确定其在每一步的行动基于每个可用行动的价值,基于预期的折扣回报。历史上,基于价值的方法更常用于 RL,但现代应用更适合基于策略的方法。

picture.image

在基于策略的方法中,代理由一个策略函数驱动,该函数确定可以为给定状态采取的一系列行动,并为这些行动分配概率分布。在给定状态下要执行的行动可以是确定性的,这意味着在每个状态下总是导致相同的行动,或者是随机的,其中概率分布描述了给定状态下的潜在行动。然后训练策略函数,将代理导向可以最大化预期奖励的行动。

picture.image

当在 RL 期间使用基于策略的方法时,模型可以评估给定任务的最终结果以确定奖励,这是 结果奖励模型(ORM) 的情况,或者它可以通过评估给定过程中的每个单独步骤来确定奖励,这是 过程奖励模型(PRM) 的情况。使用 PRM 在训练推断模型时特别有帮助,因为虽然 ORM 可以检测到一系列推断导致了错误答案,但 PRM 可以告诉您推断链中哪一步出现了错误。

由于策略函数指导代理在任何给定步骤中做什么——它也是一个特别有用的框架,用于优化代理/模型在推理过程的中间步骤中的行为。

结果奖励模型和过程奖励模型通常在近端策略优化(PPO)中使用,PPO 是一种在强化学习中常用的算法,它迭代地改进策略模型,以最大化累积奖励,并优化 LLM 以实现给定目标。使用 ORM 和 PRM 与 PPO 一起特别重要,当训练多步骤推断模型时,这目前在社区中是一个关键焦点。我们将描述这是如何为 o1 Pro 完成的。

近端策略优化(PPO)

近端策略优化(PPO)可以用于对齐和微调,但它更适合并且在强化学习中更常用于对齐期间。

对于 PPO,策略指的是上述使用策略模型来指导代理或模型的行为,近端指的是算法仅逐渐更新策略的方法,优化指的是通过从奖励模型提供反馈来迭代改进策略的过程,从而优化预期的累积奖励。

我们上面主要讨论了基于策略的方法,但 PPO 结合了基于策略的方法和基于价值的方法。因此,PPO 可以说使用了演员评论家方法。演员由基于策略的模型驱动,确定给定状态的行动(即基于策略的方法),还有一个评论家评估根据价值函数采取的行动(基于价值的方法)。演员和评论家因此以迭代的方式一起工作。

最大化 PPO 目标函数将推动策略朝着支持对应于更高优势函数值的行动的方向发展。

基于人类反馈的强化学习(RLHF)

RLHF 一直是使 LLM 对齐、使它们有用,并是 ChatGPT 爆炸性增长的主要因素。它通常使用基于策略的学习,当一个基于人类反馈学习的奖励模型用于更新驱动模型行为的策略时。

有了 RLHF,人类标注员审查对提示的一组响应,并对他们偏好的一个响应进行排名。这里的目标是 积累大量关于人类偏好的响应的数据 。然后 使用这些偏好数据来训练一个奖励模型,该模型尝试猜测给定模型输出的平均标注者的偏好 。换句话说, 训练有素的奖励模型在演员-评论家框架中充当评论家

训练有素的奖励模型根据其训练的人类偏好评估这个行动,以及这个行动与平均行动相比有多好或多坏。然后,来自这个奖励模型的反馈作用于对齐演员模型,确保它采取行动(生成 token)符合期望的策略。

如上所述,PPO 用于迭代更新语言模型的策略函数。允许稳定学习,同时防止策略发生剧烈变化。AI 实验室的大规模 PPO 使用多个加权奖励模型,用于特定方面,如有帮助性、真实性和安全性。

总的来说,RLHF 允许模型在真实最终用户关心的任务上表现得更好,并提供了偏好数据。Meta 的 Llama 2-Chat 在经过几轮 RLHF 后,在有帮助性和无害性等因素上表现更好。该论文展示了在 RL 期间用于扩展模型的额外计算提供了明确结果。使用合成数据而不是人为生成的反馈,并且更多地依赖 AI 进行反馈,也可能证明使用更多的计算是合理的。

picture.image

然而, RLHF 有显著的限制。首先——完成整个 RLHF 生命周期可能非常慢,因为必须花时间将各种生成的响应暴露给人类响应者,通常通过 AI 公司在服务其模型或人类标注员时插入此类提示以获取反馈

即使拥有庞大的用户基础,收集大量偏好数据也很困难和昂贵—— Meta 为 Llama 2 的偏好数据花费了 1000-2000 万美元,超过了计算时间本身

RLHF 在规模上固有地难以扩展,特别是在没有大量现有数据的领域 。人工标注也很昂贵。这就是为什么许多 AI 公司在训练期间转向强化学习与 AI 反馈(RLAIF)。

较大的 AI 公司在这里有明显的优势。Claude、Gemini 和 ChatGPT 都要求用户提供对他们托管的模型的响应的反馈。例如,ChatGPT 有时会明确要求您选择您更喜欢的两个响应之一。这相当于免费收集了直接来自用户的最佳反馈。由于 OpenAI 拥有超过 3 亿用户的庞大客户群,它可以收集大量的反馈,并用于改善模型

用户较少的提供商,或者运营的平台不利于用户提供反馈,需要采用其他方法,如 DPO 而不是 PPO。直接偏好优化(DPO)是另一种经常与 RLHF 讨论的技术,尽管大多数人不将其归类为强化学习技术。

DPO 完全放弃了训练奖励模型,而是使用优化直接调整策略,以最大化策略驱动模型产生基于人类偏好数据的优选输出的概率 。优化通过使用二元交叉熵损失来工作,比较当前模型和参考模型(通常是微调前的相同模型)之间的概率比率。DPO 确保模型学会偏爱优选的响应,同时保持接近参考模型的行为。

简化版 DPO 可以实现与使用完整奖励模型的 RLHF 相当或更好的结果,同时不太可能崩溃,更容易实施。这种方法的优点的一个突出例子是 Llama 3 没有经历 RLHF,而是经历了 DPO。Meta 发现,在 Llama 3 的情况下,DPO 比 PPO 更有效、更稳定,并使用了更少的计算。然而—— 使用 DPO 意味着偏好数据集的质量至关重要 ,需要额外注意如何收集和处理这些数据。

picture.image

Meta 最终发现了其他实验室已经知道的教训:DPO 不如 PPO 扩展得好——他们必须转向 RLAIF 以继续改进他们的后训练。这在最新的 LLAMA 3.3 发布中得到了展示。

基于 AI 反馈的强化学习(RLAIF)

与依赖人类反馈来训练奖励模型不同,基于 AI 反馈的强化学习(RLAIF)用另一个模型替换人类反馈。 奖励模型基于 AI 生成的反馈进行训练——通常是某种评分模型或算法,将评估给定的完成情况并相应地确定奖励。

picture.image

总的来说,与 RLHF 本身没有太大的不同,但 RLAIF 带来了巨大的变化。标注快速,提示可以合成地生成,以在需要额外数据或训练的领域提示正在接受强化学习的模型。

此外,除了提供有关典型数学、科学和一般知识任务的反馈外,RLAIF 还意味着可以快速生成反馈,以应对更微妙的情况,如道德困境、文化规范和社会互动,这些可以由另一个 LLM 快速排名。这使得在更多领域对模型进行对齐的覆盖范围更广,并且还允许模型训练人员在不等待收集人类反馈的情况下,快速增加对这些主题的训练。

RLAIF 的一个独特用途是 Anthropic 的宪法 AI。宪法 AI 分为两个阶段。在第一阶段,基础模型根据人类编写的宪法原则批评和修订自己的输出。这些最初被评估的响应可能是有毒的或无益的。然后,这些响应不断使用宪法的各种原则进行修订。这创建了一个修订和提示对的数据集,然后用于通过监督式微调(SFT)微调模型。

宪法 AI 的第二阶段类似于 RLHF,但没有提供关于无害性的人类偏好数据。AI 根据宪法原则评估前一阶段模型的响应对,实际上就像多个奖励模型一样。AI 生成的 无害性 偏好与 有帮助性 的人类反馈数据相结合,以训练一个混合偏好模型(混合意味着它包括人类数据)。最后,使用这个偏好模型作为奖励信号,对第一阶段的模型进行 RL 微调。

这种方法最值得注意的观察是,它可以跨许多不同领域进行扩展——如果有一个模型擅长根据哪个响应在科学上更准确进行排名,并且能够识别无害性,那么该模型就可以用来优化科学上准确的响应。

picture.image

RL 也是开发使用思维链(CoT)的推断模型的关键部分。

推断模型和思维链(CoT)

数学是工程、建筑和系统设计的基本逻辑和推断方法。数学作为微调模型的重点学科脱颖而出,因为模型训练者缺乏足够复杂的提示,无法达到高级难度水平。克服这个问题的一种方法是支付高薪给熟练的人类来制作提示或在内部生成它们。通过推断有效解决数学问题 需要一个清晰表述和正确的思维链,模型可以从中学习

虽然 一些数学能力可以通过像代码解释器访问这样的工具来提高,允许模型在像 Python 这样的语言中生成和执行代码,这可以帮助解决一些数学问题,但代码不足以解决许多问题——特别是最困难的数学问题目前大量的工作目标是训练推断模型来解决复杂的数学问题

模型可以被提示生成思维链,但结果可能不可靠,因为链中的一个错误将累积到错误的最终解决方案。尽管如此,o1 Pro 有多个保护措施来防止这种情况。另一个挑战是,即使是最新的模型也可能在不确定时编造信息,这很容易在推断步骤中累积错误。

一个与思维链对齐的模型可以解决上述许多挑战。这种方法应用强化学习来对齐基础 LLM 的行为,以实现思维链方法,并使用几个其他独立的模型和 LLM 来提高其准确性。

第一个独立的 LLM 是 生成器 ,它被训练产生跨多个步骤推断的解决方案。生成器通常与基础 LLM 分开,因为它专门针对生成这些推理步骤的任务进行微调,而基础 LLM 通常针对一般任务进行微调。

其次是 验证器 模型,它负责评估由生成器产生的解决方案是否正确或不正确,并提供相应的奖励。

验证器模型可以使用人工标注、通过自动过程注释或使用自动验证器进行训练。或者——在 OpenAI 的论文“让我们逐步验证”中,研究人员介绍了 PRM800K 过程监督数据集,其中人类数据标注者标注了 800,000 个过程步骤,这些步骤构成了来自 MATH 数据集的 75,000 个解决方案的 12,000 个问题的输出,如论文中讨论的生成器所述。

picture.image

收集这些标注的成本并不微不足道。在原始的数学论文中,一些大学生在一小时内完成 20 个问题的得分在 40% 到 90% 之间,90% 的得分手是一位三次 IMO 金牌得主。OpenAI 论文引用成本作为原因,认为构建一个足够大的人类注释的面向 PRM 的数据集以匹配更大数量级的面向 ORM 的数据集以进行苹果对苹果比较是不切实际的。

替代方案是使用自动过程标注,或找到自动验证器。

自动验证器是一个系统或模型,可以理想地快速轻松地验证给定问题的解决方案是否正确 。对于代码,这可以简单地是实际执行的成本,以测试它是否产生了预期的结果,而数学可以是评估给定函数或使用像 LEAN 这样的证明者来检查正确性。然而,使用自动验证器可能并不像听起来那么“自动”——创建对外部系统的依赖可能会增加开销,这可能会从良好的训练性能中减去,而自动验证器有时可能需要时间来运行。

自动过程标注可以生成这个逐步过程标注。而不是让人类评估中间步骤,完成器被用来创建多个不同的推理步骤路径。数学-牧羊人论文使用自动过程注释——生成多条路径,然后通过标记为导致正确最终答案的好推理步骤(即硬估计)或通过基于步骤导致正确解决方案的频率分配分数(即软估计)来评估这些路径。

picture.image

第四个模型是 奖励模型 ,它从过程标注标签中训练而来。

回顾我们之前的解释,有两种类型的奖励模型:基于结果提供奖励的结果奖励模型(ORM),以及基于过程提供奖励的过程奖励模型(PRM)。ORM 通常通过对模型提供的多种不同答案进行排名,然后选择排名最高的一个。相比之下,PRM 评估并为思维链的每个推理步骤分配分数,并根据这个分数提供奖励,因此通常更受训练思维链模型的偏好。“让我们逐步验证”的论文展示了 PRMs 比 ORMs 更强的结果。话虽如此,OpenAI 仍然更依赖 ORMs。

picture.image

在数学-牧羊人中,通过逐步近端策略优化(PPO)的强化学习被用来加强最终 LLM,教它期望的思维链行为。

推理时扩展

OpenAI o1 预览版的发布将行业的注意力引向了一个 新的扩展定律——推理时计算(即推理时的计算)越大,答案越好 ,利用这个规模维度的努力正处于一个重要的转折点。

当传统 LLM 面对请求时,无论是简单还是困难的问题,它们都会不断地生成 tokens,不跟踪中间步骤,直到它们认为已经达到了答案。

相比之下,如上所述,推断模型将响应分解为离散数量的推理步骤,称为思维链,然后向用户提供响应。 推断模型可以回溯如果它们达到一个不合逻辑的结论,认识到犯了一个错误或某个方法已经走到了死胡同,重新访问早期步骤,将思维链重新引回正确的道路

推断模型的发布有两个深远的影响——首先,对于面向编码、数学和科学的挑战性评估,如上所述,模型性能有了显著提升,其次,实现模型性能提升随着推理时计算扩展到 LLM 的意识。

picture.image

推理时扩展并不是一个新概念。在棋盘游戏和扑克中,扩展推理时计算的想法已经存在了一段时间。例如,AlphaGo 是 DeepMind 的围棋系统,它在推理时使用蒙特卡洛树搜索来决定哪些动作要玩。如果剥离了其在推理时搜索的能力,它的 Elo 从大约 5,200 下降到 3,000(顶级人类大约是 3,800)。推理时计算允许在围棋中取得超人的成就。

有了更多的计算,推断模型可以思考更多的步骤,增加达到正确答案的可能性。今天,推理能力受到推理系统能力的瓶颈,因为推断模型所需的长上下文长度显著增加了内存和计算需求。

这意味着推断模型的推理系统运营商限制了思维链的长度,以保持上下文长度合理,价格下降,以便以合理的令牌到令牌的延迟服务经济数量的用户。因此,今天的推断模型在性能上受到了限制,因为它们的一只手臂被绑在了背后,随着更多能力推理系统如 GB200 NVL72 的上市,它们在性能上可以显著扩展,一旦经济实惠,允许 o1 调整其思维链的长度和使用的计算将是一个利用推理时计算扩展的技术。

picture.image

从评估和下面的图表中,我们可以看到,GPT-4o 在一次尝试中就击败了其他模型。扩展推理时计算的最简单方法是简单地增加同时运行的样本数量,有效地引导无限猴子定理。论文《大型语言猴子》展示了简单地重复采样可以扩展推理时计算,并可以获得更好的结果。

picture.image

这是最基础的搜索方法之一。生成更多的样本允许更大的覆盖范围,覆盖范围被定义为任何样本获得正确答案(即 pass@k)。有人可能会争论说,简单地让这些较小的模型多次思考一个问题可能更准确、更便宜,尽管我们需要一个有效的验证器来确定我们何时成功地生成了隐喻性的莎士比亚全集。

picture.image

“这是最好的时代,这是最模糊的时代”——《辛普森一家》

通过搜索扩展推理计算

搜索是另一个扩展维度,随着 OpenAI o1 的发布而未被利用,但在 o1 Pro 中得到了利用。o1 在推理时(即在推理期间)不评估多个推断路径,也不进行任何搜索。Sasha Rush 的视频《关于推断模型的推理时扩展的猜测》(o1)提供了一个有用的讨论和说明搜索和其他与推断模型相关的主题。

自我一致性/多数投票 是这样的搜索方法之一,我们简单地多次通过模型运行提示,从而生成多个响应,然后我们通过选择在给定数量的样本中出现最频繁的响应来选择正确的答案。

picture.image

N 中最好采样 是另一个想法,我们为特定提示生成 N 个解决方案,然后使用验证器模型识别导致正确答案的思维链。这种方法通常仅限于适合验证的领域(例如数独,而非文章),并受到验证模型有效性的限制。

picture.image

蒙特卡洛推演 是在 N 中最好采样基础上构建的技术。在这里,我们通过从该中间步骤生成多个路径来评估给定的中间步骤,以完成思维链。这种评估可以帮助我们决定是继续进行这一步还是向前移动到预期的未来步骤,从而改善我们的整体思维链。

现在我们已经讨论了 RL、合成数据、思维链、推理时计算和其他概念的基础,让我们看看 OpenAI 在训练和推理期间对 o1 和 o1 Pro 做了什么。o1 的构建是独特的,并不反映上述论文。我们还将讨论推理时计算的 token 经济学,包括成本、KVCache 扩展、批处理等。最后,我们将解释 OpenAI 接下来对 Orion 的计划,以及围绕它是失败的叙述为什么不准确。

o1:探索草莓田

o1 在推理时采用了一种思维链(Chain of Thought)的方法,将推断过程分解为多个离散步骤。o1 模型可以规划各个推断步骤,评估中间步骤,并在某个步骤出错或陷入僵局时回溯调整。

社区中提出了许多关于 o1 的方法论,例如认为 o1 在推理时会探索潜在推断路径或链式思维的“树状结构”。然而,这并不正确。 OpenAI 的 o1 模型在推理过程中仅沿树状结构中的单一链条推进,直至得出答案 。o1 不会在测试时使用搜索策略,因而不会在推理时探索潜在路径的树状结构。 这意味着 o1 推理仅使用 pass@1 方法。

另一方面, o1 Pro 使用了自我一致性(self-consistency)/多数投票(majority vote)方法 ——关于这一点会在后续的“token 经济学”部分详细介绍。

关于 o1 如何生成单一链式思维的机制,目前有几种理论。其中一种被广泛接受的理论是: o1 在强化学习中使用了过程奖励模型(Process Reward Model)来推动推理步骤。这个模型通过类似的奖励机制在验证和生成之间切换。通过使用同一个模型同时充当生成器和验证器,o1 能够在生成和验证之间高效切换,从而不断迭代完善其思维过程。

回溯能力:自然涌现还是特意训练?

如上文所述, o1 的另一个核心能力是其能够在单一链式思维中实现自我纠正和回溯

需要特别强调的一点是: 这些能力并非通过专门设计实现的,而是随着推理时计算能力的提升自然涌现的 。这种能力是推理时间计算规模扩展的结果,而非特意构建的功能。

不过,关于更长的思考时间是否总能带来更好结果,这一观点存在一些限制。其中一个限制是: 只有某些类型的问题会因更长的思考时间而受益 。例如,像“x 的首都是哪里”这样的问题,延长思考时间并不会提高回答质量,而对于复杂的数学或编程问题,更长的思考时间则可能带来显著的好处。此外,验证数学和编程问题的答案比验证英语作文要容易得多。

目前,我们尚不清楚 OpenAI 在后端究竟如何利用更多测试时计算资源进行优化。我们只知道,他们似乎拥有某种可以调整的设置。

从以下按主题划分的胜率图表可以看出:在验证较容易、生成较难的领域,o1 和其他推断模型的表现优于非推断模型;而在同时难以验证和生成的领域,其表现则较差。

picture.image

这是否因为 OpenAI o1 的回溯能力依赖训练?

OpenAI 的 o1 模型的训练过程高度依赖功能验证器(functional verifiers),这些验证器在训练期间为模型提供反馈。

o1 的“草莓训练”基础架构

OpenAI 为训练 o1 生成了海量数据。整个推断模型的训练体系被称为“ 草莓训练 ”。这些数据通过一种多并发展开的蒙特卡洛树生成。模型会基于过程奖励模型(PRM)为其当前的约 1000 万个问题生成许多不同的解法轨迹,每个问题的解法轨迹可能分支出成千上万条路径。由于部分路径共享相同的前缀(因为回答的某些部分是相似的),这些路径被称为“轨迹”,每条轨迹表示通往答案的一条链式推理路径。每条轨迹包含成千上万个 token,整个训练过程中生成了数百万亿个 token,为 o1 这样的“草莓模型”提供支持。

这些轨迹随后通过功能验证器和 ORM(优化奖励模型)进行修剪。PRM 的效率较低,因此数据选择主要依赖于 ORM。每个问题会并发生成许多轨迹,这些轨迹只有在最终阶段才会被修剪。如果 PRM 的表现更好,那么生成的轨迹与最终保留的优质轨迹的比率会更高。然而,目前 ORM 才是主导,修剪掉了绝大多数数据。这些功能验证器类似于独立的“沙盒”,它们通过检查数学计算或运行代码来验证生成数据的正确性。

运行所有这些模型并正确地并行化处理是一项极其复杂的系统与基础架构问题。例如,所有不同的模型必须分布在多个 GPU 上运行,并确保结果被正确路由到下一阶段,同时更新多个模型的权重并平衡负载。功能验证器“沙盒”通常无法高效运行在 GPU 上,因此经常会被分配到 CPU 处理。

一个有趣的现象是,当前标准的 Nvidia 系统通常配备 8 个 GPU 和 2 个 x86 CPU(4:1 比例),而下一代 Nvidia GPU 系统(GB200 NVL72)将配备 72 个 GPU 和 36 个 CPU(2:1 比例)。相比之下,Anthropic 的下一代 Amazon 系统(代号 Project Rainier)采用 16 个 Trainium2 芯片和仅 2 个 CPU(8:1 比例)。这种 CPU 与 GPU 资源的差异可能会导致 OpenAI 能够运行更复杂的功能验证系统,而 Anthropic 在 FLOP 和内存带宽/容量成本上有优势,但较少的 CPU 资源可能会限制其运行复杂功能验证的能力。

训练中的巨大前向计算量

推断模型的训练极为计算密集。目前已经生成了数百亿条解法轨迹,覆盖了 1000 万个问题,并且这些问题还在不断扩展到更多领域,数据量呈指数增长。这些生成的数据甚至远远超过了模型的预训练数据集。

此外,由于 PPO(近端策略优化)和 PRN(过程奖励网络)的工作机制,每次反向传播(模型更新)都需要运行多次前向传播(模型推理) 。这是因为除了高计算成本的生成器模型外,还需要运行策略模型、多个奖励模型,以及其他基于模型的验证器来验证每次反向传播的数据。 在后训练中,前向传播与反向传播的比率极高,而在预训练阶段这一比率通常是 1:1。

这种变化对训练基础架构的要求有重大影响。例如,过去单一的大规模全连接扩展架构可能不再必要,因为分布式数据生成与修剪可以跨地理位置分散的数据中心进行,而无需频繁更新模型。

后训练 FLOPs 超越预训练

当前推断模型的后训练过程所需的计算量几乎与预训练相当,有时甚至超过预训练的 FLOPs。这是因为 后训练通常使用多份最大/最优模型,至少用于生成器、奖励、策略和验证器的前向传播

以 OpenAI 的下一代模型为例,这一模型的预训练规模介于 GPT-4o 和 Orion 之间。模型预训练完成后,将基于其基础模型构建两种模型:一种是传统的聊天模型,另一种是真正的推断模型。这种从基础模型到推断模型的转化所需的后训练 FLOPs 已经超过了预训练阶段。这是因为 Orion 不仅用于生成“草莓训练”的数据,还广泛应用于验证器和奖励模型中。

快速迭代:另一种形式的扩展

行业的快速发展推动了更高的迭代速度和更短的训练时间。算法和数据的进步使得给定模型所需的物理计算量每年减少约三分之一,同时架构改进允许开发出更好的模型。因此, 当前大多数主要预训练过程通常在 1-2 个月内完成,极少超过 3 个月

然而,对于推断模型而言,反馈循环的速度尤为重要。OpenAI 现在专注于通过更快的训练反馈循环和更大规模的集群来不断迭代模型。尽管像 Orion 这样的大规模运行仍然必要,但在模型规模达成经济效益之前,其部署成本仍然较高。

o1 的推理架构与 token 经济学

即便是小型推断模型,在 Blackwell 系统下也能实现显著的服务效率提升。然而, 由于推断模型的特殊能力,其每 token 的成本远高于普通模型以 GPT-4o 和 o1 为例,即便它们架构和规模相同,其价格差距高达 6 倍 。对 o1-mini 的定价差距则更大,达到 20 倍。这一差距部分源于 OpenAI 对推断模型收取的更高利润率,特别是 o1-mini 的独特能力,但更主要的原因是 其计算成本显著更高

一个简单的实验可以说明推断模型在 token 价格上的差异。这个例子来源于最近 Qwen QwQ 博客。


          
请在错误的等式中添加一对括号,使等式成立:
          
1 + 2 * 3 + 4 * 5 + 6 * 7 + 8 * 9 = 479

picture.image

在 Qwen 博客中,为了解决该问题,需要模型产生大约 2166 个词来形成正确回答。 在解决逻辑推理问题时,像 o1-preview 和 o1-mini 这样的推断模型生成的输出 token 远多于非推断模型 。这些 token 包括模型内部生成但未显示或提供给用户的推断 token,也会计入收费范围。因此,推断模型的请求成本可能比非推断模型高出 24 倍(o1-mini)到 57 倍(o1-preview)

picture.image

巨大的请求成本差异令人震惊,但需要重点考虑的是序列长度和 KVCache。 在下图中,我们展示了较大的序列长度如何迫使使用较小的批处理大小,以实现每秒每用户 30 个 tokens 的合理交互性。 如果我们采用 O1-preview 输出的 7661 个 tokens,并运行一个导致 Llama 3.1 405B 模型同样序列长度(7661 个 tokens)的请求,那么为了实现每秒每用户 30 个 tokens 的交互性(基于纯线性模型计算),最大批处理大小将限制在 72。

picture.image

在本简化分析中,我们未考虑不同批量大小对内存带宽利用率或模型 FLOPs 利用率的任何影响。

相比之下,在 GPT-4o 上运行同样的请求仅生成了 775 个 tokens。 如果相同数量的 tokens 运行在 Llama 3.1 405B 模型上,最大批处理大小可达 368(仍基于每秒每用户 30 个 tokens 的目标和 KVCache 的需求)。

由于无法跨更多用户摊销推理系统的成本,这意味着 较长序列长度的请求因 KVCache 限制了最大批处理大小,其每 token 成本高出五倍以上 。这只是一个基于基本原理的分析框架,但可以方向性地展示上下文长度对成本的扩展影响。此外,还有其他因素也会加剧这种成本差异。

但推断模型需要更高强度计算和更大内存的原因是什么?这将导致较小的批处理大小和更低的 GPU 吞吐量。

答案主要有两个方面:

1.更高内存需求的主要驱动因素是较长的序列长度需要更大的 KVCache。使用 GQA(分组查询注意力)时,KVCache 总大小的计算公式如下:

KVCache 总大小(字节)= 批处理大小 × 序列长度 × 2 × 层数 ×(隐藏层大小 ÷ 头数 × KV 头数)× 精度(字节)。

KVCache 大小随序列长度线性增长,同时也随批处理大小线性增长。因此,大量用户生成长序列会导致 KVCache 需求急剧上升。

在下面的说明中,我们展示对于 Llama 3.1 405B,39,000 个 tokens 的序列长度会导致 KV 缓存需求完全填满 8x H100 节点的 640 GB 总 HBM 容量,而我们还没有考虑加载模型参数所需的 405 GB。 如果考虑参数,可用于 KV 缓存的内存会降到 235 GB(下图中的红线),实际上在约 16 k tokens 之前就会达到内存限制。

picture.image

因为 KV 缓存大小的增加直接导致更大的内存容量和带宽需求,所以在保持批量大小不变的情况下会降低交互性,或将最大批量大小限制为 16 以提供最小交互性。

picture.image

2.FLOP(浮点运算)需求随着序列长度扩展:

每 token 的缩放点积注意力(SDPA) FLOP = 4 × 头数 × 层数 × 头维度 × 序列长度。

每个 token 所需 的 FLOP 随序列长 度线 性扩展,但因为这是每 个 token 的 F LOP,对 于给定序列的总 FLOP 会乘以序列 长度,这意味着 F LOP 需 求相对于 序列长度呈 二次方扩展。

在下面的说明中,推理系统在上下文长度增加时很快就会达到 FLOPS 约束 - 在下面的示例中,在大约 4,096 的序列长度时发生突变。

picture.image

序列长度的增加会分别以线性和二次方的方式大幅增加内存和 FLOP 需求,这导致更小的批量大小来分摊集群总拥有成本。 这反过来使每个 token 的服务成本显著更高。

请注意,Open AI 大量使用注意力修改,如局部全局等,这有助于缓解这些问题,但这只改变了变换器注意力中的常数,减缓了二次方扩展,但并未解决它。长上下文架构需要解决这个问题,同时保持质量,否则推断模型将永远具有更高的每 token 成本以及通常需要更多 tokens。

推断模型面临的可靠性问题

长序列长度不仅增加了推理阶段的内存和 FLOP 需求,还带来了可靠性挑战。尽管 在训练阶段普遍采用了检查点机制(checkpointing),允许在发生故障时快速重启训练任务,显著降低了中断影响 ,但 在推理阶段仍然会发生无声数据损坏(silent data corruption)错误和其他故障

由于超大规模服务商的用户数量庞大,以及为推理任务服务的加速器数量巨大,这些低发生率的故障也会累积成为不可忽视的问题。在 Transformer 架构中,每生成一个新 token 都会将其附加到之前生成的所有 token 中,并作为上下文窗口的一部分再次传递给模型处理。如果在生成某个 token 时发生错误,该错误 token 将成为后续生成的上下文的一部分,可能导致语法、语境或格式上的错误。

对于所有长上下文模型而言,这种问题都存在,但 对推断模型来说尤为严重,因为长序列长度会导致错误的复合效应 。此外,这些错误可能是模型内在特性导致的,或是在推理过程中因推理链一开始就偏离正确方向而产生。

O1 Pro 的创新与成本

为了解决这些问题,OpenAI 的 O1 Pro 推断模型在推理阶段实施了 自一致性/多数投票(Self-Consistency/Majority Vote)机制。与普通 O1 模型相比,该方法虽然使用的是相同的模型和权重,但会生成多个推理流并选取最优解。例如,如果有 5 条推理流用于投票,则意味着需要生成 5 倍的 token 量。这似乎解释了 ChatGPT Pro 订阅价格从 20 美元上升至 200 美元的原因。

不过,实际上 OpenAI 的成本增长远未达到价格上涨的幅度。这是因为, 在处理长序列且解码 token 占比高于预填充 token 时,推理系统通常更受限于内存带宽和容量,而非计算 FLOP 。因此,系统往往有多余的计算能力而无法充分利用。而使用自一致性/多数投票方法时,序列的主要部分共享前缀,无需为 KVCache 消耗额外的带宽或内存,这有效降低了实际成本。

O1 之外

目前的 O1 模型仅专注于单一推理链(Chain of Thought, CoT),但其他近期发布的模型已经开始推动采用多推理链和多代理方法。

例如,DeepSeek R1 是中国开发的一个推断模型,它不仅匹配了 OpenAI O1 的能力,还在某些数学基准测试中超越了 O1 preview 模型。此外,R1 展示了通过推理时计算扩展实现性能提升的潜力。

picture.image

Deepseek 毫无疑问拥有人才、基础设施管理执行能力和训练大型模型的能力。 他们拥有数据、资金、人才和技能来匹配西方实验室。 Deepseek 拥有比你想象的更多的 GPU(5 万卡 Hopper 系列 GPU) - 除了极少数领先的西方 AI 实验室外,他们的 GPU 数量最多。

目前还有两个可用的中国推断模型。 阿里巴巴的 QwQ 是一个 32B 参数模型,也依赖测试时计算,并且也被怀疑遵循多个思考链。 它在一些数学相关基准测试中超越了 o1 preview。

picture.image

这个模型并不完美,因为它可能会意外切换语言并陷入递归循环而无法得出结论。 尽管如此,它仍是展示中国开发推理模型能力的重要一步。 相对较小的规模(32 B 参数)展示了推理模型如何通过增加测试时计算,在显著更小的基础模型上获得更好的性能。

另一个值得注意的中国推断模型是阿里巴巴的 Marco o1。这个模型更有趣 - 它以 Qwen2-7B instruct 为基座模型,使用公开可用的 CoT 数据集和内部生成的合成数据进行全参数微调(通过 SFT),可能遵循我们上面概述的方法。公开可用的 CoT 数据集包括 Open AI 的 CoT 数据集,阿里巴巴团队根据自己的启发式方法对其进行了过滤和使用。

Marco-o1 还融合了蒙特卡洛树搜索(MCTS),这是一种启发式搜索算法,考虑多个路径,并曾在辅助 AlphaGo 搜索能力中使用。MCTS 允许使用从 top-k 备选 token 的 log 概率应用 Softmax 得到的置信度分数来探索多个推理路径,引导模型找到最优解。在这种情况下,MCTS 还用于生成高质量的合成 CoT 数据集,帮助模型形成推断能力。

picture.image

阿里巴巴的两个推断模型都进一步探索和搜索推断路径树的多个分支,为实现 pass@n>1 准确性打开了大门。 它们采用在后训练期间常用的多代理方法,并在推理时实现。 在这种方法中,一个 actor 模型会生成下一个推理步骤,而 critic 模型会评估这个步骤,并确定 actor 模型是继续这个推断链还是回溯。

考虑 使用多个思考链来得出最终答案,开启了另一个扩展维度 。不仅更复杂的树搜索算法通过更多计算可以带来更好的结果,而且更大的结果样本量也可以带来更高的准确性。如果这与强大的验证器相结合,这一点尤其正确,这意味着训练更好和更大的验证器会带来更好的结果。

Nous Research 采用了完全不同的方法,他们不是生产推断模型,而是生产推断 API。这个 API 跨不同模型工作(如 Nous Hermes、Claude、GPT-4),通过 MCTS 和其他方法为它们提供推断能力。这些其他方法包括多代理混合方法,多个模型独立分析相同的提示,然后"会议"。这些模型随后集体判断最佳答案并展示给用户。在 Nous 的情况下,他们向用户提供约 3 个供选择的响应,尽管这可能会随规模改善。

测试时计算的扩展定律包括为模型提供的时间、模型可以生成的次数、用于检查生成的验证器强度,以及搜索算法的复杂性

扩展训练比扩展推理时计算更便宜

推断模型更昂贵的特性加上大量 token 使用,大大提高了推理成本。 如果模型提供商希望经济地服务这些推理模型,阻止这种成本上升螺旋是至关重要的。 主要实验室没有足够的容量按他们希望的那样广泛地服务他们的模型。 微软仍然无法推出完整的联合驾驶功能集。 Sora无法被广泛使用,注册已经两天都无法进行(可能更久)。 无论是在预训练还是推理,计算资源仍然非常有限。 为此,扩展预训练仍然可以极大地降低成本。 具体来说,通过额外投入两个数量级的 FLOP 进行过度训练,可以实现与使用 Chinchilla 最优相同的性能,从而将推理成本降低一个数量级。

picture.image

扩展预训练额外两个数量级将比以往任何时候都更昂贵,但这仍然是合理的,超大规模提供商继续建设更大的集群,埃隆马斯克目标是 100 万卡 GPU 集群。 考虑到 Open AI 和微软在大约几十万个 GPU 上运行 GPT 的推理,扩展训练看起来仍然可以提供所需的训练成本节省。

(全文完)

关注本公众号,后台回复“scaling law” 免费获取完整版文章。


扫描下方 二维码 ,关注“ 慢慢学AIGC ”

picture.image

0
0
0
0
关于作者
相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论