12天直播结束,炒作GPT5开始!

大模型向量数据库云存储

华尔街日报大爆料 - GPT5 。

TL;DR

  1. GPT-5 进行了>=2 次大规模训练。第一次代号是“Arrakis”,其计算能力是 GPT-4 的两倍。第二次代号是“Orion”,从 2024 年 5 月持续到 11 月。
  2. GPT-4 在 13T 个标记上进行了训练。
  3. Orion 使用了合成数据加上物理学家、数学家等人工构造的数据。小规模训练运行看起来不错,但大规模运行表现不佳。
  4. 由于 GPT-5 进展停滞,OpenAI 不得不专注于 Sora、4o、4o mini 和 o1、o3。
  5. 目标是使用 o1/o3 创建合成数据集,然后将其用于 GPT-5。我想 GPT-5 随后将被用于 o4 等,以此类推。

下文为译文:

OpenAI 新的人工智能项目进度落后,开销巨大。目前尚不清楚它何时能发挥作用,甚至是否能发挥作用。可能世界上没有足够的数据来使其变得足够智能。

该项目正式名称为 GPT-5,代号为猎户座(Orion),已开发超过 18 个月,旨在成为 ChatGPT 背后的技术重大进步。知情人士称,OpenAI 最亲密的合作伙伴和最大投资者微软原计划在 2024 年年中左右看到这款新模型。

OpenAI 至少进行了两次大型训练运行,每次都需要数月的时间来处理大量数据,目的是让猎户座变得更智能。接近该项目的人士表示,每次都会出现新问题,软件未能达到研究人员期望的结果。

他们说,猎户座充其量比 OpenAI 目前的产品表现更好,但其进步程度不足以证明维持新模型运行的巨大成本是合理的。根据对训练各个方面的公开和私人估计,仅计算成本,一次为期六个月的训练运行可能耗资约 5 亿美元。

两年前,OpenAI 及其大胆的首席执行官山姆·奥特曼(Sam Altman)推出 ChatGPT,震惊了硅谷。人工智能承诺会不断展现显著的改进,并渗透到我们生活的几乎所有方面。分析师预测,科技巨头未来几年可能在人工智能项目上花费 1 万亿美元。

picture.image OpenAI 首席执行官山姆·奥特曼曾预测 GPT-5 将代表“重大飞跃”。

这些期望的重担主要落在人工智能热潮的发源地 OpenAI 的肩上。

投资者在 10 月份给予 OpenAI 的 1570 亿美元估值,很大程度上是基于奥特曼的预测,即 GPT-5 将在各种主题和任务中代表“重大飞跃”。

GPT-5 应该可以解锁新的科学发现,并完成诸如预订约会或航班等日常人类任务。研究人员希望它比现在的人工智能少犯错误,或者至少承认存在疑问——这对目前的模型来说是一个挑战,因为目前的模型可能会带着明显的自信产生错误,这种情况被称为幻觉。

人工智能聊天机器人运行在一种被称为大型语言模型(LLM)的底层技术上。消费者、企业和政府已经依赖它们来完成从编写计算机代码到润色营销文案和策划派对等各种任务。OpenAI 的模型名为 GPT-4,是该公司自 2015 年成立以来开发的第四个 LLM。

一位前 OpenAI 高管表示,如果说 GPT-4 像一个聪明的初中生,那么最终的 GPT-5 将在某些任务中拥有博士学位。今年早些时候,奥特曼在斯坦福大学的一次演讲中告诉学生,OpenAI 可以“高度科学地肯定”地说,GPT-5 将比当前的模型智能得多。

目前没有设定标准来确定一个模型何时变得足够智能而被指定为 GPT-5。OpenAI 可以在数学和编码等领域测试其 LLM。公司高管需要在很大程度上根据直觉或许多技术人员所说的“感觉”来决定该模型是否足够智能,可以被称为 GPT-5。

到目前为止,感觉不对。

OpenAI 和微软拒绝就本文发表评论。11 月,奥特曼表示,该初创公司不会在 2024 年发布任何名为 GPT-5 的产品。

训练阶段

自从 2023 年 3 月 GPT-4 发布以来,OpenAI 一直在开发 GPT-5。

长期从事人工智能研究的研究人员表示,开发像 LLM 这样的系统既是一门科学,也是一门艺术。世界上最受尊敬的人工智能科学家因其对如何获得更好结果的直觉而受到赞誉。

模型在训练运行期间进行测试,这是一个持续的时期,模型可以在其中被输入数万亿个被称为标记的单词片段。大型训练运行可能需要几个月的时间,在数据中心使用数以万计昂贵且备受追捧的计算机芯片,通常来自英伟达。

在训练运行期间,研究人员会连续数周甚至数月坐在电脑前,尝试使用偏远数据中心一些最昂贵的硬件,将世界上大部分知识输入到人工智能系统中。

奥特曼曾表示,训练 GPT-4 的成本超过 1 亿美元。未来的 AI 模型预计将超过 10 亿美元。失败的训练运行就像一枚太空火箭在发射后不久就在空中爆炸。

研究人员会通过小规模地进行实验来尽量减少失败的可能性——在真正开始之前进行试运行。

从一开始,GPT-5 的计划就存在问题。

2023 年年中,OpenAI 开始了一项训练运行,同时作为对猎户座提出的新设计的测试。但该过程进展缓慢,表明更大规模的训练运行可能需要非常长的时间,这将导致其成本高得离谱。而这个名为 Arrakis 的项目的结果表明,创建 GPT-5 的过程不会像预期的那样顺利。

OpenAI 研究人员决定对猎户座进行一些技术调整以加强其性能。他们还得出结论,他们需要更多样化、高质量的数据。他们认为,公共互联网上的数据还不够。

picture.image 英伟达首席执行官黄仁勋(Jensen Huang),英伟达生产训练人工智能所需的备受追捧且昂贵的芯片。

通常,人工智能模型吸收的数据越多,其能力就越强。对于 LLM 而言,这些数据主要来自书籍、学术出版物和其他受人尊敬的来源。这些材料有助于 LLM 更清晰地表达自己,并处理各种任务。

在其之前的模型中,OpenAI 使用了从互联网上抓取的数据:新闻文章、社交媒体帖子和科学论文。

为了让猎户座变得更智能,OpenAI 需要使其规模更大。这意味着它需要更多的数据,但目前数据量不足。

“它变得非常昂贵,而且很难找到更多同样高质量的数据,”DatologyAI 首席执行官阿里·莫尔科斯(Ari Morcos)说,这家初创公司致力于开发改进数据选择的工具。莫尔科斯正在用更少但更好的数据来构建模型,他认为这种方法将使当今的人工智能系统比所有顶级人工智能公司(如 OpenAI)所采用的策略更具能力。

OpenAI 的解决方案是从头开始创建数据。

它正在聘请人员编写新的软件代码或解决数学问题,供猎户座学习。这些工作人员,其中一些是软件工程师和数学家,还与猎户座分享他们的工作解释。

许多研究人员认为,代码(软件的语言)可以帮助 LLM 解决他们以前从未见过的问题。

picture.image OpenAI 的办公室,员工在人工智能训练期间伏案工作,训练可能持续数周或数月。

让人们解释他们的思维过程,可以加深新创建的数据的价值。这是 LLM 要吸收的更多语言;这也是模型未来可能解决类似问题的路线图。

人工智能基础设施公司 Turing 的首席执行官兼联合创始人乔纳森·西达斯(Jonathan Siddharth)表示:“我们正在将人类的智能从人脑转移到机器的大脑中。”Turing 与 OpenAI、Meta 等公司合作。

Turing 的高管表示,在人工智能训练中,可能会提示软件工程师编写一个能够有效解决复杂逻辑问题的程序。数学家可能必须计算由一百万个篮球构建的金字塔的最大高度。答案——更重要的是如何得出答案——随后被纳入到人工智能训练材料中。

OpenAI 与理论物理学等学科的专家合作,解释他们将如何解决各自领域中一些最棘手的问题。这也有助于猎户座变得更智能。

这个过程非常缓慢。据估计,GPT-4 是在 13 万亿个标记上训练的。一千人每天写 5000 字,需要几个月的时间才能生成 10 亿个标记。

OpenAI 还开始开发所谓的合成数据,即由人工智能创建的数据,以帮助训练猎户座。研究表明,人工智能为人工智能创建数据的反馈循环通常会导致故障或产生毫无意义的答案。

知情人士称,OpenAI 的科学家认为,他们可以通过使用其另一个名为 o1 的人工智能模型生成的数据来避免这些问题。

OpenAI 本已艰巨的任务,由于内部动荡和竞争对手不断尝试挖走其顶尖研究人员而变得更加复杂,有时会向他们提供数百万美元的报酬。

去年,奥特曼被 OpenAI 的董事会突然解雇,一些研究人员怀疑该公司是否会继续运营。奥特曼很快被重新任命为首席执行官,并着手改革 OpenAI 的治理结构。

今年,已有二十多位关键高管、研究人员和长期员工离开了 OpenAI,包括联合创始人兼首席科学家伊利亚·苏茨克维尔(Ilya Sutskever)和首席技术官米拉·穆拉蒂(Mira Murati)。就在上周四,曾担任 OpenAI 多篇科学论文主要作者的备受尊敬的研究员亚历克·拉德福德(Alec Radford)宣布,他在该公司工作约八年后离职。

重启

到 2024 年初,高管们开始感到压力。GPT-4 已经推出一年了,竞争对手开始迎头赶上。Anthropic 的一款新 LLM 被业内许多人评为优于 GPT-4。几个月后,谷歌推出了今年最受关注的新人工智能应用,名为 NotebookLM。

随着猎户座的停滞,OpenAI 开始开发其他项目和应用程序。其中包括 GPT-4 的精简版和 Sora,一款可以生成人工智能视频的产品。

picture.image 谷歌是与 OpenAI 争夺人工智能主导地位的竞争对手之一。

据知情人士透露,这导致了新产品团队和猎户座研究人员之间对有限的计算资源的争夺。

人工智能实验室之间的竞争日益激烈,以至于大型科技公司发布的关于近期发现或突破的论文比科学界的典型情况要少。随着两年前大量资金涌入市场,科技公司开始将这项研究的成果视为需要保护的商业机密。一些研究人员非常重视这一点,他们不会在飞机、咖啡店或任何可能有人窥视他们的工作场所工作。

这种保密态度让许多长期从事人工智能研究的研究人员感到沮丧,包括 Meta 的首席人工智能科学家扬·勒丘恩(Yann LeCun)。勒丘恩表示,OpenAI 和 Anthropic 的工作不应再被视为研究,而应被视为“先进的产品开发”。

“如果你在商业时钟上做这件事,那就不叫研究了,”勒丘恩在最近一次人工智能会议的场边说,OpenAI 在这次会议上的参与度很低。“如果你秘密进行,那就不叫研究了。”

2024 年初,OpenAI 准备再次尝试猎户座,这一次配备了更好的数据。研究人员在今年头几个月进行了一些小规模的训练运行,以增强信心。

到 5 月,OpenAI 的研究人员认为他们已经准备好再次尝试对猎户座进行大规模的训练运行,预计将持续到 11 月。

一旦训练开始,研究人员发现数据中存在一个问题:它的多样性不如他们想象的那么高,这可能会限制猎户座的学习能力。

这个问题在小规模的尝试中并不明显,只有在大规模训练运行开始后才变得明显。OpenAI 花费了太多的时间和金钱,无法重新开始。

相反,研究人员争先恐后地寻找更广泛的数据,以便在训练过程中输入到模型中。目前尚不清楚这一策略是否奏效。

猎户座的问题向 OpenAI 的一些人表明,推动其早期成功的“多多益善”策略正在逐渐失效。

OpenAI 并不是唯一一家担心进展陷入瓶颈的公司。在整个行业,一场关于人工智能的改进是否开始趋于平缓的争论正在激烈进行。

picture.image Ilya Sutskever今年辞去了 OpenAI 的首席科学家职务。

苏茨克维尔最近与人共同创立了一家名为 Safe Superintelligence(或 SSI)的新人工智能公司,他在最近的人工智能会议上宣布,最大化数据量的时代已经结束。“数据不再增长,因为我们只有一个互联网,”他告诉一群研究人员、政策专家和科学家。“你甚至可以说数据是人工智能的化石燃料。”

而这种燃料正开始耗尽。

推理

他们在猎户座上的挣扎促使 OpenAI 研究人员采取了一种新的方法来使 LLM 更智能:推理。研究人员表示,花很长时间“思考”可以使 LLM 解决他们没有接受过训练的难题。

在幕后,OpenAI 的 o1 会对每个问题提供多个答案,并对其进行分析以找到最佳答案。它可以执行更复杂的任务,例如编写商业计划或创建填字游戏,同时解释其推理过程——这有助于模型从每个答案中学习一点。

苹果公司的研究人员最近发表了一篇论文,认为包括 o1 版本在内的推理模型很可能是在模仿他们在训练中看到的数据,而不是真正解决新问题。

苹果公司的研究人员表示,如果问题被更改为包含不相关的细节,例如将一个关于猕猴桃的数学问题调整为说明一些水果比其他水果小,他们发现了“灾难性的性能下降”。

9 月,OpenAI 发布了其 o1 推理模型的预览版,并于本月早些时候发布了 o1 的完整版本。

所有这些额外的大脑能力都很昂贵。OpenAI 现在为对一个查询生成多个答案而不是仅生成一个答案付费。

在最近的 TED 演讲中,OpenAI 的一位高级研究科学家强调了推理的优势。

“事实证明,让机器人思考 20 秒钟的扑克牌,所获得的性能提升与将模型放大 10 万倍并训练 10 万倍的时间相同,”OpenAI 科学家诺姆·布朗(Noam Brown)说。

更先进和高效的推理模型可以构成猎户座的基础。OpenAI 研究人员正在追求这种方法,并希望将其与旧的更多数据的方法结合起来,其中一些数据可能来自 OpenAI 的其他 AI 模型。然后,OpenAI 可以利用人们生成的材料来改进结果。

周五,奥特曼宣布了一项计划,推出一种比该公司之前发布的所有模型都更智能的新的推理模型。他没有提及何时会推出一款值得被称为 GPT-5 的模型,或者是否会推出。

原文地址:https://www.wsj.com/tech/ai/openai-gpt5-orion-delays-639e7693

0
0
0
0
关于作者
相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论