与 Greg Brockman 的对话：AI将彻底改变世界

对于那些还不了解 OpenAI 的大家，我希望你能简要介绍一下 OpenAI 是谁，你们在做什么，以及背后的背景故事和初衷。

我们实际上是在大约六年前成立 OpenAI 的。时间过得真快，当我们将目光聚集在深度学习上时，人工智能终于从失望中焕发出了希望。多年来，该领域一直是破灭的承诺，但很快，我们看到它以一种可能影响并重塑社会的方式开始发挥作用。我认为我们最初的目标就是想成为这一进程的一部分，帮助最大化积极结果，最小化负面结果。我们认为需要关注这种存在的风险，在发展过程中，技术要与社会逐步整合。在过去的20年中，互联网技术的一个经验教训是，可以有很多积极的发展，但也有出乎意料的负面结果。所以我们带着一种理念，即我们要研发技术，尽力推动技术进步，但同时要保持谨慎，并对负面结果负责。

那么六年前，我们有这样一个大图景，那就是推进这项技术，并为全世界的利益服务，让每个人都能受益。要明确这一点我们花了很大力气。我们尝试了多种方案。我感觉我们找到了正确的路径，但也许将来会发现这条路并非正确，我们需要进行调整。

所以，OpenAI 并不是一个非营利组织，也不是一个盈利组织，我们是一个“封顶盈利”的组织，这意味着我们有投资人，员工持股，而且有一个固定的一次性回报的预期。一旦超出这个预期，任何超出部分都将用于惠及全世界。

所以我们最终形成了一种混合结构来研发技术，技术层面，我们目前在诸如语言模型 GPT-3 等领域表现出了非常领先的结果。我们发布了一个名为 OpenAI Codex 的系统，它可以将自然语言转化为代码，作为一名程序员，我感到非常兴奋能看到这种工具，它大大减少了创建代码的繁琐工作。许多人正在使用它进行编程，也在基于它构建应用程序。我们今天会更多地讨论这些问题。我们做得非常棒。

让我们聊聊你个人的职业经历，是什么让你创立了 OpenAI？或者说，是什么让你走上了这条路？

没错，你知道，对我来说，这一切始于童年。

当时的我读了艾伦·图灵1950年的论文《计算机械与智能》，这实际上是图灵测试的论文。这是一个非常有趣的论文，图灵在他描述了图灵测试的具体内容之后说，我们根本无法通过编程来解决这个问题，太复杂了，太难了。相反，我们需要建立一种像人类儿童学习一样的机器，通过奖励做好的事情和惩罚做错了的事情来训练它，最终学会流利交谈并能够通过测试。

我深受启发的是这种构建出比人类更了解事物的机器的理念。起初我对编程有所涉猎，意识到了编程主要是两部分工作，一是需要深入了解领域，深思熟虑，理解所有琐碎的部分；二是写出处理规则。而能够允许这种工作由机器完成的想法是如此令人振奋。你想得到像汤米·索耶一样懒散，让其他人帮自己干活。这样做确实很吸引人，图灵为我们指明了这条路。

当我进入大学时，我非常兴奋地投身于人工智能的研究，找到了一位教授并向他询问了关于编程树的事情。我心想，这根本不可能做成。于是我就掉进了创业的世界，这段经历持续了一段时间。后来，我从外部目睹了深度学习的发展。我并不真正了解它，我只是通过 Hacker News 关注到了一些新的深度学习进展。后来我问了一个朋友，究竟什么是深度学习？随著与更多人交流，我意识到，我大学中最聪明的朋友现在已经进入了该领域。时间大约是2014年，我意识到现在是时候真正加入该领域，看看能不能有所作为。

有趣的是，我原本以为自己只是一个管理者，专注于协助那些拥有 Ph.D. 证书且是该领域的专家们进行研究。让我意外的是，我发现我的软件技能是我们取得进展的主要限制因素。于是我把时间都花在了构建系统上。实际上，这是我们在这一领域取得更进一步所要克服的主要障碍。

是的，我确实相信通过实践来学习，并且没有什么能比亲自动手编程来学习更多东西了。

谈到 GPT-3，我上次得知你将在此次活动上发言时，我觉得这是一个很好的机会。我相信很多人已经听说了它，也许一些人看到了之前关于它的会议讨论。这是一个有趣的时间点，我觉得它有些类似于“病毒式”的传播。所以，你能告诉我们一些关于这个旅程背后的故事吗？比如，在你们组织内部的情况是怎样的？

有趣的巧合是，我们并不是第一次因人工智能系统而引起轰动。我们之前也取得了某些高调的结果，特别是在 GPT-2 之前。当时我们构建了一个系统，虽然它的应用并不危险，但它的前景明显正在逐步变得令人担忧。我们从能够写一句完整的句子，再到能够写出一段逻辑连贯的文章，甚至构筑了一个关于用英语说话的独角兽的小故事。人们阅读之后表示，这听起来就像是人类写的。我们不确定该怎么办，最终决定不公开模型，而是发布了一些样本并通过反馈来观察人们对这些模型的态度。于是我们发布了一个较小的版本并引起了巨大的轰动。媒体标题大体上都是这种说法：AI 系统太危险了，不能发布。

关于 GPT-3，我们采用了一个更好的方案，即将其通过 API 发布。我们有一个模型，能够写出连贯的语言，我们通过 API 将其扩展到千倍甚至万倍，这样任何人均可使用它，但同时我们也能为使用场景负责。我们运作的模式其实类似于 Stripe，一个在线支付处理平台，我们审查应用程序以了解用户在做什么，并且紧密合作的开发者，观察他们的应用场景如何扩展并最终影响现实。

是的，我觉得一切都如此令人印象深刻。特别是在这个闭源测试过程中，人们纷纷前来参与。后来我还让他们展示实施案例时，我感到很好奇：你们真的开发了这些方案吗？你们真的处在测试阶段吗？给我看邀请函吧！因此，我很想了解你们的用户是怎么使用这些模型的。你能分享一些让人兴奋，甚至有些令人感到不寒而栗的情况吗？比如，我们可能在 Guardian、其他报纸上读不到的情况。

关于 GPT，我认为有趣的地方在于你可以用它来做任何事。当我们内部开发 GPT-3 API 时，确实，拥有一个通用型模型令人激动，但你也难以预测它会被如何使用，也无法完全了解它能做些什么。探索这些应用方面的工作超出了我们目前的能力。我们只能触及表面，深入探索需要社区的支持。

一个我非常喜欢的例子是 Augmented 公司使用 GPT-3 对房东发出的通知进行解析和简化。对于那些没有法律咨询权的租户来说，他们收到一份法律条文式的文件，甚至不清楚该怎么做。通过在服务中使用 GPT-3，他们可以从中获得线索，并提高自己的公平地位。我们从未想过会有这样的应用，但确实发现了这些应用场景中的语言无处不在，不仅在商业中，在我们日常生活的方方面面都需要使用到语言。所以，让人工智能帮忙处理语言问题，可以消除进入壁垒，许多原本超出了人们掌握范围的任务如今都可以借助 Codex 来实现。

这是因为我们最近推出了代码模型。它已经被整合到了 Repl It 平台中，这是一个备受欢迎的代码学习平台。我想有很多人，尤其是年轻人，正在使用它。它被用于代码解释，你可以选择一些 Python 代码或 JavaScript 代码，它可以解释这段代码实现的功能。虽然目前这些系统还处于早期阶段，我们有很大的改善空间，但它们比以前任何人创造的这些应用程序都要好。

这些系统的好处不仅限于编写代码，而在于能够教人们如何编程，不仅仅给予一个人工具，而是教会他们如何使用工具。我认为这就是 AI 技术的真实潜力所在。

我们的目标是推动技术的发展，帮助人们实现梦想，解决超出了人类能力范畴的问题，这是一个漫长的过程。但我们已经开始探索一些问题的解决方法。事实上，我认为很多技术让我深感兴奋，不止是帮助学习代码，还要更进一步促进人们更快地掌握编程技能。我在 GitHub 的 Copilot 计划中是一名早期用户，这极大地加速了我能够在应用中实现的功能。即使不必输入那些细节，这一过程非常令人满意。作为一个企业级 Java 开发者，这些细节大多无关紧要。所以，我坚信这一点。

我相信，当人们知道自己可以更快地构建和部署东西时，会有怎样的世界？

我还经常提到那些有特殊需要或身体残疾的人。但他们非常聪明，他们的思维并没有受到身体障碍的影响。他们的程序员和设计师，当我们将自然语言用于构建他们需要的东西时，会产生什么样的变化呢？如何将这些模型或框架应用到他们的工作中？

我觉得这简直太酷了。因此，我想问，你们有没有一些具体的“AI for good”的例子？这是我非常热衷的话题。我在微软参与了 AI for Earth 和 AI for Humanitarian Efforts 项目。

你是否意识到有哪些现有的项目已经在试图解决或改变世界的问题？是的，确实如此，这些项目的部分目标确实是在解决人类面临的一些重大挑战，比如气候变化、个性化医学、教育等。我认为，我们开始取得一些进展。谷歌旗下的 DeepMind AlphaFold 就是一个很好的例子，它基本解决了蛋白质折叠问题。GPT-3 生成的许多模型已经是人类通过努力能够完成的。之所以人们想要使用 GPT-3，是因为很难找到愿意为我们掌握技能的真人。但要真正折合蛋白质，没有人能做到。这就是 AI 启蒙我们进入一种新的结构生物学领域的希望领域，让我们有可能开发那些以前无法开发的药物。

我认为未来我们将会看到一些令人兴奋的结果，这些结果本身本就是数字世界中未完成的奇迹。这正是推动我不断前进的动力。当然，增强人类的智慧，推动一些进展，确实是一个令人崇高的目标，但也面临一些挑战。我很想知道你们在AI伦理方面的经验，尤其是你们在部署这些模型时遇到的挑战。我曾在 Venture Beat 获奖，触及了这个领域。

我很好奇你学到了什么，你们在部署这些模型时如何思考如何维护它们，如何减少偏见，确保公平性和安全性呢？

坦率地说，我们面临的挑战并不仅仅是技术上的问题。就像 GitHub 上的 Copilot 或 Codex，我们从一开始就问自己，我们训练了什么？我们会不会重复同样的错误？

所以，你们经验中最突出的部分是什么？我们可以跳出关于最终结果的讨论，更多地关注我们公司正在经历的这些讨论。你们是如何应对这些问题的？

确实，我认为在某种意义上是一个时代的议题。我们意识到，仅仅依靠技术本身是不够的，必须负责技术带来的后续影响，包括偏见、公平性和其他问题。对于像 Codex 生成的代码，确保代码不会做危害性的事情是至关重要的。我们需要确保这些系统与用户的目标保持一致，这非常重要。其次，我们还需要确保这些目标本身是好的。这是一个更难的问题，它不完全是技术问题。我们借鉴了Kevin Kelly的《科技想要什么》（What Technology Wants）这本书的一段内容，它着重于新科技开发，虽然是关于 AI 的，但具有很大的普遍适用性。书中这部分描述了安逸教派采用新的技术方式，他们只引入那些增强社区和价值观的技术。

对于新技术，如何理解和决定这一点是一个问题？

他们的应对策略是逐步测试。当一个农民想要尝试一种新的联合收割机时，老年会授权他们尝试，然后观察是否导致农民减少与社区的时间，增加与机器的时间，还是导致社区更加团结。如果成功，他们扩大规模，如果不行，随时可以取消，没有问题。

我相信这种做法非常有趣，它涵盖了通过新科技或方法的影响，需要在孤立状态下很难做到的内容。你需要尝试，从小规模开始，逐步扩大，并及时了解真正的情况。

这就是我们对 GPT-3 的哲学。我们尝试不同应用场景，从小规模开始。因此，我们在平台上调节的一种方式是批准人们达到一定数量的处理量，然后在一定时间内根据这些来使用系统。如果进展顺利，我们逐步扩大规模，如果不行，我们会与开发者合作，以确保做得更好。我认为这种元方法非常重要。

我们必须承认事情有时会出错，挑战不是避免一切，而是在事情发生时确保其局限性，并积极应对，使之变得更好。我们在各种不同的情况下都看到了这个过程。我认为这对于我们来说非常关键，确保护我们的工具能够正常工作，建立监测工具帮助我们的用户，确保他们也能够提供良好的产品和服务。我们必须在实践中看到实际效果。

所以，当你提到开发者时，你实际上是把农民比喻成开发者，非常有趣。那么，你能详细说明一下这些反馈机制吗？比如，开发者如何提供反馈？这是一个很聪明的办法。很多人都想知道这些闭源测试的过程和机制是如何运作的。而且，我认为这种方法可以在组织内部进行模备用模式。

当然，有趣的是，对我们来说，第一次迭代实际上基于我们在支付处理公司中如何进行审查和与客户合作的方式。开发者出现在我们的平台上时，无论他们已经有了哪些想法，都会提交生产审查请求。在最初的日子，我们会与每位客户进行视频通话。他们向我们详细介绍自己的项目。让用户向建设他们平台的团队展示他们所做的工作也是非常有趣的体验。

我认为我们这种理念的核心是，我们在这里共同探索这种新的技术，就像一种外星技术降临地球，我们都在尝试探索它能用于何处。随着时间的推移，具体情况会有所不同。但是，我们与开发者合作，研究风险和可能出现的问题。这是关于偏见的问题，也可能是产生错误答案。有各种不同的情况。然后我们讨论任何需要的监控，以缓解这些问题。

我认为我们采取的氛围就是真正合作。这一人工智能的工作已经影响到每一个人，对于我们所有人而言，确保这一过程顺利地进行至关重要。

这个方法确实很有趣，因为它也适用于营销。这种封闭测试让人们产生一种短缺感，这是一种营销策略。至少在我所在的领域，有很多人寻求进入这个项目的机会。我觉得这非常有趣。

如果我们可以更好地进行市场营销，我也愿意这样做。但就像通常的技术初创公司一样，我们偶然间发现了它，项目因此而受到广泛关注。事后来看，史蒂夫·乔布斯可能说过类似的话：事后可以串联起点点滴滴，但现实往往很突然。尽管如此，我确实认为这是一种非常精彩的策略。我建议我们可以花一点时间讨论这一点，我可能要先退回去一些，因为我总是迫不及待地跳进来了，而且可能存在一些假设。

你提到了你们的一些产品，那我们也可以谈一谈 OpenAI 目前正在做什么，以及它的发展方向。我相信有一些观众对你们所做的一切还不够熟悉，GPT-3 可能是最为人所熟知的部分，是我们开始了解并学习你们的起点。所以，也许你能分享一下目前还有哪些新的发展？

是的，我们在过去的六年里经历了许多不同阶段。我们的开端是构建了一个名为 OpenAI Gym 的软件项目，被广泛用于强化学习中。我们的第一个机器学习项目其实很有趣，我们在发表的第一篇关于机器学习的结果论文实际上涉及生成式模型。在早期，它们的效果并不太理想，但很有趣。你要改进基本技术，但实际结果只对领域内的专家有所吸引力。生成式模型的思想是，通过分析大量数据来提取结构，并创造出新的类似数据的对象，这听起来很抽象，但这就是 GPT-3 的作用。它通过分析互联网上的文本并预测下一个单词来工作，然后将这个模型用于文档中的下一个单词预测，无论是问题还是回答。这就是如何利用生成式模型来解决特定任务的方法。

但结果证明这种方法不仅限于文本，我们还将其用于音乐生成。我们目前有两个项目，一个叫做 Jukebox，还有一个叫做 MuseNet。任何人都可以使用 MuseNet 生成 MIDI 声音，许多作曲家都会使用。你可以访问我们的网站，会发现这个工具并生成各种歌曲。Jukebox 相较于 GPT-3，生成的具体成果可能没有那么令人印象深刻，但我们实际上训练了原始音频并生成更多原始音频。因此，你开始能够让人工智能生成唱歌声，理解歌词，准确率并不是100%。这是一个很小型的模型，相比于未来的规模有很大的改进空间，但你已经开始能够看到未来的形状。我们也有一些非常酷的歌曲，你能够理解歌词，并且这些歌曲听起来很像是著名歌手的声音。这就是这条发展轨道。

Dalle 是另一个通过图像数据工作的项目，你实际上可以取一个图像上的像素，尝试预测下一个像素。你可以用它进行各种任务。比如 Dalle，我们使用文本图像对。因此，你可以通过这种方式从文本生成图像。例如，有人让 AI 生成冬瓜遛狗戴发规的照片，AI 生成了一些非常好看的小丑帽围着的冬瓜遛狗图像。让我感到惊讶的是，它居然只有一个技术：深度神经网络。这些都是我们在20世纪50年代处于罗森布拉特和他的感知器的人所想要解决的问题，七十年来的历史，但我们现在已经能够构建更大规模的计算能力和更多数据。我们在基本算法上取得了足够的进步，使得这些生成的艺术品真是令人兴奋、新奇且有用，有意义。我们一直在努力地推动这项工作的发展。它在过去的七十年里并没有触及瓶颈。也许我们很快就会触及一个瓶颈，但这将是令人兴奋的，因为它意味着我们会开始关注新的问题。

当然。我非常喜爱这种形式，而且我非常感恩。比如，这里有人叫杰瑞和玛丽亚，他们在聊天中讨论了我对以这种方式民主化AI的一些喜爱之处，我认为在问题发生的地方的人现在能更接近解决方案。

我还很喜欢音乐场景。事实上，我曾经参加过在英国 Abbey Road举办的首次黑客马拉松活动。当然，那是一个关于音乐的黑客马拉松，但当时我们没有生成模型，所以他们不得不在三天内从头开始构建东西。这体验并不美好。然而，竞争获胜者创建了一个说唱对决的机器人，你可以和它对战。如果回顾现在，有生成模型的帮助下，这个竞赛本可以更加精彩。他们当时并没有以神经网络为基础的声音解决方案，只是用了四年前的方案。因此，那有点老派，但如何能让类似艺术家、艺术馆的策展人、讨论可持续农业与垃圾处理等创新的人们更加靠近他们呢？

是的，我认为这就像一个黑客马拉松一样。我参加过你们社区开发者们的讨论，很像是一个持续不断的黑客马拉松。我认为这种变化是人工智能领域最令人兴奋的趋势之一。

人们最初认为AI会接管一些工作，然后接管另一些工作。

这只是工作顺序的问题，谁知道呢？里面最重要的是AI研究员，他们负责预测这一过程，并且应该是最后这些工作被自动化的过程。不过，AI像是在同时一次性地去处理枯燥的日常工作，而不是完全自动化所有工作。

也许在未来的某个时候，会有所改变，可能会有一个时刻你可以创造一个机器，这个机器真的能够做到人所能做到的事情。然而，我们学到的一件事是，人类其实非常灵活，能够应对各种挑战。想想快餐店的工作人员，不仅仅是机械地制造食物，还需要与顾客交流，解决问题。这需要多种技能和多年积累的人类进化知识。我认为，我们应该认识到人类远比我们之前认为的要有能力得多。在这中间，这些工具能够发挥一定的作用。

比如GPT 3，它还不够完美，我不希望今天用它写所有电子邮件，但也许它可以帮助我写邮件，特别是在我特别需要帮助的时候。我认为，对于重复的任务来说，像人力资源、法律和金融人员需要不断复制相同内容的时候，这些工具会非常有用。

例如，我们记不得CEO在邮件中提到他们的员工会更开心，因为他们将不再需要做那些琐碎的日常事务，比如处理细枝末节的工作，这些占用了他们很多时间，让他们感到厌烦，就像一种麻木的活动。如果我们能用AI来完成这些，那将非常棒。所以，对我们来说，知道一棵树以后，面前是很多博士问题，很重要。我目前的目标是集成这些工具，我们将不断改进模型，让系统可以在多个领域之间进行推理，并且可以帮助人类解决那些本不可能解决的问题。

我认为正如您所说，我认为我们确实处于一个美妙的时代。我自认为每十年都会重复这样的话，但实际上这就是下一个十年，也确实如此。每次十年，我们都能创造神奇的东西，和参与的公司。现在，人们降低进入门槛，不再只是1%的公司才能在这一领域拥有话语权，现在大家都可以参与，也许离我们更近一些，敢于想象。

在我开发Alexa的早期，我非常沮丧，因为我会给他们开发任何语音应用的权限，但他们只会创建一些基于命令的技能，提供香蕉的事实或者太空事实。在那里，技术不是问题，技术和你所在的世界是相似的，我们可以做很多事情，但需要改善的是开发者的创造性思维，让开发者意识到他们可能永远不会完成的事情如今变得触手可及。我是多么激动，我同意，但我们还有很多工作要做。因为我们必须给这些开发者带来一些希望，让他们相信这个技术能在他们需要的地方提供帮助。

尽管我们有时会找到非常简单的解决方案，这很好，但突出问题是未来十年中，我们可以解决更大领域的问题，比如废弃物管理、医疗保健等。而不仅仅是治愈疾病，这当然是令人兴奋的。

甚至像我父亲这样有认知问题的老人，他的生活变得更加美好，因为他可以和他工作的设备对话。如果他能与更多东西对话，他的生活会更好。我们刚刚买了一个语音控制的微波炉，真的太棒了。他以后就不会再烧爆米花了。

我们现在差不多要结束了，我希望我们讨论了未来以及你对OpenAI的期望还有一些你在五年或十年后的位置。我对未来的兴奋激动是因为我们走在通往实现人工智能深入应用的路上，就像GPT-3能够应用于所有可以想象的领域一样。下一步我们需要跨入一个不仅仅是构建模型的阶段，而是找到生成模型能够解决的问题——产生一本书值得阅读、制作一个电影有人想看、或者为学生定制个性化的课程。

我们确实朝着这个方向行进着。让我们整合这些工具，不仅仅是在哪个领域，模型变得越来越好，让系统能够跨过多个领域，并帮助人类解决问题，这些是我们之前无法解决的问题。

我认为正如您所说，我相信我们确实处于一个美妙的时代，十年一次，每次都会创造出了不起的东西。这个领域如此新，历次十年的变化如此之快，我们没有专家，他们不是博士学位毕业的人。但是，我认为他们并不比初学者有先天优势，最重要的是坚持。坚持解决问题，想出有效的方法，即使有时候我们找到的解决方案非常简单。

在OpenAI方面，我们已经研发出了产品和系统，鼓励人们使用GPT-3和编解码器，继续推动这些系统向更高的层次前进。我很喜欢这一点。

我很相信“边做边学”。有趣的是，当我开始研究人工智能时，我并没有想到它是一个弱人工智能。我起初认为它只是正则表达式的逻辑，但实际上，我在很短的时间内开发了100个应用系统，不断构建并改进。这次构建不仅限于软件上的改进，我每次构建新东西时，我的理解都会提升。我以前并不懂JavaScript，但我知道Java，这为我提供了基础。我不懂Node，不了解无服务器计算，也对AWS不熟悉。但我通过构建学习。其中有趣的一点是，我独特的生活价值观，例如冥想、友善和家庭观念，以及对特殊需求的关心，引导我开发了解决方案，特别是那些满足对他人而言很重要但之前并未被重视的问题。这就是为什么我认为OpenAI作为一个示例说明了，当我们向某人提供一个API，让他们能够自己完成之前可能会遇到困难的工作，因为这些任务如果从零开始实现会非常复杂，我们不需要从学校开始构建NLP系统或AI模型。正因为有API的支持，我们才能构建与自己关心的领域更加接近的系统，从而实现更大的成功。

所以，我完全同意，这里的所有人在开始构建之前都应该做点什么，这里有许多API供您使用。所以你开始时可能会做些什么，但这将是你最终完成的起点。每个主要云提供商都有API。当然，OpenAI也提供了产品，所以请开始吧。这是一个很好的建议。

我认为我们可能只是在兴奋中即将结束。所以我想感谢所有在聊天中提到的人。

与 Greg Brockman 的 对话：AI将彻底改变世界