Ilya Sutskever 深入解读Self-play RL自博弈强化学习 - 文章 - 开发者社区

本文内容来自于Ilya Sutskever 在 NVIDIA NTECH 2018 上的演讲。

我们从OpenAI开始。我们的目标是建立安全的人工通用智能（AGI），并确保这种智能的利益能够广泛分布。当思考关于AGI时，我们已经确定了它应具备的一些特性。例如，在仿真中实现高难度目标是优秀的。能够将你在仿真中学到的技能移用于实际环境是优秀的。能够学习伟大的世界模型是优秀的。对于重要问题，实现精确的安全和部署是必不可少的。

在技术层面上，我将向大家介绍我们近期的三个非常兴奋的研究成果。OpenAI 5，能够与游戏的一些顶级人类玩家匹敌的数据代理。Acti机器人，已经达到非常高的灵巧水平。

这种游戏叫做Dota，这里有一个视频片段。这个游戏非常复杂，非常混乱，集合了短期战术和长期策略。这是电竞游戏中有最大的职业场景，年度奖金池超过4000万美元。所以这款游戏非常受欢迎。

这是今年国际Dota比赛的一张照片，是在这里进行的国际赛，参战的是一些顶级的机器代理与两名顶级的人类选手。这是一场巨大规模的比赛，有一流现场观众。

我想详细说说这个游戏为什么如此困难。战术因为涉及大量的短期策略，策略因为这是一个长期的游戏，一场比赛要持续一个小时。由于视野有限，你只能看到地图的一部分。英雄们之间有复杂的互动，每场比赛有20000个动作，动作空间巨大。几乎是连续的动作空间，因为你可以在众多单位中选择一个，并指导它移动。

另一个重要的因素是，职业选手们为这个游戏奉献了他们的一生。他们投入了数千小时的刻意练习，以达到尽可能精通游戏。所以这个确实不易。

这款游戏的另一个非常有趣且重要的是，不同于之前的许多只为AI打造的游戏，Dota更加接近于真实世界。尽管它并不是真实世界，但它更接近真实。

我们是如何做到的呢？我们使用了大规模的强化学习（RL），那就是全部的答案。我们使用了一个大型LSTM策略（LSTM是一种长短期记忆网络的策略）。称它为大型策略应该还ok，但可以说它的确很大。相对于RL策略而言，它是大型的。我们目前使用的是一个带有4000个神经元的LSTM，约有1000亿个参数。从计算量来看，它与蜜蜂的大脑相似。我们使用了自强化（Self-play）以及奖励塑造。甚至一点奖励塑造也很重要。

我们的关键科学发现是在这个过程中发现了强化学习其实是有效的。我们之前已经知道，监督学习也是有效的。通过大量输入输出的例子进行训练，不论是在视觉、文本还是其他任何输入输出域，监督学习都能解决问题，如果模型效果不佳，只需使其更大，获取更多的数据，问题即可迎刃而解。这是监督学习的奇迹。我们也证明，同样的在强化学习中，可以通过适当扩展，解决非常复杂的问题，达到超人的表现。

关于长时间问题，其实还不够重要。我想指出，几乎所有的世界强化学习专家都对长时间问题持悲观态度，他们相信强化学习可以应对长时间问题，这也有助解释不计其数的HRL（层次强化学习）研究。人们普遍认为强化学习做不到这一点。纯强化学习仅被应用于极其简单的环境，例如简单游戏和一些简单的模拟机器人。这些都是玩具级问题。可以说，或许强化学习可以解决任何玩具问题。

同时，有个对强化学习的额外怀疑。Henderson等人的一篇论文我非常欣赏，展示了一些强化学习的问题。例如，这里有两条曲线是随机平均5次运行的结果，但使用的是相同的算法和相同的超参数，只是随机种子不同。因此，你可以从这得出结论说这个问题毫无希望而忘掉它，但我们的结果显示情况并非如此。

提升规模，问题突然之间可以得到解决。这并不说我们需要创新强化学习是不重要的。例如，我们希望能够在使用较少经验的情况下实现这些高难度目标。但是，我们的研究证明了这一点。

如果有一个值得解决的问题，并且它是强化学习问题，那么它是可以解决的。接下来，我想简要介绍一下强化学习并解释一下，因为机器学习的其余部分也是如此。

强化学习的核心思想非常简单。做某事，并在你的行为中加入一点噪音（随机性）。如果你做得比预期的好，那么确保以后更多地进行相同的行为。这就是强化学习的核心思想。这个想法如此简单，以至于它的工作方式令人难以置信。我依然感到惊讶。现在我想讨论的是使这种事情成为可能的核心改进。

这就是价值函数引入了指挥员批评法的想法。在这种方法中，每个游戏有20个行为，因此你需要对20000个可能的行为加入一些噪音，看看它们是否比预期的更好。这也会起作用。但我们能否做得更好？

指挥员批评法的核心在于你将学习一个函数，告诉你状态的好坏，也就是价值函数（value function）。这个想法是，你加入一些行为噪音，然后检查。然后不再运行整个游戏，而是咨询价值函数来查看情况能否有所改善。这样可以减少噪音，而且效果很好。

所以这个价值函数的方法是，你无需将整个游戏运行到结束，而是加上一点噪声，看看价值函数是否有所改进。这有点技术性，但对整个演讲的理解并不重要，我只是觉得它很有趣。

接下来是策略，它就是一个LSTM，之前的LSTM有1000个神经元。现在我们增加到4000个神经元。但是参与NTI挑战赛的LSTM只有1000个神经元，这是非常酷的。等等，我有75%的把握，在1000个神经元的情况下，实际上可能用了2000个神经元，现在我们使用了4000个神经元。

我想向大家展示这幅图，它展示了架构。基本上，这些复杂性都被输入到了LSTM中。这就是LSTM，然后被提取出来。我们这样做是因为你的观察输入是20维的，你需要巧妙地使用嵌入，以便以LSTM可以理解和消耗的方式提供这些信息。我们要找出这些，但本质上，你只想做一些明智的事情，以便可以消费你的观察并以正确的格式产生动作。

我还想谈谈自我对弈，这很有趣。大多数游戏都是与当前版本的代理人进行的。大约20%的比赛中会与之前的代理版本进行。

现在我想分享一些更酷的事实。我们进行了最大的实验，使用了超过100000个CPU内核，超过1000个GPU内核，总体时间范围是0.9997，我认为我们已经将它翻倍。所以如果你谈论的是10分钟的游戏时间范围，那是个非常扎实的时间范围。

我想分享关于使用强化学习的一些其他酷点。加强学习的一个问题是，你永远不知道你是否有bug。因为当你看你的表现时，你的表现可以一直增加。你可能会有一个达到了顶级水平的系统，甚至比你预期的要好得多，但你仍然可能有代码bug。你一遍又一遍地阅读同样的代码，当你要修复这些bug时，你的表现就会提高。

另一个有趣的地方是在我们扩展强化学习中的实验规模后，我们发现这个问题已经消失。当我们运行实验时，曲线几乎是完美地跟踪彼此。所有这些不良行为已经消失了。所以一个高层的结论是，如果你把事情做对了，修复了所有的bug，并扩展强化学习，你可以解决非常复杂的问题，就像监督学习一样。这是我们很理想的状态。

我们还做了一些有趣的事情，即引入了团队精神参数。看看这个游戏，在游戏中你有五名玩家对战五名玩家。为了加速学习，我们的策略是让团队中的每个成员尽可能自私，只最大化自己的回报。随着游戏的进行，我们提高了团队精神参数，使每个人都能获得他人的回报。你可以看到，如果你给予短期奖励，这会促使玩家更快地使用他们学到的技巧，的确加速了学习。

我还想展示我们进展的速度。这是个图表，横轴是时间，从这个图中可以看到，这可能从5月到8月，是一个四个月的时间段，纵轴是估计MMR（一个类似于Elo排名的概念）。5月，我们战胜了OpenAI现有的最佳团队，然后在6月，我们战胜了一群解说员。然后，我们逐渐减少了限制。是的，所以在那之后，我们进行了镜像匹配。

在这里，我们增加了更多的英雄角色。这里有选秀过程。哦，还有一件有趣的事情。这个游戏很复杂，有很多规则。为了更加简化，在我们完全修复所有的bug之前，我们在游戏上加了一些限制，以便更容易取得进展。然后我们逐步取消了所有这些限制。

一个非常大的限制直到比赛前都是单兵兵种对多兵种兵种。在比赛场景中，有一个地方叫做“快递兵”，它负责将物品送到你的英雄手中。在最后一次封闭比赛前，我们使用了五名无人能够破坏的快递兵，这使我们在游戏中能采取更为激进的战略。观看比赛的人们觉得这并不完全真实。因此，到了8月底的一次公开比赛，我们将使用的兵种改为单兵。

有趣的是，我们在大型公共比赛前仅有五天时间训练单兵兵种。尽管如此，它还是做出了非常合理的事情，但如果再多一些训练时间并通过较大的模型则会表现得更好。我们的剩余任务是多次战胜顶尖团队。

但真正的结论是，实际上，如果你想用强化学习来解决一个复杂的问题，它将总是有效，就像监督学习一样。它是同样的故事，同样令人难以置信。原本难以相信的是监督学习能做这么多事情，不仅仅是视觉，而是所有的事情。同样的情况似乎也适用于强化学习，只要你有很多的经验，你需要很多的经验。这是需要解决的问题。这就是当前的情况。

好的，因此，这是演讲的第一部分，现在我想转移到OpenAI的另一项成果，我为此非常自豪，那就是我们的机器人成果。使用大量经验训练代理人的一个问题是，你可以说，好吧，但它们总是在仿真之外做不了有用的事情。我们在这个项目中处理了这个问题。项目的目标是让这个机器人手重新定位这个立方体。我们通过以巧妙的方式进行仿真训练来实现这一目标，以便它能够转移至真实的环境中。

重要的是要强调，我们的仿真不完美。我们没有很好地模拟摩擦力。有很多事情我们没有建模。有许多关于物理手的东西我们不知道如何测量。我将告诉你会重点讨论这部分演讲，因为我想告诉你们一个非常简单但似乎有效的想法。我们的方法的一大好处是，我们能够应用于多个对象。我们还能够旋转这个八边柱体，而不仅仅是立方体。

使这一切成为可能的核心理念被称为域随机化（Domain Randomization），这并不是一个新想法。人们实际上已经为此工作了一段时间。我们所展示的是，这个想法确实非常有效。

这种主随机化的想法是，如果你的仿真中有无法测量的东西，你就随机化它，并且要求你的策略能够在所有随机化值的情况下解决这个问题。具体是什么意思？让我们假设我们不知道摩擦力应该是多少，因为我们没有好的方法来测量它。我们将会做的是让我们的策略能够在所有随机化的值下解决这个问题。我将在模拟世界中放入一个模型，而策略不知道摩擦力是多少。它需要与世界交互，快速确定并处理这一点。这就是域随机化，如此简单。

我们也在感知方面使用了主随机化。这里有相机拍摄的合成图像例子，可以看到机器人手有不同颜色和不同背景、光照等等。如果你能处理这些，那么你可以可能处理真实世界。这就是主随机化的想法。

这不是一个新想法，有趣的是它起作用了，尤其是它在物理上起作用了。我们随机化了一些几十个变量。我想向你展示了一些漂亮的图形，来展示它看起来是什么样的。哦，这里有一些非常酷的事情我们做了，那就是我们可以告诉你关于我们训练感知模块的方式。

我们设计系统的方式是有一个控制器接受坐标作为输入，所以它看不到图像。训练你的仿真策略不依赖于视觉的一个优点是没有必要渲染图像，因此你可以获得更多的经验并更好地进行训练。那么如何包括视觉呢？我们训练了一个单独的神经网络，输入是图像，输出是一个预测，然后我们要求该策略，在与真实环境匹配的状态下训练，也偶尔使用感知模块的预测结果。也就是说，不断使用真实状态的过程中，它会偶尔使用感知模块的预测结果，从而能够很容易地适应这种输入。目的是，你可以将其控制和感知的训练因素化，这使得计算开销大为减小。

完成后，你只需将真实的图像提供给模型，以及真实的指尖位置估计，如果将其传送到LSTM，你就能得到动作，整个系统就会运行。这里修复代码的时候依然是挑战性的。比如，延迟非常重要。LSTM策略运行在的计算机的速度我们观察到，如果我们将策略运行在稍微更快的计算机上，神经网络运行速度会增加，LSTM算法减少。

但核心思想很简单，无论你的仿真与真实世界有何差异，你只需要将你不知道的东西随机化，并要求你的策略能够处理所有的值。这种方法出乎意料地有效，不是什么新想法，只是证明了这确实是个好主意。

培训方法方面，我们训练的Dota代理和操控立方体的控制器使用了快速强化学习基础设施。实际上，与数据代理和机器人训练的相关代码之间有很大共享，以及Dota中操纵策略的训练代码之间也有很多差异。但事实证明，由于编写好扩展的强化学习代码很难，值得重用，所以我们用了很不错的代码。

哦，对了，我有一张很酷的图向你展示三个不同摄像头分别观看立方体的三个不同位置。你看到了这三个摄像头，它们观察立方体并估算其位置。还有一些关于视觉架构的更多图片，这些相机图像通过神经网络处理，然后输出位置和控制策略，基本上是LSTM。这些架构惊人地简单。你只需使用感知，你就可以训练一个好的模型，它总能工作。这正好说明了我们的灵巧操纵成果。

接下来，我想转向话论我们的自然语言理解成果，尽管不涉及超个人学习。我想告诉你们，这个结果的关键在于，你训练一个非常优秀的语言模型，然后针对特定语言任务，你就能获得巨大的改进，通常是非常显著的改进。基本上，这是预训练和微调工作的原始概念。关键是有一个足够好的语言模型。这真是太好了。

我想向你展示一些改进的直观感受。你看到了许多任务，左侧显示的是在进行改进之前的结果，右侧显示的是使用更优模型后的结果。右侧数值总是更大，有时差距相当显著。你可能无法完全看到所有内容，但我来解释一下。这些三行展示了我们模型改进最大的三个任务。这些任务都需要多步推理和理解。

我将用例子来解释一下所要求的内容。这个例子是这样一个场景：凯伦被分配了室友，在她的大学第一年。她的室友让她去附近的城市参加音乐会，凯伦愉快地接受了。演出非常令人兴奋，然后凯伦与她的室友成了好朋友。这首例题的关键在于训练一个非常优秀的语言模型，并在这个任务中寻找合适的指标。

这个先进的结果与现在达到了创纪录的水准，相信如果你训练更大、更好的语言模型，差距会进一步拉大。我将稍微谈谈细节。该模型是一个Transformer结构。关于详细的实现细节我不作深究，但我认为这是一个最重要的神经网络架构创新，在过去的几年里。

数据集是一个语料库，所以是一个规模巨大的书籍文本语料库。上下文窗口大小是512，换句话说，语言模型可以查看最近500个单词，这是一个很好的上下文，且该模型在一个月内训练了8个P100 GPU。

我想向你展示一点关于Transformer的具体使用。这里有一个Transformer的样子，这是一个Transformer的图示。这里有一些细节，但你可以忽略它们，这个部分是Transformer的细节，如果你感兴趣，我建议你查阅相关文献《注意力就是一切》。

然后我们描述了如何简单地表示不同的问题，并将它们输入到Transformer中。我们做了许多明智的事情。例如，如果你有多个选择的问题，你可以将上下文和可能的答案分别输送到Transformer中，你将获取三种表示，然后通过线性模型传递它们，就是这样简单。这只是简单的内容。但如果你有一个很好的语言模型，你可以解决语言理解任务，如果你的语言模型更好，那么你的语言表示就会更好。所以这是很好的，看似无监督学习已经显示出一些生机，这是令人鼓舞的结果。

接下来，我想进入演讲的最后部分，即将你目前所观察到的趋势，尝试理解当前人工智能热潮是否有可能延伸到人工通用智能（AGI），以及其可能性的概率是多少。本次演讲的最后一部分旨在说明，很难确定5到10年内的情况。用AGI来说，很难确定并将其排除在外，未来可能实现的概率已经变得越来越高，接下来我想谈谈一些大的技术创新。

这些以前已经发生过。有一本书叫《未来的轮廓》（Profiles of the Future ），由克拉克（Arthur C Clark ）撰写，是一本很好的书，因为这本书分析了一些重大的技术创新，并有大量的有趣的内容。其中一项结论是，每当有重大的技术创新发生，比如飞机、太空飞行和核能，都会有非常有激情且有名望的反对者表示这绝对不可能。例如，关于飞机，各种人都说过这不可能实现。而当它实现后，他们又说，好吧，也许可以给一个人，但绝不会在经济上可行。

对此发生的一个有趣的事情是RC·拉克称之为“缺乏胆量”的错误，美国分析如何将物体送入太空，结论是这不可能，因为它需要建造一个几百吨的火箭。俄罗斯人在建造了200吨的火箭后证明这个结论是错的。事实上，英国皇家天文学会的天文学者曾说太空旅行是荒谬可笑的，就在“伴侣”卫星发射前一年。

所以这是非常有趣的事情。接下来，我想谈谈人工智能的历史。当我们研究人工智能的历史时，我们发现我们之前对人工智能历史的理解并不准确。我们之前对人工智能的历史理解是，AI领域会经历一系列的兴奋和悲观情绪关于不同的技术。所以它对感知器、符号系统、专家系统、反向传播和支持向量机感到兴奋。现在，我们再次对神经网络感到兴奋，而在将来，我们还可能对其他技术感到兴奋。但实际情况略有不同。

最后，我想谈谈推动这一切发展的基本趋势，那就是算力趋势。从最初的AlexNet到AlphaGo Zero的结果来看，算力增长了300000倍。这五年的差距实在是惊人。这些增幅非常巨大，大约每隔3.5个月就能翻一倍。我将向您展示计算规模的可视化视图。这显示了所有不同的结果，我们基本上是向外缩放了这个规模，所以您可以看到这一点。

是的，花的时间确实不短。我们还包含了上世纪80年代的一些初步结果，这就是为什么要花很长时间才能看到Dropout Net和AlexNet的结果。但之后继续发展，从6至6的算力开始变得微不足道，VGG的算力也变得微不足道，但这种趋势一直持续下去。

这给了您过去五年间算力增长的直观感觉。最后，我们最终可以看到即使是AlphaGo Zero也开始变得可见。现在，大量算力的增长是基于数据中心计算。也就是说，您不能将大量计算性能放在单个芯片上，那就需要将多个芯片组合在一起。未来这一点会更加重要。我认为，就像俄罗斯为了进入太空而建造的大型火箭一样，为了达到这真正庞大的算力规模，大规模集群将变得至关重要。但这很可能就是这样发生的。

总的来说，本次演讲的主要目的就是要表明，尽管这些进步是高不确定的，但短期内无法确定进步的下限。也许当前的方式实际上会导致AGI （通用人工智能）。这意味着有必要提前思考其中的风险。

这包括机器追求未定义目标的风险、机器被篡改、部署系统被篡改、人类面临的非常快速并失控的经济变化等问题。这些都是值得思考的重要问题，就说到这里，非常感谢大家。

问答环节：

监督学习可以解决任何问题。那么对于一些复杂的数学问题呢？

是的，准确地说，监督学习可以解决人类能够在几秒钟内解决的任何问题。

您好，我想问一下您对安全强化学习的看法，以及在面对数据集中的巨大不平衡性时，安全强化学习有哪些有趣的解决方向？您是如何思考这个问题的？

关于安全强化学习和数据集不平衡性。首先，关于数据不平衡性，我可以说有许多标准工具和方法，都是非常标准的。您可以尝试训练一个小型模型来识别重要事例，并将其传递给大型模型。这方面已经有了一些做法，特别是在强化学习的领域，例如，我们做的一些工作是基于人类反馈学习奖励函数和偏好，这就是一个例子。其他值得探索的领域包括安全探索等方面，譬如您试图在探索环境时尽量减小对环境的改变，这也是一个例子。

您提到了一些关于深度学习的批评点，其中样例复杂性是一个很大的问题。我想知道，您认为批评者可能会说，这事前样本效率非常低，您认为这是否是一个问题，或者有没有办法来解决这个问题？

样本复杂性确实是需要解决的一个重要问题。毫无疑问，这是一个需要解决的问题。目前一些有前景的想法包括迁移学习和在其他任务上训练您的系统。例如，在语言的结果中，我们训练一个大型神经网络来预测大型文本语料库中的下一个词。通过这样做，可以大大降低其他语言任务中此模型所需的样本复杂度。这是一个如何实现这一目标的例子。

批评者会认为，在您已经取得最好结果的问题中，信号强度很高。您认为在信号较弱的情况下，有没有其他领域？能否举个例子？

要过渡到这样的环境，需要发生一些事情。我们需要变得非常擅长无监督学习，并且需要非常擅长发现或发明自己的奖励函数，然后对其进行优化。换句话说，一旦代理能够自己选择一个合理的奖励函数，然后优化它，它将既能获得技能，又能获得新的数据，用于其无监督的理解。

您提到视力方面似乎已经收敛于一种称为深度Cos的单一架构，它可以解决几乎所有您遇到的问题。但对于序列模型，我们还没有看到类似的情况。您们使用LSTMs在某些地方，使用Transformer在其他地方，同时也使用序列卷积模型。您认为序列模型是否会有一个类似的收敛，还是我们会继续拥有许多不同的解决方案？哪种最有效将取决于应用？

我认为有可能存在几种不同的架构。对于图片来说，的确有一些新的候选架构，例如图像Transformer，这可能会成为比卷积更占主导的架构。因此，在某种意义上，我认为有可能会有两三种不同的选择。但是另一方面，只三种选择并不多。

关于Q学习的问题，我记得几年前有一个结果，他们无法解决轮盘赌问题，因为如果没有理解轮盘赌必须平衡，光从样本中学习是不可能的。所以在一定时间内，你总是认为某些事情是幸运的。

我只是想了解一下，是否还有学习所有事物规则的难度？

从足够样本中，您可以学习宇宙的规则，还是有些情况下您仍然需要编码一些不同的规则，因为奖励是高度变异的，很难仅通过平均结果就学到？

关于您更广泛的问题，我没有特别理解您所说的轮盘赌问题。让我快速解释一下。这是一个关于Double Q学习网络的例子，作者证明该网络在传统Q学习中，异常值的存在使得如果不知道轮盘的表现，你必须假设每个点的概率是相同的，即随机的，然后将它们当作独立变量处理。那么无论你运行多长时间，它也不会得出所有数字都是负数的答案。这听起来像是关于稀疏奖励的更广泛问题。

是的，我认为您可以用一种非常简单的方法解决这个问题，只要表明所有点必须有相同的底层概率，而无需编码，如果简单地将它们视为独立变量，那么即使在无限样本下，您也永远不会学到所有数字都是负数。因此，从长远来看，在长期来看，您应该不编码这些信息，因为您想要解决的问题范围太广，人类不可能将所有有用的东西都编码进去。例如，您已经成功编码了一些有用的，它非常有帮助，也非常通用。所以您确实想将非常通用的假设编码进去，让您的模型能够利用所有有价值的信息。在这种情况下，您将通过从其他信息源中获益来应对这种情况。这就是人们通常所做的。

当我们面临新问题时，我们并不是从头开始，而是利用我们一生的经验。当事情显得不明确时，我们尝试通过谷歌或其他人获取更多信息。婴儿也会在完全新的领域进行互动。但我想，绝对不应该将事情编码，因为这样可以简化生活，而且我不认为我们足够聪明，能够让机器来编码那些复杂的任务。因此，我也认为这种做法并不乐观。是的，完全同意。

有趣的游戏例子是，这些事情在理论上是独立的，但在实际应用中，很难让算法学会这一点，实际上，您并不知道这一点，对吧？因此，我需要详细考虑这个例子以给出明确的观点。

您认为下一个最难的游戏是什么？有没有什么强化学习无法学习的东西？

确实，强化学习可以学习一些问题。但我们的学习方式的一个缺点是我们需要上千年的经验，所以尽管我们可以解决一些非常困难的问题，如果我们愿意收集足够的经验，那么我们如何用较少的经验做到这一点？我认为这对接下来要解决的难题的挑战描述更为恰当。如果不限制经验的量，我认为确实没有游戏是解决不了的。

您好，项目已经在NLP中使用过，但在抽象性总结等方面并不十分成功。人们对这一点有什么看法？您认为NLP中哪些任务可以让强化学习发挥作用？什么是可用于强化学习的NLP任务？

我认为NLP的局限在于您无法在其中找到一个能够设定奖励函数的环境。因此，我认为像助理系统、对话系统等可以从中受益。例如，您看过Google Duplex吗？这是一个你可以进行尝试的场景，比如，如果有10000人与您的系统互动，如果系统出错或没有执行您所需的操作，您可以让它自己获得一个负奖励。这是个例子。是的，您对使用强化学习进行NLP持正向态度吗？可以说是的，确实是的。只是我认为这与当前的应用形式不同。特别是，我还没有看到许多从数据驱动转向环境驱动的例子。您需要互动，要么是机器人之间互动，但它们不会使用真实语言；要么是机器人与人类互动，但这在实际操作上太困难了，除非是那些拥有大量研究实验室才可能做到的事情。