Shane Legg 是人工智能领域的重要人物,作为 Google DeepMind 的联合创始人和首席 AGI 科学家,他在 AI 项目和科研中取得了显著成就。他领导了技术 AGI 安全团队,并在 AGI 的定义和分级框架上做出了重要贡献。Legg 参与开发的 AlphaFold 2 在蛋白质结构预测方面取得了突破性进展。他的工作不仅获得了加拿大奇点研究所研究奖,还在 2017 年获得了数字大师奖,并于 2019 年被授予英国帝国官佐勋章(CBE)。
Shane Legg 出生于 1975 年,在新西兰长大。Shane Legg 在伦敦大学学院(UCL)获得了学位,并在马库斯·哈特的指导下完成了关于通用人工智能的论文。他提出了机器智能的正式定义,并因此获得了加拿大奇点研究所研究奖。Shane Legg与 Demis Hassabis 和 Mustafa Suleyman 共同创立了 DeepMind,该公司在 2014 年被谷歌收购,并更名为 Google DeepMind。作为谷歌公司的首席 AGI 科学家,Legg 参与了 AlphaGo 和 AlphaFold 等项目的开发,并在 AGI 的安全性和伦理问题上发表了重要观点。
Legg 对通用人工智能(AGI)的研究和预测一直备受关注。早在2011年,他就预言到2028年之前,人工智能有50%的概率达到人类智能水平。这一观点在多次采访中得到了重申,他强调计算能力和数据量的指数级增长将推动 AGI 的实现,只要不发生极端事件如核战争。Legg 还提到,当前的计算能力已经达到了实现 AGI 所需的水平,并认为“第一个解锁步骤”是使用超过人类一生所能经历的数据规模来训练模型。除了对 AGI 的预测,Legg 还在智能定义和衡量方面做出了贡献。他与 Marcus Hutter 合作提出了 AIQ 测量方法,这是一种基于算法信息论的通用智能形式化定义。
※ AGI(Artificial General Intelligence,通用人工智能)的定义在于其广泛性,而不是专注于某个特定任务。Legg认为AGI应该能够执行人类通常能做的认知任务,甚至可能更多。要成为AGI,这就是需要达到的标准。例如,AGI应该能够在所有能提出的人类认知任务上达到了人类的表现水平。
※ 多模态技术的发展将成为下一里程碑,它能将文字模型的理解扩展到图像和视频等更广泛的内容,使系统更深入地理解世界。Legg提到,未来的模型将不再局限于文本聊天,而是能够理解图像、视频、声音,这将使系统以更强大的方式融入世界。
※ 到2028年有50%的可能性实现AGI。Legg的预测基于计算能力和数据量的指数增长,以及可扩展算法的发现和模型的训练。他认为,这将是解锁AGI的第一步,因此,他认为在2028年之前有50%的机会实现AGI。
※ 当前的语言模型需要改进上下文记忆和辅助推理,以提高模拟和理解情境的能力。Legg指出,模型可以在上下文窗口内立即学习内容,然后通过训练基础模型进行长期学习,这涉及数万亿个tokens。
※ 基于人类反馈的强化学习和自对弈是实现AI对齐的一部分,确保AI在实践中能遵循道德和价值观。要确保AGI系统遵循人类伦理准则首先应该对系统进行广泛的伦理培训,确保其对人类伦理有很好的理解。
※ 深度学习模型在处理新的、大容量数据的能力上有其劣势,但可以通过更多研究和架构上的改进来解决这一问题。现在我们有相对清晰的前进路径,可以解决现有模型中大部分不足之处,无论是关于妄想、事实性、它们所具备的记忆和学习方式,还是理解视频等各种各样的事情。
※ 真正的AI创造力需要进行探索,当前的语言模型更多是模仿已知数据而不是超越它们,强大的搜索过程将是关键。要获得真正的创造力,需要在可能性的空间中进行搜索,找到这些隐藏的宝石。这就是创造力。
※ AI系统的对齐问题是一个重要议题,更稳妥的方法是检查系统的推理过程及其对伦理的理解。为了确保系统对伦理有深刻的理解,我们应该对其进行一段时间的严格测试,全面评估其理解程度,确保其非常牢固。在系统部署后,我们应该有专人持续监控其决策和推理过程,以理解其如何正确地处理这些问题。我们需要向系统明确指定应该遵循的伦理原则,并通过对其进行审核来确保系统始终如一地遵循这些原则,至少与一组人类专家一样好。DeepMind是第一家专注于AGI的公司,一直拥有AGI安全性团队,同时多年来发表了许多关于AGI安全性的论文。这些工作提高了AGI安全性领域的可信度。关于AGI安全性的问题上,Legg没有选择最乐观的研究方向,而是提到了一种名为「Deliberative Dialogue」的决策方法。
※ Legg预测,未来的模型将变得更完善,更真实,更及时。多模态将会是模型的未来,这将使它们变得更加有用。但就像硬币的两面,模型也可能会出现被滥用的情形。多模态技术将会把语言模型所具备的理解能力扩大到更广泛的领域中。当未来的人们回想起我们现在拥有的模型,他们可能会想:「天哪,以前的模型只能算是个聊天对话框,它们只能处理文本。」而多模态模型可以理解图像、视频、声音,当我们和它们进行交流时,多模态模型将更了解发生了什么。
※ 在讨论AI的挑战时,Legg提到了模型的情境记忆的缺陷问题。他认为这涉及到了模型的架构问题。当前的LLMs架构主要依赖于上下文窗口和权重,但这不足以满足复杂的认知任务。大脑在处理情景记忆时采用了不同的机制,可以快速学习特定信息,这与缓慢学习深层次的通用性概念不同。