读书笔记之《这就是ChatGPT》

大模型向量数据库机器学习

这本书名为《这就是ChatGPT》(What Is ChatGPT Doing...and Why Does It Work? ),由Stephen Wolfram著。全书分为两个主要部分,探讨了ChatGPT的工作原理、它为何有效,以及它对未来的影响。

picture.image

作者斯蒂芬·沃尔弗拉姆(Stephen Wolfram),计算机科学家、数学家和理论物理学家,当今科学和技术领域重要的革新者之一。他创造了在世界备受推崇的软件系统——Mathematica、Wolfram|Alpha和Wolfram语言。35年来,他一直担任科技公司Wolfram Research的首席执行官,并取得了基础科学领域的一系列突破性进展,包括近的Wolfram物理项目(Physics Project)。著有书《一种》《这就是ChatGPT》《计算探索者之旅》《创想者》等。

序:

关于AI能力的上限,他认为,根据“计算等价原理”,ChatGPT这种通用人工智能的出现证明了“(人类)本质上没有任何特别的东西——事实上,在计算方面,我们与自然中许多系统甚至是简单程序基本上是等价的”。因此,曾经需要人类努力完成的事情,会逐渐自动化,最终能通过技术免费完成。很多人认为是人类特有的创造力或原创力、情感、判断力等,AI应该也能够拥有。最终,AI也会逐步发展出自己的世界。这是一种新的生态,可能有自己的宪章,人类需要适应,与之共存共荣。

那么,人类还剩下些什么优势呢?

根据“计算不可约性原理”(即“总有一些计算是没有捷径来加速或者自动化的”,作者认为这是思考AI未来的核心),复杂系统中总是存在无限的“计算可约区”,这正是人类历史上能不断出现科学创新、发明和发现的空间。所以,人类会不断向前沿进发,而且永远有前沿可以探索。同时,“计算不可约性原理”也决定了,人类、AI、自然界和社会等各种计算系统具有根本的不可预测性,始终存在“收获惊喜的可能”。人类可贵的,是有内在驱动力和内在体验,能够内在地定义目标或者意义,从而最终定义未来。

第一篇:ChatGPT在做什么?它为何能做到这些?

导读序:介绍了ChatGPT作为一个现象级产品,它在短时间内获得了巨大的关注和影响力。作者通过历史背景和业界专家的评价,强调了ChatGPT的重要性和革命性。

ChatGPT的内部原理:探讨了ChatGPT如何通过神经网络和机器学习技术生成类似人类的文本。作者解释了概率、模型、神经网络等概念,并讨论了它们在ChatGPT中的应用。

必须理解,从来没有“无模型的模型”。你使用的任何模型都有某种特定的基本结构,以及用于拟合数据的一定数量的“旋钮”(也就是可以设置的参数)。ChatGPT使用了许多这样的“旋钮”—实际上有1750亿个。

事实证明,即使有更多的权重(ChatGPT使用了1750亿个权重),也仍然可以进行最小化,至少可以在某种程度上进行近似。实际上,“深度学习”在2012年左右的重大突破与如下发现有关:与权重相对较少时相比,在涉及许多权重时,进行最小化(至少近似)可能会更容易。

换句话说,有时候用神经网络解决复杂问题比解决简单问题更容易—这似乎有些违反直觉。大致原因在于,当有很多“权重变量”时,高维空间中有“很多不同的方向”可以引导我们到达最小值;而当变量较少时,很容易陷入局部最小值的“山湖”,无法找到“出去的方向”。

picture.image

ChatGPT的训练:详细介绍了ChatGPT的训练过程,包括预训练、监督微调和奖励建模等步骤。作者强调了大量数据和计算资源在训练过程中的重要性。

在过去的十年中,神经网络训练的艺术已经有了许多进展。是的,它基本上是一门艺术。有时,尤其是回顾过去时,人们在训练中至少可以看到一丝“科学解释”的影子了。但是在大多数情况下,这些解释是通过试错发现的,并且添加了一些想法和技巧,逐渐针对如何使用神经网络建立了一门重要的学问。

在神经网络的早期发展阶段,人们倾向于认为应该“让神经网络做尽可能少的事”。例如,在将语音转换为文本时,人们认为应该先分析语音的音频,再将其分解为音素,等等。但是后来发现,(至少对于“类人任务”)最好的方法通常是尝试训练神经网络来“解决端到端的问题”,让它自己“发现”必要的中间特征、编码等。

总的结论是,训练神经网络很难,并且需要大量的计算工作。实际上,绝大部分工作是在处理数的数组,这正是GPU擅长的—这也是为什么神经网络训练通常受限于可用的GPU数量。未来,是否会有更好的方法来训练神经网络或者完成神经网络的任务呢?我认为答案几乎是肯定的。神经网络的基本思想是利用大量简单(本质上相同)的组件来创建一个灵活的“计算结构”,并使其能够逐步通过学习样例得到改进。在当前的神经网络中,基本上是利用微积分的思想(应用于实数)来进行这种逐步的改进。但越来越清楚的是,重点并不是拥有高精度数值,即使使用当前的方法,8位或更少的数也可能已经足够了。

但即使仅在现有神经网络的框架内,也仍然存在一个关键限制:神经网络的训练目前基本上是顺序进行的,每批样例的影响都会被反向传播以更新权重。事实上,就目前的计算机硬件而言,即使考虑到GPU,神经网络的大部分在训练期间的大部分时间里也是“空闲”的,一次只有一个部分被更新。从某种意义上说,这是因为当前的计算机往往具有独立于CPU(或GPU)的内存。但大脑中的情况可能不同—每个“记忆元素”(即神经元)也是一个潜在的活跃的计算元素。如果我们能够这样设置未来的计算机硬件,就可能会更高效地进行训练。

可学习性和计算不可约性之间存在根本的矛盾。学习实际上涉及通过利用规律来压缩数据,但计算不可约性意味着最终对可能存在的规律有一个限制。

如果有一个足够大的神经网络,那么你可能能够做到人类可以轻易做到的任何事情。但是你无法捕捉自然界一般而言可以做到的事情,或者我们用自然界塑造的工具可以做到的事情。

意义空间和语义运动定律:讨论了ChatGPT如何理解和生成有意义的文本。作者提出了“意义空间”和“语义运动定律”的概念,以解释模型如何捕捉和生成语言的深层结构。

神经网络,至少以目前的设置来说,基本上是基于数的。因此,如果要用它来处理像文本这样的东西,我们需要一种用数表示文本的方法。当然,我们可以(本质上和ChatGPT一样)从为字典中的每个词分配一个数开始。但有一个重要的思想—也是ChatGPT的中心思想—更胜一筹。这就是“嵌入”(embedding)的思想。可以将嵌入视为一种尝试通过数的数组来表示某些东西“本质”的方法,其特性是“相近的事物”由相近的数表示。

picture.image

ChatGPT每生成一个新的标记,都必须进行一次包括所有这些权重在内的计算。在实现上,这些计算可以“按层”组织成高度并行的数组操作,方便地在GPU上完成。但是对于每个产生的标记,仍然需要进行1750亿次计算(并在最后进行一些额外的计算)—因此,不难理解使用ChatGPT生成一段长文本需要一些时间。

ChatGPT使用了近2000亿个权重来完成其工作—数量与其接受的训练数据中的词(或标记)的总数相当。在某些方面,运作良好的“网络的规模”与“训练数据的规模”如此相似或许令人惊讶。ChatGPT内部并没有直接存储来自互联网、书籍等的所有文本。因为ChatGPT内部实际上是一堆数(精度不到10位),它们是所有文本的总体结构的某种分布式编码。

当我们运行ChatGPT来生成文本时,基本上每个权重都需要使用一次。因此,如果有n个权重,就需要执行约n个计算步骤—尽管在实践中,许多计算步骤通常可以在GPU中并行执行。但是,如果需要约n个词的训练数据来设置这些权重,那么如上所述,我们可以得出结论:需要约n²个计算步骤来进行网络的训练。这就是为什么使用当前的方法最终需要耗费数十亿美元来进行训练。

语义语法和计算语言的力量:探讨了ChatGPT如何利用语义语法和计算语言来生成文本。作者认为,ChatGPT的成功暗示了人类语言的结构化和简单性。

在一定长度内,网络是可以正常工作的。但是一旦超出这个长度,它就开始出错。这是在神经网络(或广义的机器学习)等“精确”情况下经常出现的典型问题。对于人类“一眼就能解决”的问题,神经网络也可以解决。但对于需要执行“更算法式”操作的问题(例如明确计算括号是否闭合),神经网络往往会“计算过浅”,难以可靠地解决。

作者认为ChatGPT的成功不仅在于其技术实现,而且在于它揭示了人类语言和思维的潜在结构。他通过解释ChatGPT的内部工作机制,展示了如何通过大量的数据和复杂的神经网络模型来模拟人类的语言生成能力。作者强调,尽管ChatGPT在某些方面表现出色,但它仍然存在局限性,特别是在需要精确计算和知识的情况下。

第二篇:利用Wolfram|Alpha为ChatGPT赋予计算知识超能力

ChatGPT和Wolfram|Alpha:介绍了Wolfram|Alpha作为一个计算知识引擎,如何与ChatGPT结合,以提供更准确和结构化的信息。

一个简单的例子:通过具体的例子展示了ChatGPT在没有Wolfram|Alpha支持时可能会提供不准确的信息,而结合Wolfram|Alpha后能够提供精确答案。

再举几个例子:进一步通过多个例子说明了ChatGPT在结合Wolfram|Alpha后,在处理数学、科学和实际数据查询方面的能力。

作者认为,尽管ChatGPT在生成类人文本方面取得了巨大成功,但它在处理需要精确计算和知识的任务时仍有局限。通过与Wolfram|Alpha的结合,ChatGPT能够利用其强大的计算和知识库,从而在提供信息时更加准确和可靠。这种结合不仅扩展了ChatGPT的应用范围,也为AI的发展提供了新的方向。

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论