为什么GPT-5迟迟出不来？可能这篇论文找到了答案 - 文章 - 开发者社区

"科学就是相信专家们的无知。"——理查德·费曼

继昨天“草莓哥”又又又又放鸽子之后，我个人彻底对这个“草莓计划”失去了兴趣，并亲切地和大家一起问候了下他。（虽然今天听消息说这个号是个机器人号）

picture.image

坦诚的讲，没有GPT-5的日子是无聊的，再多的产品进化，也只是在工学上进一步加深造诣。就连最近和朋友的讨论中也能发现大家等的有点不耐烦，甚至还有的说“GPT-5再不出来，大家的信心就崩盘了”，这句话其实引发了我的好奇。为什么GPT-5迟迟出不来？难道是有什么问题阻碍了人工智能的前进？

抱着百无聊赖的心情加无穷的探索欲，我看了这篇由朋友推荐的论文：《Language is primarily a tool for communication rather than thought》（语言主要是一种交流工具，而非思考的工具）

picture.image

这篇论文虽然是在6月份发表的，但在发表之初就引发了学术界的广泛讨论，其潜在影响可能会重塑我们对人工智能的理解。这项由麻省理工学院（MIT）学者主导的研究，以一个令人耳目一新的视角审视了语言与思维的关系。

论文的核心观点令人深思： 语言主要是一种交流工具，而非思维的载体。这一观点直指当前大语言模型研究的根基。研究者们提出，人类大脑中负责语言生成和解析的 神经网络 ，可能并不承担形式化推理的功能。更进一步，他们认为推理过程本身可能并不依赖语言作为中介。

这一观点无疑给当前的AI研究投下了一片阴影，促使我们重新审视人类大脑与语言之间的复杂关系。我们是否在追求通向人工通用智能（AGI）的道路上误入歧途？这个问题的核心，触及了人类智能的本质，特别是语言在智能形成中的角色。

其实，要解读这篇论文，需要从不同学派间对语言和思维的关系上来探究。

一、语言决定思维

传统行为主义心理学提出了一个大胆而富有争议的观点：思维与语言本质上是同一回事。一些学者通过细致的观察发现，当人们在思考时，他们的发音器官和肌肉会出现微小的、类似说话的收缩变化。这个发现就像是打开了通往人类思维奥秘的一扇小窗。这些研究者认为，这种同步的肌肉活动正是思维和语言本质相同的有力证据。

picture.image

在这个学派中，约翰·布罗德斯·华生无疑是一位关键人物。他不仅是这一理论的主要倡导者之一，还设计了著名的"小艾伯特实验"。这个实验，虽然从今天的伦理标准来看颇具争议，但它确实开创了行为主义研究的先河。华生坚信，思维与自言自语之间没有丝毫区别。在他看来，思维就是一种无声的语言，只是因为相关的身体活动过于隐蔽和微弱，难以通过常规方法观察到。这种观点，就像是为思维穿上了一件看不见的语言外衣。

后来的新行为主义者，如弗雷德里克·斯金纳，进一步发展了这一理论。他们将思维定义为一种"无声的、隐蔽的、微弱的言语行为"。这种观点试图将抽象的思维过程具象化，使之成为可观察、可测量的对象。

与这些行为主义学者观点相近的是语言决定论。这一理论主张语言不仅影响，甚至在某种程度上决定了我们的思维方式。这种观点在20世纪中期颇具影响力，它强调了语言在塑造人类认知和世界观方面的重要作用。

在漫长的语言学研究中，萨皮尔-沃尔夫假说无疑又是一个引人注目的理论。这个假说提出了一个令人深思的观点：语言不仅仅是表达思想的工具，它还能塑造我们的思维方式和世界观。

这个假说认为，不同语言的使用者会因为他们的语言结构和词汇差异，而对世界产生不同的认知和理解。换句话说，语言不仅反映了我们如何看待世界，还会影响我们感知和思考世界的方式。这种观点暗示着，语言可能是一个塑造我们思维的强大工具。

举个生动的例子：对于雪这个概念，说英语的人可能只有一个词"snow"，而因纽特人却有数十个词来描述不同状态的雪。这种词汇上的丰富性可能会导致因纽特人对雪的感知更为细腻和多样。

二、思维决定语言

不过，也有一些理论指向了反面，即思维决定语言。这一观点可以追溯到远古时代，早在2500年前，古希腊哲学巨擘亚里士多德就提出了一个深刻的观点：思维范畴决定语言范畴。这一思想犹如一颗种子，在西方心理学的沃土中生根发芽，影响深远。

瑞士心理学家让·皮亚杰是这一思想的重要继承者。作为认知发展阶段论的创立者，皮亚杰对语言和思维的关系提出了独特的见解。他认为，从起源上看，我们不能将语言视为逻辑思维的源头。相反，逻辑运算的根源比语言更为深远，也更早出现。

皮亚杰的观点颇具革命性：他主张语言并非构成逻辑的基础，而是逻辑构成了语言。他进一步指出，逻辑运算实际上源于更为基本的动作协调规律，这些规律不仅控制着语言，还支配着所有的人类活动。

这种观点与我们日常经验似乎有所呼应。例如，婴儿在学会说话之前就已经展现出基本的逻辑推理能力，如因果关系的理解。这暗示着某些思维过程可能独立于语言而存在。

picture.image

另外，杰瑞·艾伦·福多的观点为我们提供了一个全新的视角来理解思维与语言的关系。在他看来，人类的智能行为远不止语言表达，还包括视觉感知、嗅觉体验、运动控制等多个方面。

首先，福多指出了一个我们常常忽视的现实：很多时候，我们难以完整地表达自己的思想。这种现象在我们的日常生活中屡见不鲜。例如，当我们试图描述一种独特的气味，或者表达一种复杂的情感时，常常会感到词不达意。正如诗人泰戈尔所说："最美的东西永远都是说不出来的。"这种表达的困难似乎与"思维决定语言"的观点相矛盾。

其次，福多将人类思维比作计算机处理系统，在福多的类比中，人类大脑就像一台复杂的计算机，能够接收多种形式的输入信息。就像计算机可以通过穿孔卡片、磁带或电打字机等多种方式接收数据，人类大脑也能通过视觉、听觉、触觉、嗅觉和味觉等多个感官系统接收信息。这种多样化的输入能力突显了人类感知系统的丰富性和适应性。

类比的核心在于"中枢处理语言"的概念。在计算机中，所有输入最终都被转换为机器语言进行处理。福多认为，人类思维也有类似的过程。无论我们是看到一幅画、听到一首歌，还是闻到一种气味，这些信息都会被转换成一种"思维语言"进行处理。这个观点呼应了认知科学家马文·明斯基的"思维的社会"理论，暗示我们的思维可能是由多个相互作用的认知过程组成的。

输出的多样性是这个类比的另一个重要方面。就像计算机可以将处理结果转换为数字、文字或其他形式输出，人类也可以通过语言、手势、表情等多种方式表达思想。这种多样性解释了为什么有些人更擅长用语言表达，而有些人则更善于通过艺术或音乐来传达想法。

这些类比正和心理学家加德纳的多元智能理论不谋而合，他也同样认为人类的智能是多方面的，不仅仅局限于语言和逻辑。这个观点不仅挑战了传统的"思维决定语言"的理论，还为我们解释了日常生活中常见的一些现象。让我们深入探讨这个引人深思的理论。

福多的理论还暗示了语言可能只是思维表达的一种方式，而非思维本身。这让我想起了哲学家维特根斯坦的观点："语言的界限就是我的世界的界限。"福多的理论似乎在暗示，我们的思维世界可能比我们的语言世界更加广阔。

在人工智能的背景下，福多的理论提出了一个重要的问题：如果思维不等同于语言，那么我们是否需要重新考虑当前以语言模型为主导的AI发展路径？也许，真正的人工通用智能（AGI）需要我们模拟更广泛的人类认知过程，而不仅仅是语言处理。

三、语言与思维双重分离

picture.image

福多的理论以及与之呼应的MIT论文作者的观点，为我们提供了一个全新的视角来理解思维与语言的关系。这种观点不仅挑战了传统的"思维即语言"的理念，还为我们解释了许多日常认知现象。让我们深入探讨这个引人深思的理论。

作者通过回顾语言与思维双重分离的证据，以及探讨语言的特性，为福多的理论提供了强有力的生物学支持。这种跨学科的研究方法不仅令人耳目一新，更是深化我们对人类认知的理解的重要一步。

首先，这个观点得到了一些生物学证据的支持。生物学家们通过直接观察大脑对语言的反应，观察到了语言网络的两个关键特性。第一个特性是语言区域表现出的输入和输出模态的相互独立性。这就像是城市交通枢纽中的不同交通工具可以自由转换一样。你可以乘坐地铁到达某个站点，然后换乘公交车继续旅程。同样，在语言处理中，我们可以接收一种形式的信息（如视觉信号），然后以另一种形式输出（如口头语言）。

从更学术的角度来说，这种现象被称为"跨模态的语言输入"。这个概念揭示了人类语言处理的一个重要特点： 我们不仅能理解和产生语言，还能在不同的感知和表达模式之间自如切换。这种能力对于人类的社交互动和信息交流至关重要。

论文作者讨论的语言特性也非常有趣。语言确实似乎为交流而优化：它是线性的，可以被快速产生和理解，具有模糊性和冗余性，这些特性都有利于高效的信息传递。相比之下，如果语言主要是为了思考而存在，我们可能会期望它具有更多类似于数学符号那样精确和抽象的特性。

这个理论还可以解释为什么有时我们会有"舌尖现象"——知道一个概念但一时想不起相应的词。如果思维和语言是分离的，这种现象就很容易理解了：我们的思维已经形成了概念，只是还没有找到合适的语言标签而已。

这项研究还表明，无论我们是通过口语还是书面语言来表达信息，语言网络中的这些区域都会被激活。这个发现的重要性在于，它暗示这些脑区很可能存储了我们所有关于语言的知识。换句话说，这些区域就像一个巨大的语言数据库，能够灵活地编码和解码各种类型的语言信息。

那么，这些语言区域是否还负责处理词义和句法结构呢？答案是肯定的。通过脑磁图和颅内记录的研究，科学家们发现语言网络的所有区域都对词义、词间关系、句法和语义依赖性表现出高度敏感性和活跃性。这就像是在大脑中发现了一个全能的语言处理中心，它不仅能理解单词的含义，还能解析复杂的句子结构。

四、真相永远在探索中追寻

这个发现就像是在大脑中发现了一个"瑞士军刀"，这个区域似乎能应对所有与语言相关的任务。

研究者们想，既然语言网络如此全能，那么是不是可以将研究焦点完全集中在这个区域呢？

于是，语言网络成为了评估语言在思维和认知中作用的明确实验目标。研究者们使用了功能性磁共振成像技术，这是一种可以实时观察大脑活动的强大工具。他们希望通过观察语言网络在各种任务中的活跃程度，来揭示语言和思维之间的关系。

然而，实验结果却出人意料。 在执行推理任务的过程中，本应全能的语言网络竟然没有表现出明显的活跃 。更令人惊讶的是，当语言网络活跃时，负责推理的脑区却保持沉默。这就像是发现两个本应密切合作的部门，实际上各自独立工作，互不干涉。

这个发现可以说是给了先前的假设一记重拳。它挑战了我们对语言和思维关系的传统理解，就像量子力学挑战了经典物理学一样。正如丹麦物理学家尼尔斯·玻尔所说："如果量子力学没有让你感到深深的震惊，那么你可能还没有真正理解它。"同样，这个发现也应该让我们对人类认知的复杂性感到震惊。

这个结果提出了一系列新的问题：如果语言网络不参与推理过程，那么语言和思维之间的关系究竟是什么？我们是否过高估计了语言在认知过程中的作用？或者，是否存在一些我们尚未发现的、更为复杂的交互机制？

研究者们通过对比实验发现，即使语言网络遭到严重损伤的个体，在语言能力上出现严重障碍，难以理解普通的句子和单词，但他们仍然保持了许多思考形式的完整能力。这就像是一个人失去了说话和理解语言的能力，但他的"内心世界"仍然丰富多彩。

这些患者展现出的能力令人惊叹：他们可以解决数学问题，执行复杂的规划任务，遵循非语言的指令，甚至参与多种形式的推理，包括形式逻辑推理、因果推理和科学推理。比如著名物理学家斯蒂芬·霍金就是一个例证，尽管他在晚年失去了说话能力，但仍然能够进行复杂的科学思考。

更令人惊讶的是，这种现象不仅出现在有明显物理损伤的患者身上，一些没有明显外伤的失语症患者也表现出类似的情况。尽管他们无法通过语言表达自己的想法，也无法理解他人的语言，但他们的思维能力仍然保持完好。这就像是他们的大脑中有一个"沉默的思想家"，虽然无法说话，但仍在不断思考。

这个发现挑战了我们对失语症患者的传统认知。普罗大众往往认为失语症患者可能同时存在智力障碍，但研究结果并没有发现失去语言能力和认知能力低下之间存在强关联。这提醒我们，不应该仅仅基于一个人的语言能力来判断他的智力水平。

另一个引人深思的例子是聋哑儿童。这些孩子由于听不见说话，而且他们的父母或看护人可能也不懂手语，因此他们在成长过程中很少或根本没有接触过语言。按照传统观点，我们可能会预期这种语言剥夺会对认知发展产生严重的负面影响。

然而，研究结果再次令人惊讶。尽管缺乏语言接触确实会对认知的某些方面产生影响（毕竟语言是获取知识的重要途径），但这些个体仍然表现出了复杂的认知功能能力。他们可以学习数学，进行关系推理，建立因果链，并获得丰富而复杂的世界知识。

所以，在经历了一系列研究和实验后，作者得出了这样一个结论：

“综合考虑这些证据，我们认为语言主要具有交际功能，它反映而不是产生人类认知的独特复杂性。语言可能不是提供思考和推理的关键基础，而是通过实现跨代传递获得的知识，从而改变了我们的物种。毫无争议的是，语言是知识传递的极其有用的工具。这种传递的累积效应——知识建立在知识之上——加上我们社交和问题解决能力的提高，很可能使我们能够创造人类文明。尽管我们的综述表明，所有被测试的思维形式显然都可以在没有语言的情况下进行，但如果没有语言的外部使用所实现的累积文化，我们物种的成功是不太可能的。”

五、最后

总的来说，这篇MIT的研究确实为我们提供了一个全新的视角来看待语言和思维的关系。反观现在的大语言模型，尽管像GPT-3.5这样的模型在某些任务上表现出了令人印象深刻的能力，但它们在真正的推理能力上仍然存在局限性。所以未来的发展重心或许是某种“跨模态模型”，而它可能是我们通往AGI的真正钥匙🔑。

在时光的长河中，人类对自我认知的探索如同一场永不停歇的远征。从行为主义心理学对思维与语言关系的初探，到如今人工智能的惊世骇俗，我们见证了一幕幕智慧的盛宴，聆听了一曲曲求知的赞歌。

所以，在这个充满未知与可能的世界里，让我们继续保持好奇，勇于质疑，乐于探索，善于修正。

以上。