乔姆斯基:语言学巨匠,人工智能挑战者

文章标签:自然语言处理, 乔姆斯基, 语言学, 计算机科学

原标题:尼克|乔姆斯基 vs ChatGPT

乔姆斯基是一位在语言学、计算机科学、认知科学和哲学领域有着深远影响的学者,同时也是当今最具影响力的知识分子之一。有人甚至将他视为历史上引用次数最多的十位思想家之一,虽然这种说法并不完全准确,但他的影响力和声望无疑是非常高的。通过Google Ngram的分析,我们可以看到乔姆斯基的名声与维特根斯坦相当,超过了波普尔、托尔斯泰、图灵和哥德尔等人的声望,但与罗素相比,他还稍显不足。而与爱因斯坦、牛顿和希腊三贤等伟大科学家相比,乔姆斯基的影響力虽有所逊色,但也同样不容忽视。

在2022年的岁末,ChatGPT以惊人的速度问世,引发了全球范围内的关注。紧接着在2023年的3月8日,著名学者乔姆斯基,《纽约时报》的特约作者,以其特有的洞察力,针对ChatGPT进行了深入的剖析。他标题的文章名为“The False Promise of ChatGPT”,言辞直接,观点鲜明。在这篇文章中,乔姆斯基以他特有的学识,用一个几乎在他的所有著作中都出现的例子来揭示ChatGPT的问题所在。他说,机器可能会将这个句子理解为“John太固执不愿意和人谈话”,而忽视了其真正的含义——“John不可理喻”。然而,网络上的网友们却把这个问题抛给了ChatGPT,而ChatGPT却能准确地理解这个句子的深层含义,让乔姆斯基感到尴尬。乔姆斯基对计算机科学和认知科学等新兴学科有深入的理解,但对于大语言模型,他却显得有些疏远。斯坦福大学的计算语言学家克里斯·曼宁(Chris Manning)在社交媒体上留言:“看到一位年轻时深刻的创新者,现在却保守地阻碍激动人心的新方法,真是令人悲伤。”这或许也是曾经被乔姆斯基吸引的两代人对于他的失望:乔老爷已经老了。然而,我们也不能期待年过九旬的乔姆斯基能够亲自微调大语言模型,这种期待显然是不公平的。

乔姆斯基其人

乔姆斯基出生于一个充满政治热情的家庭,他的父母与大部分犹太人一样,是复国主义者和坚定的社会主义者。在这样一个左派犹太家庭中,乔姆斯基在12岁时就开始接触政治,并深受其老师哈里斯的影响,他对布尔什维克主义持怀疑态度,同时也反对犹太复国主义。乔姆斯基结婚后曾考虑过移民到以色列,然而有趣的是,由于他的反犹立场,他遭到了以色列的拒绝签证。在20世纪60年代,他因参与反越战活动,被美国政府关押。与他一同在监狱里的朋友诺曼·梅勒形容他为“书呆子”,即使在监狱里,他还担忧着如何给学生们上课。在1970年,乔姆斯基冒着生命危险前往越南和老挝进行访问。为了保护他的安全,麻省理工学院甚至雇佣了两个专职保镖,这使得他们比邻近的哈佛大学更具理想和勇气。乔姆斯基最新的政论书籍《美国梦安魂曲》充分展现了他的博学,我们有信心他能成为一名出色的美国宪法律师。他的政治立场虽然有所变化,但始终坚持着一个基本原则:始终站在弱势群体的一边。他借用“墙和鸡蛋”的比喻,明确表示自己始终是那个鸡蛋,也就是反对美国和犹太人。在评论拉美政治问题时,乔姆斯基竟然坚定地支持了信仰天主教的神父们。而当基辛格影响力最大的时候,乔姆斯基曾是他的激烈批评者。如今,大多数美国的年轻人都甚至不知道基辛格的 existence。基辛格的影响力就像西洋参,所有在美国的华人回国探亲之前,都会在中国商店购买一些回国送给亲朋好友的礼物,但实际上,西洋参并不产自欧洲。

乔姆斯基1970年摄于麻省理工

“柏拉图之问”与”奥威尔之问”,这两句话成为了乔姆斯基人生的两大指引。其中,”柏拉图之问”即我们常说的”刺激贫乏论”,它探讨的是在资源匮乏的环境下,人类如何能够获得并掌握如此丰富的知识。”奥威尔之问”则是与之相反的命题,它质疑的是在资源丰富的情况下,人类的知识为什么反而如此有限。奥威尔的表述更具个人色彩,他用第一人称叙事的方式表达了生命的困境:”每个生命从内部看都是一串失败。”这种观点充满了悲观色彩,但也反映了他对于人类认知能力的深刻思考。相比之下,乔姆斯基在学术研究时更倾向于柏拉图的思想,而在参与政治活动时则倾向于奥威尔的观点。乔姆斯基的办公室里曾挂着一张巨大的罗素照片,这表现出他对于逻辑学和哲学的重视,以及他对于罗素思想的认同。然而,他并不是一个纯粹的左派,他是一个无政府主义者,他认为平等和自由是同等重要的。在他的理念中,奥威尔可能会排在罗素之前。总的来说,乔姆斯基的人生信念受到了”柏拉图之问”和”奥威尔之问”的影响,他既尊重柏拉图的思想,也深入研究奥威尔的观点,并在自己的思想和实践中寻求平衡。

乔姆斯基,尽管他自称是一位理性主义者,但在他的内心深处,却对现代欧洲哲学持有轻蔑的态度。他的与法国学者福柯的对话,在欧陆学界引起了广泛的关注,然而,乔姆斯基本人却认为这次对话并非一场严肃的交流,而仅仅是为了观察,看是否能够通过不依赖翻译的方式理解对方的母语。他公开指责法国的文科知识分子,如德里达、拉康和福柯等人,称他们为“骗子”、“文盲”甚至“邪教”。他对这种反智的极端情绪表现出强烈的反感。

在过去的二十年里,乔姆斯基的著作和访谈中,重复的主题和观点并未发生显著变化,这使得他的思想的核心内容保持了一致性。他的每一次讲话和采访都被整理成了书籍,这些书籍以其严谨清晰的文风和通俗易懂的语言而受到广泛欢迎,只需将演讲和采访的录音转化为文字即可,无需做太多修改。加拿大语言哲学家詹姆斯·麦吉尔弗雷(James McGilvray)编写的《语言科学》一书,是对乔姆斯基思想最直观、最易于理解的介绍。在这本书中,乔姆斯基提出了一个观点,即自笛卡尔和休谟以来,哲学家普遍落后于时代,唯有康德、弗里格、罗素和皮尔士等少数哲学家能够跟上时代的步伐。《语言与心智》这本书是根据乔姆斯基1967年在加州大学伯克利分校的三次贝克曼讲座的内容编写的,到2006年第三版时,增加了关于生物语言学的内容,全书篇幅也增加近一倍。而更新版的《我们是谁》(What Kind of Creatures Are We)则是一本非常易读的书,最后一章展现了乔姆斯基对科学史广泛涉猎的能力。如果将这几本书视作乔姆斯基个人的作品,那么,英国语言学家莱昂斯(John Lyons)的《乔姆斯基》一书 Certainly值得推荐。该书附有术语表,详细解释了乔姆斯基特定的术语。而英国语言学家尼尔·史密斯(Neil Smith)的《乔姆斯基学述》则更为全面,除了语言学,还对乔姆斯基的政治观点进行了公正的评价,书名为《Ideas and Ideals》,其中Ideas指学问,Ideals指政治。

在1953年,乔姆斯基与其新婚妻子卡罗尔一同欧洲度假,然而在从蒙特利尔至鹿特丹的跨洋旅程中,乔姆斯基遭遇严重的晕船症状,只能躺平,借此机会重新审视他老师哈里斯的结构语言学。在这个过程中,乔姆斯基提出了广义文法(Universal Grammar,UG)。他随后从与他同年出生的数学家、逻辑学家马丁·戴维斯处了解到戴维斯老师的逻辑学及波斯特(Post)的工作。在《语言描述的三个模型》(Three Models for the Description of Language,1956)一文中,乔姆斯基正式引用了数学家罗森布鲁姆(Paul C. Rosenbloom)的《数理逻辑要素》(The Elements of Mathematical Logic),并深入探讨了产生式系统。这篇文章不仅对语言学和计算机科学产生了深远影响,而且形成了乔姆斯基的分层理论,包括乔姆斯基-0型文法(递归可枚举语言)等价于图灵机,1型文法(上下文相关语言)等价于线性有界非确定图灵机,2型文法(上下文无关语言)等价于非确定下压自动机,3型文法则是编程语言中常用的正则表达式,等价于有限自动机。乔姆斯基认为,短语结构文法并不能充分描述自然语言的特点。为了弥补这一不足,他提出了五层分法,即在0型和1型之间加入递归语言,其区别在于对应的图灵机是否具有可停机性。然而,对于更详细的数学和计算理论知识,我们需要深入探讨。值得一提的是,语言学家冯志伟先生的《现代语言学流派》一书可以作为进一步学习的入门参考。

乔姆斯基的《语言学理论的逻辑结构》是其最著名的作品之一,该书的博士论文源自他对这一领域的深入研究。他将自己的手稿提交给麻省理工学院出版社,希望能将其转化为专著,然而,初出茅庐的乔姆斯基并未得到学术界的认可,相反,审稿的语言学家们建议他首先将这一主题转化为论文,并向学术刊物投稿,待其在学术界获得认可后再考虑出书。然而,乔姆斯基的首篇相关论文也被拒稿了,审稿者甚至没有阅读全文,就直接将其退还了。尽管如此,乔姆斯基在 IRE(电气电子工程师学会)的前身之一的信息论会议上,还是宣读了他的“三个模型”论文,并最终在 IRE 的《信息论学报》上发表。在这次会议上,乔姆斯基遇到了参会的一位数学家——所罗门诺夫,他在会议上也发表了一篇文章,从而开创了算法信息论的新领域。所罗门诺夫的文章中经常引用了乔姆斯基的生成文法,如果他能像乔姆斯基一样长寿,那么他或许会感到欣慰的是,正是算法信息论为 ChatGPT 奠定了理论基础。这个故事本身就很值得一篇长文的描述,暂时按下不表。

《语言学理论的逻辑结构》

乔姆斯基的伯乐是比他年长几岁的同校青年教授,一位是认知心理学的创立者之一乔治·米勒(George Miller)和犹太裔语言学家莫里斯·哈利(Morris Halle)。米勒是最早看过《语言学理论的逻辑结构》的人。哈利看了乔姆斯基给本科生上课的讲稿,推荐给Mouton出版社作为现代语言学丛书的一个小册子先出版了,这就是《句法结构》。这本科普书好评如潮,奠定了乔姆斯基在语言学界的地位,而更学术的《语言学理论的逻辑结构》则要到二十年后才正式出版。他的语言学经历了几个阶段的变化:1950年代转换生成文法,1960年代标准理论,1970年代管辖与约束(government和binding),1980年代最简方案。平克曾经用“文革”语言戏称乔老爷语言学思想的变化为“继续革命”,但他的核心思想——“思维是由语言生成的”(这里简称“思维即语言”或“语言即思维”),从来没有变过。

思维即语言?

乔姆斯基的理论在语言学界被认为是开天辟地的,所谓“乔姆斯基革命”。但从计算机科学和逻辑学的角度看,它是自然的。乔姆斯基承认广义文法(UG)受到波斯特的启发。可惜波斯特既没有被逻辑学家(如哥德尔)欣赏,也没有被数学家包容。相较于计算机科学,语言学是迟钝的:计算机科学几乎与相应的数理逻辑同步,当哥德尔和海伯伦 1934年定义了广义递归函数,图灵1936年就发明了图灵机;而波斯特的工作要到1956年才被乔姆斯基引入语言学。乔姆斯基之前,语言学是文科,乔老爷力图把语言学变成自然科学。乔姆斯基称第一次认知革命发生在十七世纪,主角是笛卡尔;而第二次认知革命发生在1950年代的麻省理工。乔姆斯基甚至把“思维即语言”回溯到基督教杨森派主要人物阿尔诺(Arnauld)写的《王港语法》,阿尔诺和同时代的笛卡尔和帕斯卡相熟,并深受他们影响。也有语言学史家认为乔姆斯基误读了《王港语法》。

与英美经验主义传统不同,乔姆斯基自称是理性主义者,他的语言学理论也被他冠以笛卡尔语言学的帽子。在语言是区分智人和其他物种的决定性因素上,认知科学家和进化心理学家都同意乔姆斯基。但在语言的来源上,乔姆斯基和大家有明显分歧。波普尔和平克等认为语言是进化的产物,所谓渐进派;而乔姆斯基则认为语言是突现的,他自称“跳跃”(saltation)派。

乔姆斯基不断地引用洪堡的说法“语言是有限手段的无限运用”。他提出的一个极为简单的机制:“合并”(merge),其实是一种原始的递归机制,考虑到通用递归函数等价于图灵机,我们不惊奇“合并”机制可以解释所有的语法现象。对乔姆斯基来说,只要能找到“合并”的生物学解释,他的计划就可以变成科学理论了——他目前都以更加谦逊的“计划”(program)而不是“理论”来指称自己的研究。如果“合并”的生物学解释成立,那么这不过是丘奇-图灵论题的一个生物学支持证据而已。如果承认语言等于思维,实际上承认了图灵机可以思维。

语言学家说“思维即语言”,有点像物理学家(例如网红迈克斯·泰格马克)说“数学等于物理”。常人看,思维肯定大于语言,而数学也大于物理。图灵测试是语言能力的测试,无关其他模态。十几年前深度学习能火起来,是因为神经网络解决了语音和视觉问题,但那时人们只是兴奋。GPT却令人惊喜甚至震撼。无论是语音还是视觉,我们都认为这是增强人的能力。但直到2022年ChatGPT在语言能力的突破才使人意识到人性可能被冒犯。语言要比听觉和视觉更接近人性。

乔姆斯基认为语言的交流功能是思想功能的外化,思想在先,交流在后。他还认为人类可能在十万到五万年前因为基因突变,导致了递归枚举能力。这种突变可能在人类更早的历史上发生过多次,只不过这次有了显著的群体效果。感觉-运动系统(sensory-motor)是语言外化的结果。乔姆斯基的妻子卡罗尔是麻省理工学院的生物语言学家,她研究过两岁前得过脑膜炎的儿童,他们丧失了视觉和听觉,但还保留有触觉。他们能通过触觉补偿语言能力,从而能思维。这证明了语言是比其他感知模态更加基础的官能。

GPT的G就是乔姆斯基生成文法中所谓“生成”。乔姆斯基最出名的例句大概是:Colorless green ideas sleep furiously. 这个生成的句子被传统经验主义者批判为“虚无”,但很多诗人赞赏这个句子,称其富有禅意。按照当下流行的GPT术语,就是“幻觉”(hallucination),或者创造力。

乔姆斯基虽不愿承认还原论,但他的方法论本质上还是还原论的:他企图找到语言的生物学基础。他称赞图灵把生物学问题还原到物理学问题——图灵1952年做过形态学(Chemical Basis of Morphogenesis)。牛顿也很困惑万有引力不能归约到机械力学,即任何运动必须有某种物理的推动。乔姆斯基不认可经验主义和行为主义,他有时也称之为马赫主义。他认为深度学习就是当代的行为主义。洛克说心灵是白板,莱布尼茨说心灵不是白板,而是有纹理的大理石板。虽然图灵测试被看作是行为主义的,但一个基本假设是数据是喂给图灵机的,而图灵机不是白板。经验主义者也不得不承认思维源于某种有组织的物质(organized matter)。如果承认丘奇-图灵论题,那么所谓“有组织的物质”和理性主义者所谓“纹理”都可被看作是图灵机或者与之等价的“语言官能”。经验主义者会把学习看作记忆,而承认丘奇-图灵论题的人会把学习看作压缩。通用人工智能(AGI)不过是不熟悉计算理论的人提出的口号,如果我们认可语言即思维,那么,AGI的标准就是语言,无关乎其他模态,这就又回到图灵测试。

思维不等于语言?

塔南鲍姆(Joshua Tenenbaum)是麻省理工学院大脑与认知科学系的学术新星。他父亲曾是1980年代硅谷人工智能重镇Schlumberger实验室的掌门人,后来连环创业,我和老塔同事时,小塔还没上高中,现在居然成了大佬。ChatGPT出来后,小塔跟风,企图标新立异这样一种观点:大语言模型解决了语言问题,但还是不能思维。他和几位同道学生在arXiv上挂了篇文章Dissociating Language and Thought in Large Language Models: A Cognitive Perspective,标题一目了然:分离语言与思维。他们把语言能力分为形式能力(formal competence)和功能能力(functional competence),结论大致是大语言模型解决了形式能力,而没有解决功能能力,所以思维不等于语言。小塔所谓“功能能力”就是用言语同世界打交道,换算成大模型的术语就是“多模态”。其实,他们对语言能力的划分,都是乔姆斯基玩剩下的,乔老爷早就有内部语言(I-语言)与外部语言(E-语言)之分,内部语言是天生的能力(competence),外部语言用于行为(performance),这本就是两件不同的事情。小塔的“功能能力”对应于乔老爷的外部语言。内部语言受制于生物、数学和物理的约束。乔姆斯基应该认可丘奇-图灵论题的某个版本。任何相信丘奇-图灵论题的人不会是纯粹的理性主义者,也不会是纯粹的经验主义者。乔姆斯基-0型文法等价于图灵机,所谓“语言官能”(language faculty)等价于某种自动机。这间接地支持思维即语言的论断。

塔南鲍姆

内部语言关乎“真”,尺度是内在一致性;而外部语言关乎“意义”,尺度是外在对应性。意义得自交流,维特根斯坦所谓“意义即使用”,或者约翰·奥斯汀所谓“以言行事”(do things with words),“言语行为”都是指外部语言。外部语言对应于工程师们感兴趣的 embodied intelligence(中文别扭地翻译为“具身智能”)或“多模态”(视觉、听觉、触觉等)。意义是功能层在与外界交互时进行强化学习的过程。乔老爷认为外部语言是交流而不是思维。小塔并没有提出什么新东西。即使马斯克这样聪明的工程师也认为自动驾驶之类的具身智能是狭隘的(narrow form),要远比人们想象的简单,这很明显要比喜欢讨好大众的小塔更加有洞见。

承认思维即语言,对工程实践也会有影响。设计多模态大模型时,承认派会把语言模型作为基座,其他模态坐在基座之上,不同模态之间的沟通也通过基座进行。但否认派可能企图直接在任意模态之间建立映射,这明显不经济。

设想在火星上做自动驾驶,如果所有的停车标志(STOP)都是绿色的,难道我们需要拿所有的数据重新训练一遍火星自动驾驶大模型吗?如果驾驶员是人,一条简单的指令:“注意!停车标志是绿色的”,就足以让人适应新的驾驶场景。难道在大语言模型上不可以用一条简单的提示或者“咒语”(prompt):“把所有停车标志的颜色替换成绿色”吗?事实上,1970年代普渡大学的傅京孙就曾经用语言学的手段研究视觉,当时不被广泛认可。可惜他英年早逝。如果在“思维即语言”的立场重新审视视觉,傅京孙可算得高瞻远瞩。

大语言模型的可解释性

2000年,麻省理工学院的人文社科学院成立五十年的庆祝大会上,乔姆斯基、普特南和平克三人参加一个论坛,题为“关于人性,我们知道什么?”(What Do We Know About Human Nature?)这场论坛被组织者称为“三大男高音”齐聚。从休谟起,人性的核心是思维。平克把认知革命归功于乔姆斯基。乔老爷和普特南曾经在宾夕法尼亚大学同学,立场偶有不同,但彼此尊重。 2011年5月,麻省理工学院为配合一百五十周年校庆,召开名为“大脑、心、机器”的研讨会(Brain, Mind and Machine Symposium),本校的几位大佬乔姆斯基、明斯基、温斯顿等悉数出席,并由平克主持。乔姆斯基批评当时重新开始流行的神经网络是黑盒子:没有提供解释和知识。麻省理工学院主办的《技术评论》杂志为这个研讨会发了专文,标题故意挑事儿:“不会思维的机器”(Unthinking Machines)。时任谷歌研发总监的诺维格(Peter Norvig)很快回应乔姆斯基,他批评语言学的规则在自然语言处理上,根本就没用。现在看,诺维格的工程实践还真给了他一些先知先觉。有人用“两种文化”来总结乔姆斯基和诺维格的隔空掐架。

乔姆斯基

语言问题曾被理所应当地认为是逻辑的,现在却被用神经网络得到满意地解决,这本身就是令人惊奇的。工程师们甚至认为语言的中间任务(词分析、句法分析、语义分析)已经不需要认真对待了,因为ChatGPT代表的大模型对语言学问题给出了端到端的解决办法。语言学家就是研究各种中间步骤的,中间步骤就是解释。其实在1990年代统计方法被引入之后,自然语言处理(NLP)就越来越不需要语言学了,曾有玩笑:NLP团队每开除一个语言学家,系统的性能就提升一个台阶。估计令乔姆斯基沮丧的是:大语言模型把自己的工作彻底搞丢了。诺维格的合作者、伯克利教授斯图亚特·罗素(Stuart Russell)的态度则一直温和得多。他怀疑ChatGPT的良好表现是不是碰巧碰上的。他说:“如今的自然语言处理不再研究语言,我认为这是非常不幸的。”这和乔姆斯基的态度差不多,斯图亚特·罗素仍然把希望寄托于知识和推理。他们都认为ChatGPT是工程而不是关乎语言的科学。人类专属的技能不多了,难道我们要等到机器证明了黎曼猜想才能被彻底折服吗?

乔姆斯基与笛卡尔的不同之处在于,乔姆斯基并不是试图在心身之间划一条明确界限的二元论者。这么说,和晚年蒯因的“整体主义”也没啥太大区别,都接近皮尔士的实用主义。相同的是,他们都认为语言是人的独有能力,但乔姆斯基用语言作为人和动物的划界,而笛卡尔用语言作为人和机器的划界。笛卡尔认为人类语言是任何自动机也不能实现的,他大概不会认可丘奇-图灵论题。

乔姆斯基曾说他自己的方法是“伽利略式”的,也就是从小数据里找寻基本定律,而不是用大数据构建黑盒子。但如果人人都有低成本的黑盒子,谁还要麻烦基本定律呢?虽然乔姆斯基在技术上对ChatGPT可能有所误判,但他“思维即语言”的立场却是大语言模型引发的这场革命的哲学基础之一。返回搜狐,查看更多

责任编辑:

自然语言处理, 乔姆斯基, 语言学, 计算机科学

Leave a Reply