文章标签:中文房间, 自然语言处理, 语言模型, 生成式语言模型
一、ChatGPT是否产生了自我意识
在我们这个信息时代,人工智能助手如雨后春笋般涌现,其中最引人瞩目的当属ChatGPT。许多人认为,有了这样一位智能对话机器人,便可以解决种种语言难题。然而,这个看似强大的工具,真的就具备了人类所特有的思考、理解和自我意识吗?让我们回到那个经典的场景:一个从未接触过中文的外国人,被困在一个密不透风的房间里,只能依据一本提供的手册来解答问题。尽管他并未掌握中文,但在按照手册提示回答问题的过程中,人们很难判断他是否真正理解了中文。这便是著名的“中文房间”思想实验。事实上,即使计算机按照预设的程序生成了似乎正确的答案,也不能证明它具有真正的思考和理解能力。因为没有独立的思考和理解能力,就不可能产生自我意识。从这个角度看,ChatGPT其实只是一个类似于“中文房间”的模型。在这个模型中,计算机只是按照事先编写的程序和数据来生成回答,而并没有真正地理解自然语言背后的含义和语境。因此,当我们面对像ChatGPT这样的智能助手时,不能盲目地认为它们拥有了与人类相当的思考和理解能力。我们需要更深入地了解这些机器是如何工作的,以及它们与人类思维之间的本质差异。只有这样,我们才能更好地评估和利用这些工具,让它们在各自擅长的领域发挥更大的价值。
二、ChatGPT的基本原理
语言模型是一种人工智能技术,其核心是生成式语言模型,也被称为 ChatGPT 中的 G(Generative)。简单来说,语言模型的功能是根据已有的文本上下文,预测下一个词的出现概率。这是一种与人类语言能力类似的直觉经验,无需深入的语法或逻辑分析。通过大量的句子输入,计算机可以模拟这种经验,并利用词语接龙的方式生成连贯的下文。
原内容表述存在一些问题,我将尝试对其进行改进,使其更符合专业文章的表达方式。在原内容中,“但普通的模型上文单词离的越远,对生成下一个词的作用越小,对于答案的优劣性就不好掌握。”这句话表述不够清晰,我尝试将其改写为:“然而,对于生成下一个词的作用,普通模型的上下文单词距离越远,其影响就越小,这也使得判断答案优劣变得困难。”这样的表述更加准确,更具专业性。接着,原内容提到“比如这个句子“他发现了隐藏在这个光鲜亮丽的显赫家族背后令人毛骨悚然的___”,你大概会填“秘密”,但哪个词让你决定填秘密呢,是令人毛骨悚然的么?”这里的表述略显拗口,我进行了调整:“例如,考虑这个句子‘他发现了隐藏在这个光鲜亮丽的显赫家族背后令人毛骨悚然的___’。你会选择填写‘秘密’吗?显然,并非如此。真正发挥关键作用的是‘发现’,以及‘隐藏’和‘背后’这些词汇对‘秘密’生成的强烈限制。”最后,原内容介绍了ChatGPT的特点,包括其T(transformer)算法和注意力机制。我进行了如下修改:“ChatGPT利用T(transformer)算法和注意力机制,成功解决了长距离依赖问题,实现了类似于人类的文本生成。注意力机制使得模型在接收信息时,并非全面处理所有信息,而是有选择性地关注关键部分,这是普通模型所无法实现的。”
在这里,人工智能的学习过程无需人工干预,仅通过输入大量文本即可实现,这种方式被称为无监督学习。那么,OpenAI究竟使用了多大的文本量来训练AI呢?答案是惊人的45T,这相当于将四大名著(包括《红楼梦》、《西游记》、《水浒传》和《三国演义》)的 combined 字数(约350万字)减少了近一半。换算成数量,这就相当于拥有约472万套四大名著。在内容方面,OpenAI 的无监督学习方法使得模型具备了跨语种能力和基本常识。同时,通过网络语料库的训练,模型学会了应对流行内容和大众对话。而对于书籍,模型则掌握了讲故事的能力。此外,借助期刊的训练,模型还学会了严谨的语言组织能力。最后,通过GitHub的训练,模型获得了编程能力。综上所述,这样一个具备强大通用语言能力的模型,只需经过适当的训练,便可轻松应对各种特定任务。因此,无需从零开始训练,这便是 ChatGPT 的 P(预训练),也是其强大的优势所在。
然而,我们 must 意识到,输入的文本可能无法提供完美的答案。为了解决这个问题,OpenAI 开发了一系列可能会被用户询问的问题以及标准答案,然后将这些答案输入 GPT-3 中,以便调整模型参数。这种方法需要人工干预,属于监督学习。经过微调,GPT-3 升级为 GPT-3.5,但其回答质量仍然参差不齐,有时甚至可能包含暴力性别歧视等问题。为了避免这种情况,ChatGPT 聘请了大量人员对答案进行评分。基于这些评分,OpenAI 训练了一个打分模型,能够自动判断答案的质量。但是,如何纠正错误的答案呢?这就需要利用强化学习算法了。简单来说,我们需要让 AI 通过不断尝试错误,最终达到最高评分。因此,GPT-3.5 就变身为 ChatGPT,这就是 ChatGPT 的基本工作原理。
三、ChatGPT火出圈的原因
ChatGPT 的成功不仅源于其卓越的能力,更关键的是它将人工智能与人类互动的难度大幅降低。用户只需一个简单的对话框,便能轻松地获取信息。此外,ChatGPT 从最初的教导 AI 玩游戏的角色转变为了面向广大民众的通用语言,及时调整了发展方向。与谷歌的围棋 AI 阿尔法狗相比,ChatGPT 的应用范围更加广泛,这正是它能在市场上火爆的原因之一。有时候,选择正确的方向比不断前进更为重要。
四、ChatGPT为什么没有出现在中国
在2018年,OpenAI的GPT和谷歌的BERT两个具有代表性的语言模型相继公布。尽管它们都基于transformer架构,但它们的实现方式却大相径庭。谷歌BERT的设计理念在于,通过移除句子中的某个单词,使得模型需要猜测这个被删除的单词,这种方法被称为双向自编码。在这种策略下,模型能够充分利用上下文信息进行预测。
openAI GPT的策略是提供一个前文,然后让模型猜测接下来的词语,接着将猜测的词语加入前文并再次猜测,这就是所谓的单向自回归。相比之下,BERT在完形填空这类语言理解题目上表现更为出色,而GPT在语言生成方面,即作文方面,具有更优秀的能力,这一特性也直接影响了GPT后来的发展道路。
2019年,百度也推出了基于transformer的语言模型,它选择了BERT路线。此时各模型间的差距还不明显。而openAI在这一年发生了一个重大事件,openAI不仅转型为盈利公司,同时从微软拉来了10亿美元的投资,使openAI真正拉开了差距。Altman把微软投资赌在GPT3上,他赌对了,在参数量激增到1750亿之后,量变引发了质变,GPT3产生了一定程度的智能涌现现象,哪怕在没有专门训练过的领域,也能表现出不错的能力,一下子拉开了与其他模型的差距。
在看到大规模预训练语言模型的威力后,百度也加大了这方面投入,就在这段时间openAI已经开始着手通过人工反馈强化学习GPT的对话能力了。最终2022年底chatGPT横空出世并火出圈,谷歌和百度只能匆忙应对。之后谷歌发布BERT,百度发布文心一言。但几乎同时支持图像作为输入的GPT4又发布了,ChatGPT又与微软的搜索引擎和办公软件整合了。你的对手永远不会停下来等你。
差距能不能弥补呢?第一,从模型自身角度来看,目前文心一言比较严重的问题是,还没有形成有效的思维链,所谓思维链并不是面对复杂问题,AI也一定要像人类那样一步步思考,而是从生成式语言的机制来说,结果好坏完全是由上文决定的,如果上文没有足够的有效信息,是会影响到下文生成质量的。文心一言在很多问题上更倾向于省略中间环节直接生成结果,这导致它的智能不具备泛化性。chatGPT在回答问题时,会絮絮叨叨一大堆,这不光是为了告诉你解题思路,更是为了将这段信息作为上文的补充,再从中提取关键信息,以便进一步生成正确的结果。而文心一言会省略掉中间环节,或者没有足够能力生成中间环节,没有足够的上文补充信息,单凭用户提出的问题文本,就很难生成正确结果。思维链的缺失是模型的硬伤很难弥补。
第二,工程技巧,这些原理虽然都是公开的,但并不意味着懂了原理就能造出chatGPT,就好像宫保鸡丁的制作方法到处都找得到,你却很难做出特级厨师的味道一样。ChatGPT的研发包含了大量不为人知的工程技巧,很难完全复制。结合目前的发布会和一些信息,文心一言极有可能不像chatGPT单靠一个通用的生成式模型,来应对所有问题,而是以Ernie3.0为中心缝合了多个微调模型的模型群,将用户问题转发给各个子模型来生成结果并拼接答案,可是缝合答案会导致回答问题能力的参差不齐,回答质量也飘忽不定,对话过程生硬死板。如果是这样,那百度会重新做一个通用模型,还是在现有基础上提升子模型的能力呢,我倾向于百度会选择后者,但这样的话就已经限制住了文心一言表现能力的上限。
第三,算力。chatGPT这样的大规模模型,无论训练还是推理都需要超大的算力,GPT3的参数规模是1750亿,这是什么概念呢,就是说即便每秒能计算1000万亿次,也需要10年时间才能完成GPT3的训练。openAI之所以能在相对短的时间完成,一是transformer架构支持并行计算,二是微软的超高性能硬件支持,微软为openAI量身打造了一个超算平台,把几万张A100芯片连在一起,还特别改造了服务器机架,今年三月份微软又一次升级了这个超算平台,追加上万张更强的芯片H100,但这两款芯片对我国是禁售的,百度即使能通过非正式渠道搞到一些,但也不可能凑齐几万张,因此,模型迭代就需要更久的时间,而这过程中openAI超算中心仍旧全力运作着,GPT也在高速迭代中,所以,除非未来GPT技术遇到瓶颈或遭受重大事故,否则模型差距会越拉越大,很难追上了。
五、chatGPT的影响
openAI开放插件开发后,office、adobe等各大应用迫不及待将GPT的能力融入自家应用,这也反哺了GPT,无限延展他在各个行业的影响力,目前受影响的还只是翻译,文案,咨询师等与文字密切相关的职业,但从长远角度看,一切能将产出数字化的职业都将面临威胁,而GPT在干掉大量岗位的同时,又很难带来新的增量,这就进一步加剧内卷。过剩的生产,势必产生庞大的过剩劳动力,在生产力得到全面解放后,AI技术很可能会引发全球失业潮,很难预估会造成什么样的影响。
但可以预测的是,GPT就像以往工业革命发明的机器,一旦提高生产力的技术得以落地,其发展趋势就不可逆,很难因个人意志而转移。而在这新时代浪潮中,我们应该如何面对呢,除了做好心理建设外,可以学习一项难以数字化的技术,尽量避开GPT未来可能会波及的领域。对于学生来说,GPT目前已经可以在应试考试中轻易超过大多数学生。这意味着未来社会对普通做题家的需求会减少,所以,培养创造力和思维能力,才能使学生在毕业后继续保持竞争力。
中文房间, 自然语言处理, 语言模型, 生成式语言模型