多跳自注意力机制在机器翻译中的应用:从编

1Connect the dots2

2014年,Yoshua Bengio和他在蒙特利尔大学的同事们正在研究如何把编码器-解码器用在机器翻译领域。当时,他们的论文《编码器-解码器模型在机器翻译中的应用》还卡壳了。论文的一作,Yoshua Bengio的博士后KyungHyun Cho发现,他的模型在长句翻译上依然有很多问题。这些问题不解决,模型总显得不够强大。

蒙特利尔大学正在和IBM公司谈合作,后者负责对接的科学家从纽约来到蒙特利尔时,Yoshua和KyungHyun向他展示了这个研究的进展中的研究,而后者很快指出了这个模型的一个缺失:2。

1它缺少一个对齐(alignment)的机制,也就是判断目标输出语言里的哪些词与输入语言是对齐的。2

2015年,Ilya Sutskever和团队合作发表了一篇论文,提出了Seq2Seq模型的基本思想。该模型通过对序列进行对齐,从而提高长句翻译的效果。这一方法被广泛应用于自然语言处理领域,推动了人工智能的发展。Seq2Seq模型还引入了注意力机制,成为影响人工智能走向底层统一的源头之一。

1这名给Bengio提出建议的科学家是周伯文。2

1994年,周伯文在IBM T. J. Watson研究中心领导自然语言理解与语音翻译团队,致力于将自然语言处理应用于计算机视觉和语音识别领域。在Geoffrey Hinton证明神经网络的可行性后,周伯文和他的团队成为最早一批扑向神经网络与自然语言表征相关研究的科学家之一。2012年,周伯文和他的团队在自然语言理解领域取得了里程碑性的成果,他们提出了一种新的模型,称为“Transformer”(Transformer),该模型可以自动地从大量的文本数据中提取复杂的上下文信息,从而实现自然语言理解和机器翻译等任务。这一发现引起了全球学术界和工业界的广泛关注,并推动了自然语言处理技术的快速发展。这一发现也为自然语言处理领域带来了新的研究方向和挑战。周伯文和他的团队的研究成果为自然语言处理技术的应用提供了更加高效和准确的解决方案,并促进了人工智能技术的发展。

Yoshua Bengio和周伯文在蒙特利尔和纽约同时忙着写论文,而他们的研究方向却不同,周伯文选择了基于seq2seq模型和注意力机制架构的研究,而Yoshua Bengio则将他的研究方向指向了生成式写作领域。他们相信,实现通用人工智能的必经之路就是生成式人工智能。 Bengio认为,通过研究seq2seq模型和注意力机制,可以更好地理解自然语言处理的本质,并在此基础上构建更加智能的计算机程序。他的研究为生成式人工智能的发展奠定了基础,这一领域的未来将会更加光明。

1“凡是我不能创造的,我都没有真正理解”。 周伯文在当年的一场学术会议上引用了著名科学家费曼的话,他认为,人工智能也必须会创造。2

周伯文团队发表的生成式摘要论文引起了不少注意,但他们认为该方法在模拟人类行为和泛化方面仍有不足。当时的注意力机制也存在缺陷,它们都是根据输出来判断输入中需要更加注意的地方。因此,周伯文团队提出了一种新的注意力机制,可以更加准确地模拟人类的行为和泛化能力,被称为”主动注意力”机制。该机制能够主动发现和调整输入中的重要信息,并更加关注那些需要更加注意的地方,从而提高生成摘要的质量和准确性。

周伯文给团队做了个比喻,就好像大学里的期末考试,学生通过老师在考前画重点来针对性准备复习,考试的效果当然会好,但学生通常考完就忘了。他认为,如果要做通用人工智能,要考虑的就应该是长期效果和对AI模型更充分的训练,所以不应该看输出,而只能看输入,就像人不能用未来的信息决定现在的判断。这就要设计一个更好的编码器,和更好的自然语言表征机制。

多跳自注意力(multi-hop self-attention)机制是他们的最终研究成果,这一机制可以让人们在理解文本时像学习考试一样来理解文本,具体来说,就像考试不考虑会考什么,只看书来理解哪里需要更多地赋予注意力,即学习自注意力。此外,这一机制还不能限制在单独某一科目或任务的学习上,而是要反复地看,通过多跳来理解内在的依赖关系。这篇论文于2016年底完成,并于2017年初发表,成为第一个完全不考虑下游任务的自然语言表征模式,为自然语言处理领域带来了新的突破。

2016年,神经网络领域迎来了一个蓬勃发展的时期。同年,被称为一切繁荣的开端的那篇论文《Attention is All you need》在谷歌内部被广泛传播,来自谷歌的几个研究员因此被业界视为英雄。这篇论文提出了一种新的神经网络模型,名为Transformer,为深度学习的发展带来了深远的影响。Transformer模型的出现,使得深度学习在自然语言处理领域取得了巨大的成功,为人工智能的发展做出了重要的贡献。

1在这篇论文中,周伯文的论文被引用,在引用角标对应的地方,多跳自注意力的名字演变成了“多头自注意力”。2

周伯文对我回忆道:“这是一个很好的研究,他们在多头自注意力基础上拓展了两件事。第一就是利用强大的算力,对注意力机制叠了很多层。第二很聪明也很简单,就是把RNN抛弃了,只用位置编码,轻装上阵因此可以用更多的数据。最终,他们的研究得到了很好的结果,证明了这种新的模型在序列标注任务中具有很大的潜力。”在研究过程中,研究人员发现使用多头自注意力机制可以很好地捕捉序列中上下文之间的关系,但是计算资源消耗巨大,尤其是在使用RNN时。因此,他们决定放弃RNN,只使用位置编码,从而减轻计算资源的消耗,并使用更多的数据来训练模型。最终,他们的研究得到了很好的结果,证明了这种新的模型在序列标注任务中具有很大的潜力。

“Attention is all you need” 是一句曾经改变了学术论文起标题风格的简短句子。在今天的学术研究中,人们更加关注 “Attention” 这一概念本身。但在当时的研究背景里,它更像是在有针对性的喊话,强调了重要性。

1多头重要,自注意力重要,但RNN不再重要,这打破了当时所有人搭建模型时的惯例,也是和周伯文等之前研究者的论文最大的区别。2

1997年,Google的AI团队发表了一篇论文,提出了一种名为Transformer的神经网络架构,解决了传统神经网络中长距离记忆的问题,这一技术革新在当时引起了轰动,并迅速被各大AI公司广泛应用。Ilya Sutskever在近期的一次采访中回忆,OpenAI在论文出现第二天就立刻彻底转向了Transformer架构。这一技术革新的广泛应用,也催生了诸如自然语言处理、计算机视觉等领域的重要研究,彻底改变了人类对于AI的认知。

1而后,2020年5月OpenAI基于Transformer架构的GPT-3论文发表,2年后ChatGPT出现。之后的一切都是历史。2

2023年2月19日,随着技术的发展,我们看到了AI在自然语言处理领域取得的进步。其中,BERT(Bidirectional Encoder Representations from Transformers)和GPT-3(Generative Pre-trained Transformer 3)是最具代表性的模型。BERT模型通过对输入文本进行双向注意力机制的处理,可以预测输出文本和待预测词的下文,从而完成文本生成任务。GPT-3则是一种自注意力模型,通过对输入文本进行自注意力机制的处理,可以预测输出文本和上下文中所有单词的概率分布,从而完成文本生成任务。BERT和GPT-3的出现,使得AI在语言理解、生成和推理等方面有了更加广泛的应用。BERT模型可以用于文本分类、情感分析、命名实体识别等任务,GPT-3则可以用于文本生成、机器翻译、问答系统等任务。这些模型的出现,极大地提高了AI在自然语言处理领域的应用水平,为人们带来了更多的便利和效率。然而,这些模型的发展也带来了新的挑战和问题。比如,模型的可解释性成为了一个新的挑战,我们需要进一步的研究和解决。数据隐私和伦理问题也引起了人们的关注,我们需要进一步的研究和解决。技术的发展使得AI在自然语言处理领域的应用得到了广泛的应用和推进,同时也带来了新的挑战和问题,我们需要进一步的研究和解决。

1弄潮的人会更早意识到新浪潮到来,在看到GPT3后,当时已经在京东担任高级副总裁的周伯文给自己的职业生涯做了一个重要的决定:2

1创业。2

在2021年下半年,他向工作了4年的京东提出离职。他曾在这里一手搭建起京东的整个AI团队,领导了云与AI的整合和战略刷新,把生成式人工智能用到千人千面的个性化商品营销和爆款产品创新中,并收获了亮眼的提升数据。虽然2020-2021年生成式人工智能还是早期探索,很少有人愿意为此而重新出发,但他看到的未来让他无法等待。

1人生就是“connect the dots”。周伯文喜欢乔布斯这个提法,而对他来说,把这些点连接起来的一刻到了。2

1衔远科技的诞生2

1一个无限的符号。左边是产品,右边是消费者。2

1周伯文在2021年底的一天在一张A4纸上画下了这个图案,之后衔远科技诞生。2

1Dots connected。2

1这种基于生成式的交互智能就是ChatGPT成功背后的重要机制,但在ChatGPT还没出现的当时很少有人懂。2

1离开大船,带来的是巨大的沉没风险,但他自己想的很清楚。2

“终局思考加上对技术阶段和成熟期的判断,让我在2021年决定干这件事情。”在衔远科技位于中关村的办公室,周伯文对我说。他的声音有些沙哑,今年以来他每一天的行程以小时划分,但精力依然充沛,提到技术的演进节点,不自觉会兴奋地提高音量。

1周伯文2

在技术验证方面,GPT3等模型的能力越来越强,通过自我训练和不断优化,生成式的能力得到了明显的提升。同时,我也进行了一系列的技术和效果验证,发现使用生成式AI来制作内容,可以有效提升产品创新和转化率,比人类专家高出30%以上。通过自我训练和不断优化,GPT3等模型生成式的能力得到了明显的提升。在制作内容方面,这些模型可以比人类专家高出30%以上的速度、准确度和创意度。这些模型可以在短时间内制作大量内容,并针对特定的受众群体生成个性化的内容。使用生成式AI来制作内容,可以有效提升产品创新和转化率。这些模型可以模拟人类的思维过程,并根据特定的受众群体生成个性化的内容。这使得企业可以更加高效地制作和发布内容,并吸引更多的受众。GPT3等模型的能力越来越强,通过自我训练和不断优化,生成式的能力得到了明显的提升。在制作内容方面,这些模型可以比人类专家高出30%以上的速度、准确度和创意度。这些模型可以在短时间内制作大量内容,并针对特定的受众群体生成个性化的内容,这使得企业可以更加高效地制作和发布内容,并吸引更多的受众。

1两相结合,周伯文创办衔远科技要做的,就是用生成式人工智能去重构用户和产品的关系。2

尽管AI技术在过去几年中取得了长足的进步,但数智化产业仍然致力于追求单点突破。该产业需要成千上万个小的模型来解决具体的环节问题。而我希望构建一个基础庞大的模型,学习商品供应链的各个环节,以提高关键环节的效率。这个模型可以为消费者提供更好的购物体验,同时也可以为数智化产业带来更多的商业机会。

1但果不其然的,这个模式在一开始并没太多人理解。周伯文又再次需要做一个判断:这些技术思考和现实的商业模式之间的空隙,他是否又一次太超前了。2

1“超前是我的常态,但我当时判断是,没有太超前。”他对我说。“我总是说,技术的突破,核心是你的愿景是什么。”2

周伯文的技术愿景显然指向通用人工智能,而这一次生成式人工智能的进展,让他更清晰看到通用人工智能的可能性,其中最关键的改变,就是人与人工智能的交互关系的变化。

周伯文认为,在AI时代,人机对话不再是简单的应用,而是一种学习与对齐的手段。通过与人进行交互,人可以不断地向AI传授知识,完成人和AI在复杂任务上的分工协同,并确保AI的目标和子目标都与人类对齐。人机对话是人类知识积累、沉淀和传播的重要方式,同时也为AI的发展提供了重要的支持。

2022年初,当周伯文提出在清华大学开展相关课题时,大家感到新奇。然而,在ChatGPT出现后,这种判断已成为一种共识。因此,当他离开京东后,受聘为清华大学电子工程系长聘教授、清华大学惠妍讲席教授,并设立了“协同交互智能研究中心”。他同时拥有学界和创业者的双重身份,希望通过这两种身份围绕学术与产业的协同,更好地助推AI创新发展。

1什么才是中国的OpenAI2

在中关村不大的会议室里,周伯文向我展示了他2021年底最早设计衔远科技的技术底座与商业模式的幻灯片。此时,网络投屏延迟有些高,“我们的网络资源都在训练模型,”他半开玩笑地说。

1这家公司正在按照他的愿景,稳步推进每一个技术细节,打造着模型和产品。2

周伯文认为,用生成式人工智能去重构用户和产品的关系,需要将用户和产品的关系指向5D:发现、定义、设计、开发、转化。在与客户的沟通中,周伯文发现这5D基本涵盖了品牌和制造商的所有需求。

5D的世界中,不能只考虑用户或产品,而是需要将它们链接起来,进行彼此交互。这也是与以往的不同——5D并不新鲜,它们早已存在。过往周伯文也用技术走通过每一个D,但问题是在大模型之前,模型训练和部署成本都很高。更重要的是,它们是彼此分割的,即使是曾经火热一时,试图解决这一问题的数据中台概念也没能改变这个事实。因此,我们需要将5D进行重新组织,让它们能够相互交互,形成一个整体。

数据中台的概念是一个伪命题,因为它只是事后定义的临时解决方案,无法提供企业所需的完整数据支持。使用不同的软件或工具可以看到不同的数据,因为最终的入口取决于使用场景和需求。然而,衔远科技的大模型建成之后,所有企业都将使用该5D大模型来实现数智化转型,并将其成为统一的入口。这将为企业提供一个全面的、标准化的数据支持,帮助企业更好地实现数智化转型。

1“生成式人工智能让5D第一次有可能用同一个AI基础模型跑起来。而且能够将5D的数据集中到一起并实现全部穿透,这类场景以前是不存在的。”2

在应用落地层面,我们的领衔Collaborative Innovation Platform SaaS基于大模型的多模态理解、推理与生成能力,通过深刻洞察消费者、场景、商品、品参、研发,协助企业发现商业机会与产品创新。同时,衔远科技的ProductGPT多轮对话平台为企业每个员工提供根据不同职业角色深度定制的个人助手。这些个人助手根据员工的角色和特定工作需求定制,例如,衔远科技的消费者研究个人助手会提供研究市场趋势、理解消费者需求、市场调研等专业技能与相关知识。通过这种方式,企业可以更加高效地应用衔远科技的ProductGPT多轮对话平台,并员工通过个人助手实现更加深入的业务创新。

衔远科技在今年3月1日已完成数亿元天使轮融资,由启明创投领投,经纬创投跟投。在商业语境已经被一定程度上塑造的今天,这样的模型思路似乎会被立刻归类为“垂直模型”,人们认为它需要被建立在一个更强大的,全能的通用大模型之上。然而,这种观点并不完全正确。在商业世界中,模型不应该被简单地归类为“垂直模型”或“通用大模型”,而应该被看作是一种能够应对不同市场和客户需求的灵活组合。

1但周伯文并不这么认为。2

1“我以前没用大模型这个词,现在大家这样理解,没办法(也要用起来),这样有好处,就是简洁。但它也会把很多东西混淆在一起。”2

GPT等大模型的出现并不意味着技术已经到达了瓶颈,一方面,大模型可以让人们把不同的模型放一起比较,但这并不意味着它们具有同等的能力;另一方面,大模型的出现也表明了技术的进步,未来一定会有新的技术方法来提升模型的表征和学习能力。模型的能力不仅取决于它们的规模,还取决于它们的表征和学习方式。虽然大模型可以涌现一些能力,但这并不意味着它们在所有方面都比小模型更好。对于推理任务,模型的表征架构一定越小越好。因此,我们需要根据具体的任务和数据,选择合适的模型架构,而不是盲目追求大模型。

1“我一直认为,模型不是越大越好。我们说大模型其实关键是模型提供了预训练能力,具备了基础能力,后面怎么去用是另一个问题。”2

1第二在商业模式上,“大”其实对应的是ROI里I的部分,但事实上没人要去比I,要比的是R,I是分母越小越好,R是分子越大越好。2

1以及大模型本身更适合做的是长尾场景,这些往往也是低价值场景。而一些数据上的变化也开始印证这个判断。2

ChatGPT的出现改变了人们聊天的方式,但也带来了新的问题。从上个月起,它的API调用量明显下降,日活下降5%,而之前突增之后也才到谷歌日活的2%。人们并不了解它的作用,只是将其当做是一个玩具或一个简易工具。因此,我的判断是,ChatGPT必须进入生产力环节,成为人们在生产生活中的刚需。只有这样,它才能真正发挥其价值,改变人们聊天的方式,并带来更大的商业机会。

1所以在衔远科技,大模型在技术底层框架上必须具备通用大模型技术的基础能力,并用科学的方法评估,但同时也需要专业的训练。2

2“人们都在用LLM来简述OpenAI做的事情,但实际OpenAI自己的定义是——基于多头注意力机制预测下一个词训练出来的最佳的世界知识压缩器。”周伯文找到OpenAI科学家的分享对我说。

在构建产品模型时,需要将产品诞生过程中的所有知识压缩进一个模型中。这个模型需要能够预测下一个“词”,并能够学习人的场景、情感等因素来预测产品的参数。通过这种方式,这个模型可以更好地了解人类的需求和行为,从而更好地满足人类的需求。

周伯文喜欢引用诺贝尔经济学奖得主丹尼尔·卡尼曼提出的一个理论来解释人工智能与人的关系:人们的思考方式有两类,“系统1”基于直觉和经验判断,快速、不需要大量计算,“系统2”需要语言、算法、计算、逻辑。最初人们以为商业化的AI更适合做“系统1”的工作,比如人脸识别等。然而,ChatGPT证明了AI做非给定任务系统2的可行性,这一成果为AI的发展带来了新的方向。

衔远科技可以拿亚马逊的贝索斯来比喻。贝索斯是亚马逊的创始人,拥有天生的思维和强大的数据分析能力,这也是亚马逊成为全球最大的在线零售商之一的重要原因之一。同样地,衔远科技也可以通过吃透互动数据模型来提升自身能力。这个模型可以让衔远科技的分析能力平民化,使其能够更好地了解用户需求和行为,进而提升用户体验和业务价值。

1衔远科技科技就是要帮助更多的企业家成为贝索斯。2

据品玩了解,衔远科技正在训练的基础模型,将在具备通用能力的基础上,更擅长理解人与商品。该模型将通过多轮对话方式,为企业与消费者提供生成式人工智能帮助,从商品洞察、定位、设计、研发到营销的创新。

1周伯文设计的训练方法,是用约三分之二的通用人工智能的问题,比如数学推理等,再加上三分之一完全围绕着5D的知识来一起训练。2

1周伯文认为,这是一个用全新技术驱动的全新挑战,而并不是简单地去追随做“下一个OpenAI”。2

1“因为在OpenAI成功的一瞬间,就意味着任何在该领域跟随的其他公司都不再有是OpenAI的可能。”他说。2

OpenAI是中国的人工智能领域先驱,在人工智能领域尚未有前人成功的例子时,OpenAI依靠自身对终局的判断和对未来的展望,一步步往前走,提出了一系列创新性的想法和理论,成为了人工智能领域的领军企业。OpenAI的成功并不是简单的跟随,而是在对终局的判断和对未来的展望下,通过不断的探索和实践,走出了自己的道路。

Leave a Reply