计算机行业AIGC专题报告:ChatGPT更懂人类的叙事

(报告出品方/作者:德邦证券,马笑)

ChatGPT概述

OpenAI:人工智能研究领域最前沿的公司之一

OpenAI深耕AI领域研究,特色产品包括ChatGPT、DALL·E2、Whisper等。 OpenAI是于2015年12月在美国成立的人工智能研究公司,由马斯克、美国创业孵化器Y Combinator总裁阿尔特曼、全 球在线支付平台PayPal联合创始人彼得·蒂尔等硅谷科技大亨创立。 研究方向可以分为三类:训练生成模型算法,即深度学习生成模型;从数据中推断算法的算法,即神经图灵机;强化 学习方法,可以理解为深度增强学习。

ChatGPT月度用户已破亿,正在逐步探索商业化途径

ChatGPT是OpenAI在2022年11月30日发布的全新聊天机器人模型。 它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至 能完成撰写邮件、视频脚本、文案、翻译、代码等任务。 ChatGPT月度用户已破亿,正在逐步探索商业化途径。 根据UBS统计数据显示,ChatGPT上线2个月后月度用户数量破1亿。 2023年2月1日,OpenAI推出付费订阅项目ChatGPT Plus,价格为$20/月,目前面向美国用户。

ChatGPT基于GPT3.5模型进化微调,从人类反馈中学习

OpenAI 基于GPT模型,使用监督学习和强化学习的组合来调优 ChatGPT,其中人类反馈强化学习 (RLHF)使 ChatGPT趋近人类价值观及意图。 ChatGPT的训练分为三步:一是训练及微调GPT模型,获得语言及代码的生成能力;二是根据人类意图训练,人为标 记生成内容的排序,训练出奖励模型(Reward Model);三是通过奖励模型为生成内容打分,通过近端策略优化 (PPO)来优化生成模型,使其趋近人类的意图。

第一步:收集数据微调GPT3.5模型

预训练的GPT3.5在少量已标注的数据上进行调优,以学习 从给定的提示词(prompt)列表生成输出的有监督的策略 。模型选择:选择了 GPT-3.5 系列中的预训练模型,参考InstructGPT, 参数量最高达175B。例如,输入“你好”,通过GPT后输出“美”。GPT每一次的输出可 能都是不同的,因为在网络上的语句中,“你好”后面有多种接法, 例如“你好高”、“你好吗”,而输出结果是遵循概率分布的,高频 组合出现的概率较高。 数据收集:使用了两种不同的提示词来源。一些是直接使用标注人员 或研究人员准备的,另一些是从 OpenAI 的 API 请求(即从 GPT-3 用 户那里)获取的。 策略生成:选择一个提示列表,标注人员按要求写下预期的输出。最 终得到的结果是一个相对较小、高质量的数据集,可用于调优预训练 的语言模型。

第二步:模拟人类偏好,训练奖励模型

对大量的模型输出进行排序,创建了一个由比较数据组成的 新数据集。在此数据集上训练新模型,被称为训练奖励模型 (Reward Model,RM)。 输出排序:标注者根据人类偏好将输出从最佳到最差排序。结果是一 个新的标签数据集。 奖励模型:将有标签的数据集用于训练 RM 模型 ,并将生成模型的输 出,按优先顺序对它们进行排序。 例如,输入“台湾最高的山是哪座?” ,输出可能有两个结果,输出 一是“玉山”,输出二是“谁来告诉我呀”。两个回答都可以与问题 衔接,但是人类的偏好是输出一,因此RM给两个输出排序时,输出一 是高于输出二。

第三步:使用奖励模型,基于PPO进行最优化

强化学习被应用于通过优化 RM 模型来调优模型,所使用的 特定算法称为近端策略优化(PPO)。 PPO:强化学习中的一种方式,通过学习策略以达成回报最大化或实 现特定目标的问题。PPO在实现的便利性、样本复杂性和调优的便利 性之间取得了平衡,试图在每一步计算一个更新,使代价函数最小化, 同时确保与前一个策略的偏差相对较小。 调整目标:使用RM作为奖励函数,通过PPO算法微调策略,调整参数 获得最大的奖励。

核心优势

优势一:公司与微软合作,提供上下游支持

微软作为OpenAI的LP投资者,为公司提供研发底层支撑及应用的大力支持。 资金支持:2019年7月22日,微软投资OpenAI 10亿美元;2023年1月23日,微软宣布与OpenAI建立长期合作伙伴关 系进入第三阶段,通过一项为期多年、数十亿美元的投资来加速AI的突破。 服务支持:1)大规模超级计算—— 微软将增加对开发和部署专用超级计算系统的投资,以加速OpenAI的研究;继续 构建 Azure 领先的 AI 基础结构。2)独家云提供商 – Azure将为研究、产品和API服务中的所有OpenAI工作提供支持。 应用支持:1月17日微软表示,计划将包括ChatGPT、DALL-E等人工智能工具整合进微软旗下的所有产品中,并将其 作为平台供其他企业使用,包括且不限于Bing搜索引擎、Microsoft Office、Azure云服务、Teams聊天程序等。

应用场景

ChatGPT以采取会员收费,未来或拓展商业模式

OpenAI的商业模式为,会员收费、开放API以及与微软的战略合作。 会员服务:2023年2月1日,OpenAI推出付费订阅项目ChatGPT Plus,价格为$20/月,目前面向美国用户。付费服务包括,在高 峰时段也可常规访问ChatGPT、更快的响应、以及优先访问新功能和改进。ChatGPT将继续提供免费访问。 API服务:ChatGPT或将加入OpenAI API,从下游用户的使用中收取费用。目前OpenAI的API以Token对于NLP的文字进行收费, 例如莎士比亚作品集需要1.2M的Token。 与微软合作:使用 Azure OpenAI 服务,采用即用即付的消费模式,以Token或托管时长进行收费。

GPT系列API可为下游应用提供语言和代码处理

ChatGPT尚未开放API,因此参考已开放API的Text-davinci-003和Code-davinci-002来解读其功能。 ChatGPT与Text-davinci-003的能力相似,均属于GPT3.5系列模型。 实现功能包括:回答问题、分类、编写代码、对话、生成、翻译和转换。

ToB:GPT系列已应用到办公应用、智能客服等

办公应用:1)AI辅助编程 :GitHub Copilot 可辅助程序员编程,通过Codex在代码编辑器中为整行或某个函数提供建议。2)市 场调研工具:Viable 使用 GPT-3 从客户反馈中提供有用的见解,可以从调查、票证、实时聊天日志、评论等中识别和提取主题 内容和情绪,并在几秒钟内提供内容总结。 智能客服:Algolia和ActiveChat 使用了 GPT-3 来更好地理解客户的问题,并将他们连接到回答他们问题的内容的特定部分。

ToC:GPT系列已应用到学习类于创作类生成

学习类:1)论文检索:GithubElicit是一个人工智能研究助手,通过检索已发表的论文,从大量研究论文中查找最相 关的摘要,并应用 GPT-3 的自定义功能来生成答案。2)语言学习:Duolingo作为一个语言学习平台,已经使用 GPT3 进行法语语法更正。Duolingo 的一项内部研究表明,使用此功能可以显著提高用户的第二语言写作技巧。

创作类:1)Blog创意生成:Blog Idea Generator通过采用搜索关键字来分析该主题在Google里最受欢迎的内容。基 于获取的数据,软件通过GPT-3生成内容来获得更高的阅读量。2)写作造句工具:Compose.ai 是一个免费的Chrome 扩展程序,可使用AI自动进行写作。只需要输入关键字词和主要内容,GPT-3可协助生成完整语句,构成全文。

ToC:GPT系列还应用于娱乐及生活类APP

娱乐类:1)AI驱动游戏:AI Dungeon是一款由AI驱动的基于文本的角色扮演游戏,AI会自动生成故事,玩家可以在 其中输入对话,人工智能将以新的事件和对话作出回应,创造独特且不可预测的游戏体验。2)AI聊天伙伴: WhatsApp 上的AI Buddy是由GPT-3.5驱动的软件,可以和用户进行对话,就像发消息给朋友一样。例如,“给我讲个 笑话”、“给我一个博客构思”等。

生活类:税务助手:Keeper Tax可帮助个人记录税务情况。在关联到个人财务账号后,Keeper Tax用不同模型提取文 本信息并分类交易类型。

应用一:ChatGPT已与搜索引擎相结合

ChatGPT已加入浏览器扩展程序,集成了ChatGPT-4的BING短暂上线 。 ChatGPT已作为扩展程序加入到Chrome、Firefox、Edge等浏览器的应用中;Bing、谷歌等搜索引擎中将接入ChatGPT, 得到自然语言回答。 集成了 ChatGPT-4 的新版 Bing 曾于2月4日短暂上线。据设计师 Owen Yin分享的截图,新版 Bing 的搜索框变为聊天 框,会在聊天气泡中回复用户的问题。新版 Bing 鼓励用户使用自然语言而不是关键字进行搜索,还能够根据用户的要 求调整搜索结果。

应用二:泛娱乐行业应用,包括游戏、直播等方面

元境科技率先接入ChatGPT,结合自研多模态智能算法,完成了行业首个AIGC互动直播功能的落地。 元境科技虚拟数字人已经接入ChatGPT等模型,并已在Tik Tok跨境电商直播、虚拟主播直播互动等场景实现应用,并 形成产品化解决方案。未来,将更加关注数字人与ChatGPT等模型的整合应用,快速扩展到不同行业、不同场景。 行业首个应用此项技术的虚拟主播是虚拟二次元网红CiCi。在最近的一大段时间里CiCi的直播早已替换为了AIGC互动 直播,在测试应用期间一众粉丝均未看出任何异样,同时在使用测试期间粉丝量也持续稳步提升。

类似产品

Claude:谷歌旗下ChatGPT有力竞品

Claude是Anthropic新推出的一款类似于ChatGPT的AI助手,谷歌已经向Anthropic投资约3亿美元。 Anthropic是由前OpenAI的一支研发团队出走成立的人工智能初创公司,大多为 OpenAI 的早期及核心员工,深度参与过OpenAI 的多项课题,比如GPT-3、神经网络里的多模态神经元、引入人类偏好的强化学习等。 根据Financial Times报道,谷歌已经向Anthropic投资约3亿美元。通过这笔交易,谷歌将获得Anthropic约10%的股份,后者要用 这笔钱从前者的云计算部门购买大量计算资源。 Claude目前还处于实验阶段,开创性引入了“宪法人工智能”(Constitutional AI,CAI)的概念。 与RLHF不同,宪法AI的过程使用模型而不是人类来生成微调输出的初始排名,根据一系列基本原则选择最佳回复,即RLAIF。

百度:拥有打造国产ChatGPT能力的公司

百度拥有飞桨(深度学习开源框架)、百度AI大底座(全栈AI基础设施)和文心大模型(AI应用场景全覆盖)。 PaddlePaddle飞桨是中国自主研发的第一个深度学习框架。深度学习框架是在完成深度学习时一套可以复用的代码,使得使用 者在开发深度学习程序时可以不用从复杂的神经网络搭建开始编代码,而是在已有的模型上进行个性化改进。 百度AI大底座:国內首个全栈自研的Al基础设施,面向企业Al开发和应用,提供端到端自主可控、自我进化的解决方案让企业可 以快捷、低成本地实现“Al能力随用随取” 。文心大模型:源于产业、服务于产业,是产业级知识增强大模型。百度通过大模型与国产深度学习框架融合发展,打造了自主创 新的AI底座,大幅降低了AI开发和应用的门槛,满足真实场景中的应用需求,真正发挥大模型驱动AI规模化应用的产业价值。

ERNIE:百度基于BERT打造的NLP模型

2月7日,百度官宣其新的大模型项目“文心一言”,英文名ERNIE Bot。 ERNIE是百度开创性提出的基于知识增强的持续学习语义理解框架。 ERNIE在情感分析、文本匹配、自然语言推理、词法分析、阅读理解、智能问答等16个公开数据集上全面显著超越世 界领先技术,在国际权威的通用语言理解评估基准GLUE上,得分首次突破90分,获得全球第一。 ERNIE在工业界得到了大规模应用,如搜索引擎、新闻推荐、广告系统、语音交互、智能客服等。

ERNIE由BERT进化而来,经过一系列的升级,目前已推出3.0版本。 在 ERNIE 3.0 中,自回归和自编码网络被创新型地融合在一起进行预训练。 自编码网络采用 ERNIE 2.0 的多任务学习增量式构建预训练任务,持续的进行语义理解学习。 通过新增的实体预测、 句子因果关系判断、文章句子结构重建等语义任务进行预训练;同时,创新性地增加了知识增强的预训练任务。 自回归网络基于 Tranformer-XL 结构,支持长文本语言模型建模。多范式的统一预训练模式使得 ERNIE 3.0 能够在理 解任务、生成任务和零样本学习任务上获取 SOTA 的表现。

报告节选:

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

精选报告来源:【未来智库】。

Leave a Reply