文章高质量数据对于ChatGPT改进的重

文 / 半月

编辑 / 周雄飞

ChatGPT 火爆来袭,各路创业者们正赶着上车。

大厂纷纷下场布局大模型储备,打造AI智能新生态。上月底,在360科技2023年数字安全与发展高峰论坛上,360官方正式发布大语言模型360 AI,成为AI技术领域的一大亮点。

更早以前,作为国内率先对人工智能领域布局的百度,也推出了旗下多模态大模型应用——文心一言。据百度 CEO 李彦宏介绍,该模型具备文学创作、商业文案创作、数理推算、中文理解、多模态生成五个使用场景的综合能力。

与此同时,阿里,美团等大厂的一大批高管,看准机会相继宣布创业,拿出大部分身家,只为做出中国版的 ChatGPT。

在今年2月,原美团联合创始人王慧文宣布出资5000万美元,设立北京光年之外科技有限公司。该公司的75%股份用于邀请顶级研发人才,打造中国OpenAI。此外,据最新消息,光年之外近期已启动新一轮融资。

几个月后,阿里前技术副总裁贾扬清再次透露了他的下一步创业打算。据他介绍,他的新项目与AI大模型底层技术相关,目前融资已基本到位。

一大批创业者们前赴后继,”ChatGPT 们 ” 正加速狂飙,这背后少不了多个行业 ” 保驾护航 “。

要建立 ChatGPT 这样的大模型应用,少不了算法、算力和数据三大行业的支持,简单说,应用要高效运行起来,就需要强大算力的支持,而要让应用背后的算法更为聪明,则需要源源不断地向其 ” 投喂 ” 高质量数据。

由此可见,算法大模型想要实现升级和迭代,最为关键的就是需要大量数据的训练,而要保证这些数据的质量,就需要对数据进行清洗、标注、质检等多个步骤,要完成这一目标,少不了标贝科技、海天瑞声为代表的一批数据标注提供商的助力。

现阶段,数据标注厂商们已耕耘多年,且各有 ” 两把刷子 “。

标贝科技,作为一家多年扎根在数据标注领域的企业,专注于智能语音交互和AI数据服务。通过精细化的定制服务,标贝科技在行业中打出了优势,截止目前,标贝科技服务项目累计超过1000项。

海天瑞声、Scale.AI、Appen等玩家,都是专注于数据标注的厂商,拥有全套的产品与服务,涵盖了语音、计算机视觉、自然语言理解等领域。这些厂商所提供的数据标注服务,对于人工智能的发展起到了重要的作用。

随着 GPT-4 等大模型的进一步发展,对于训练数据质量的要求必将更为苛刻,摆在数据标注厂商们面前的,是无限机会与挑战。

ChatGPT 创业潮来了,

高质量数据成 ” 刚需 “

ChatGPT 正为交互领域带来 ” 划时代 ” 的改变。

1946年,世界第一台现代计算机EDVAC诞生,标志着交互1.0时代的正式开启。人们使用打孔纸通过输入0、1二进制的机器语言与计算机进行交互,直到上世纪70年代,人机交互迎来一次新的蜕变。

当时,随着首台个人计算机的问世,相比于此前用打孔交互不同,人们可以通过鼠标、键盘向计算机传达任务:即通过点击电脑图标、以及用键盘输入指令向计算机下达命令,从而让计算机做出反馈,自此,计算机开始 ” 飞入更多寻常百姓家 “。

操作系统的出现虽然给人机交互带来了新的方式,但本质仍然在于通过机器语言来进行人机交互。虽然出现了 Windows 等多款操作系统,并它们自身也持续不断地进行着更新,但这些操作系统的人机交互方式仍然基于机器语言的处理。

直到 2022 年,OpenAI 带着 ChatGPT 的到来,让交互领域再度迎来 “iPhone” 时刻:人们能够直接用自然语言流畅地与计算机进行交流,并且计算机能够直接理解自然语言并与用户进行反馈和对话。

之所以说是 ChatGPT 开启了新的交互时代,是因为相较于以往的对话模型,ChatGPT 有着质的飞跃。

经过连线 Insight 体验,ChatGPT 能够从中国诗词歌赋聊到西方人生哲学,并在最后进行总结;而以往的对话模型只能表达一首简短的中文诗。也就是说 ChatGPT 能够实现多轮及结合上下文的不间断聊天,且能记住以往指令,同时用各国语言沟通无障碍。

GPT 背后的大模型还在不断迭代:从 2022 年底的 GPT-3.5 到 2023 年初的 GPT-4,性能又得到了全方位的提升。

GPT-4 较于 GPT-3.5 的性能提升,图源 OpenAI

当看到 ChatGPT 在人机交互上跨时代的表现后,很快,各行各业都向 ChatGPT 们发出邀约。

2020年,微软下了血本投资OpenAI10亿美元,为自家AI生态注入新的能量。2023年,微软迎来摘果子时刻,将自家生态逐步和GPT进行结合,形成全新的AI生态。这一举措不仅有助于提升微软AI技术的地位,也为整个AI领域带来了新的发展方向。

上月17日,微软发布了一项名为Microsoft 365 Copilot的技术,它融合了大量的人工智能技术,包括GPT-4能力。据悉,Copilot将会被内置到Word、Excel、PowerPoint、Outlook、Teams等Microsoft应用程序中。这将大大提高这些应用程序的使用体验,并为用户提供更多的智能功能。

使用 Copilot 技术,用户只需对 Office 软件进行简单的指令操作,即可完成各种文档和演示文稿的编辑工作。例如,在制作 PPT 时,Copilot 可以自动生成符合用户需求的演示文稿页面,并提供设计风格建议和错误检测功能。Copilot 技术使得 Office 的编辑工作更加智能化和自动化,为用户提供更高效、更方便的编辑环境。

就当微软在 ChatGPT 领域落子的同时,国内科技公司百度也率先站出来,发布了它的类 ChatGPT 产品——文心一言。据连线 Insight 测试,文心一言同样具备 ChatGPT 的众多能力,比如对于提问做出及时、准确的回应,以及可以结合上下文进行不间断的交流和应答。

看到文心一言的能力后,国内各个行业的企业们纷纷响应,争相成为该产品的合作伙伴。比如汽车行业的集度、长城,媒体行业的澎湃新闻、大众日报,家电行业的海信、美的等企业,纷纷接入百度文心一言。截止目前,已有 650 多家公司等待着百度文心一言的支持。

OpenAI、微软和百度引领之后,有更多的科技公司参与到类 ChatGPT 大模型的争夺中来。

上月底,在360科技2023年数字安全与发展高峰论坛上,360公司官方正式发布其大语言模型360 AI。360 AI基于搜索场景推出人工智能个人助理类产品,同时,在To C端,360 AI将基于大语言模型推出智能搜索应用,如“人工智能个人助理”等;在To SME端,360 AI将基于生成式大模型推出SaaS化垂直应用,如结合生成式 AI 的“企业即时通讯工具——推推”等。

科技公司的产品孵化也在进行中。2 月 8 日,网易有道宣布未来将推出 ChatGPT 同源技术产品,应用场景将围绕在线教育;2 月 9 日,科大讯飞也表示,其 Al 学习机将成为公司类 ChatGPT 技术率先落地的产品,并于今年 5 月发布。这些公司正在努力研发新技术,并推出相应的产品,以拓展市场。

随着越来越多科技大厂布局类 ChatGPT 大模型,行业内外对于 GPT-4 等大模型也提出越来越多样的要求:既要其懂得驾驶语言,赋能智能座舱甚至是自动驾驶;又要求其博览群书,并给出群书中的关键论点;还要会塑造虚拟人物,懂得人类的喜怒哀乐等等。

这也意味着,行业内外对于大模型必备的 ” 三件套 “(算力、算法、数据),正提出更高的要求。

对于大模型 ” 世界 ” 来说,算法是 ” 生产关系 “,是处理数据信息的规则与方式;算力是 ” 生产力 “,能够提高数据处理、算法训练的速度与规模;而数据是 ” 生产资料 “,高质量的数据是驱动算法持续迭代的养分。

基于这一重要性,目前对于算力的持续投注已是行业共识,政府也开始出手。

算力资源开放成为地方政府促进地方产业发展的手段之一。今年 1 月,成都出台了《成都市围绕超算智算加快算力产业发展的政策措施》,政策表明,成都每年将发放总额不超过 1000 万元的 ” 算力券 “,用于支持算力中介服务机构、科技型中小微企业、科研机构、高校等使用国家超算成都中心、成都智算中心算力资源。这一政策的出台,为地方算力产业的发展提供了资金支持。

国家的算力交易平台政策的发布,促进了算力的流通,而宁夏银川的东数西算一体化算力服务平台在当月也正式上线了。该平台将瞄准目前最稀缺且刚需迫切的 ChatGPT 运算能力,为中国人工智能运算平台提供大算力服务。

需要注意的是,如果没有高质量数据,算力再充足也无济于事。参考 ChatGPT,其高质量数据是其在有效场景下采集到的原料数据,经过数据清洗、数据标注、质检等环节后产生的。

高质量数据对于 ChatGPT 改进的重要性,可以从以下案例中窥见一二。在 InstructGPT 实验中,研究人员发现,随着模型参数量的增加,模型性能均得到了不同程度的提高。这表明,对于 ChatGPT 这样的大型语言模型,模型参数量的增加可以提高模型的性能和泛化能力。

模型参数量与模型性能变化情况,图源 InstructGPT

通过强化学习技术实现的 PPO(近端策略优化),相较于无监督的 GPT 模型,在同样规模的参数情况下,表现更好。PPO 是由 OpenAI 于 2017 年提出的一种基于随机策略的DRL(Deep Reinforcement Learning)算法,通过不断更新策略并强化监督,来提高策略的效率。

可以说,有监督的标注数据是大模型应用成功的关键之一,且标注数据贵不在数量而在质量。在 GPT-4 等大模型高速、高质量发展中,高质量数据是 ” 卡脖子 ” 的存在。

现如今,随着各行各业对 ChatGPT 的召唤,该智能助手的需求也越来越高。然而,如果想要提高 ChatGPT 的竞争力,高质量的数据是必不可少的。

数据标注,乃 ” 兵家 ” 重地

从 GPT-3 到 ChatGPT,大模型经历了 5 次迭代。

据东方证券研报显示,在这几次迭代中,最明显的变化是,在训练方式上增加了 RLHF,即让智能体通过接收来自人类用户或专家的反馈来调整自己的行为的方法,同时用上了起码 7.7 万人工标注的语料库。

从 GPT-3 到 ChatGPT 的迭代过程,图源东方证券、未来智库

经过 RLHF 的多轮磨练、大量人工标注数据的修正,2020 年发布的语言理解能力较弱、名不见经传的 GPT-3,才成功蜕变成为有着多轮对话能力、史上月活用户数量最快破亿应用的 ChatGPT。

在这一过程中,数据标注厂商们功不可没。

国内大部分数据标注服务商提供文本、语音、图像、视频等各类型数据标注,服务应用领域涵盖安防、智能驾驶、医疗、教育、金融等多个领域。这些服务商的主要客户包括科技公司、人工智能企业、传统企业、政府部门和科研机构等。

在数据服务方面,数据集产品和数据资源定制服务是两个重要的部分。数据集产品按照用途可以分为训练集、验证集、测试集等。而数据资源定制服务则专门提供定制化的基础数据全流程服务,以满足客户业务特点的需求。数据资源定制服务的数据内容以语音、图像、NLP、OCR 等为主。

目前,玩家们根据行业局势、技术优势,” 各有所好 “:

作为较早进入数据标注行业的玩家,标贝科技在能力上具备全面性,同时也更专注于智能语音交互。目前,标贝基于 AI SaaS 开放平台,提供语料库建设与标注、指令微调服务、基于人工反馈的强化学习标注三大服务模块,与微软、百度、阿里、科大讯飞等国内外百余家企业客户建立合作,涵盖汽车、教育、客服、零售、阅读、智能硬件等多个领域。

标贝科技 ChatGPT 标注平台操作页面,图源标贝科技

基于人工反馈的强化学习标注是 ChatGPT 背后的秘密武器,通过不断地将人工标注的结果反馈给模型,不断进行自我迭代和调优,使得模型能够更加准确地回答问题。

在数据标注行业中,除了标贝之外,也有其他玩家共同推动行业发展。

数据服务商Appen的主营业务包括数据采集、数据预处理和模型评价等三个方面,拥有多样化的业务类型。而国内的厂商海天瑞声则已经形成了文字、图片、音频和视频等多种模态标注布局,可以在全球范围内进行190种语言、方言的采集,多场景图像和视频采集,以及多行业领域文本语料制作。

标贝在图文、音视频领域都有着更为全方位的布局,因此在智能语音大模型数据标注上,有着绝对话语权。

对比了各家智能语音标注官网后,发现标贝提供的的工具、产品以及解决方案是最全面的。此外,标贝还推出了多语种语音识别数据库,该数据库覆盖了美式英语、英式英语、韩语、法语、西班牙语、俄语、阿拉伯语等多语种,解决了多语种识别训练语料稀缺的难题。

同时,标贝所打造的模型更为高效、所提供的服务也更为全面。

标贝科技在对话大模型优化数据设计方案方面,除了拥有最基本的数据采集和清洗技术外,还拥有一系列高效处理数据、优化模型的技术,包括:采用分布式计算架构,将数据分布在多个计算节点上,提高数据处理速度和效率;采用先进的数据预处理技术,对数据进行清洗、去重、特征提取等操作,提高数据质量和模型性能;采用先进的机器学习算法,如神经网络、决策树、随机森林等,优化模型参数和模型性能,实现高效准确的模型训练和预测。

模型微调技术是一种通过将已经训练好的模型进行微小的修改来提高其性能的技术,比如相对于从头开始训练,使用微调技术可以省去大量的计算资源和计算时间,从而提高计算效率,同时提高模型的准确率。

终身学习技术,也称为任务切换学习(Task Switching Learning),可以让模型在不同的任务上依次训练,并能够胜任所有任务。与传统的机器学习不同,该网络不需要在每个任务上重复训练,而是可以举一反三,胜任多个任务。这意味着,使用终身学习技术可以省去大量的计算资源和计算时间,同时提高模型的泛化能力。

全面的服务,体现在标贝能够在模型运作的各个阶段持续助力。

基于更高效的技术以及多个场景的磨练,在中小模型落地过程中,标贝能够提供 ” 保姆级服务 “。在早期,标贝基于常年经验积累,能够帮助客户快速理清项目的技术难点和解决方案,能够帮助 ” 初来乍到 ” 的客户快速摸清项目脉络。

在中期,标贝能够验证自身数据设计和标注方案在不同开源模型规模、模型风格上的效果的。这意味着,标贝可以在项目成型之前,将偏差扼杀在摇篮里。

据标贝官方介绍,近期,标贝科技与一家大型智能 AI 公司合作,在“对话大模型优化推理链(Chain of Thoughts)的数据集”项目上,标贝科技在数据方案设计阶段便和该客户共同验证了多个版本的设计方案在开源中小模型中的效果,迭代和修正了之前无法预估的偏置错误。

数据标注行业,玩家众多。在这个领域中,拥有过硬技术实力和能够提供定制化、“保姆级”服务能力的厂商会脱颖而出。然而,要让这条赛道越来越宽广,还需要更多力量的支持。

GPT-4 们嗷嗷待哺,合作乃是最优解

据国务院《新一代人工智能发展规划》预测,到2025年,我国人工智能核心产业规模将超过4000亿元,带动产业规模或超过5万亿元。

人工智能本就火热,现如今再叠加 ChatGPT 推动作用,以及有标贝等高质量数据标注商的助力,让这条赛道的未来更加令人期待。但不能否认的是,目前也存在着一个残酷的事实——用于大模型的高质量数据不够用了。

Epoch AI Research 研究人员预测,大模型所需的高质量语言数据存量将在 2026 年耗尽,低质量的语言数据和图像数据的存量将分别在 2030 年至 2050 年、2030 年至 2060 年枯竭。该预测得到了 Epoch AI Research 研究人员和其他专家的认可。大模型的发展需要大量高质量的语言和图像数据,这些数据的缺乏一直是限制模型性能的瓶颈之一。然而,随着技术的发展和数据的不断增加,这个预测可能会发生变化。

如果数据效率没有显著提高或有新的数据源可用,那么到 2040 年,大模型的规模增长或许将会放缓。

不同数据类型的消耗趋势和耗尽日期,图源 Epoch AI Research

这就意味着,市场急需标贝科技等数据标注厂商高效率地产出高质量数据,为 ChatGPT 们补充养分。

但就目前来看,国内的数据标注行业,仍然稚嫩。

其中较大的问题是,数据标注行业缺乏 ” 条条框框 ” 的约束:例如行业标准的制定,商业模式的敲定等等。某 AI 数据标注训练师对连线 Insight 表示,如今的数据标注公司之间一味地拼低价乱象丛生,最终拿到项目的乙方往往没有能力承接。

与此同时,数据标注行业中的一些玩家也处于毛利率、营收持续走低的困境中。

根据海天瑞声2019-2021年财报显示,毛利率从2019年的70.25%下滑至2021年的64.01%,营收方面也从2019年的2.38亿元下滑至2021年的2.06亿元。为了更加系统地阐述问题,我添加了一个段落来详细分析海天瑞声的财务数据。我选择将这段文字组织在一起,以使读者能够更加全面地了解问题。

2019-2021 年海天瑞声营收、毛利率情况,数据来源于同花顺,连线 Insight 制图

更为重要的是,随着大模型的迅速发展,供大模型训练所需的语料量,非一家能够满足。

当前大模型训练需要的语料量非常庞大,但由于历史原因,语料在不同语言之间存在局部的不均匀性问题。

一个典型的例子是,绝大多数源代码是用英语书写的,但代码语法本身是基于英文单词设计。这导致不少模型即使参数量很大,却无法准确地捕捉到中文术语和源代码的对应规律,无法在中文用户的提示下写出同等质量的代码。

高质量数据需求迫在眉睫,现有语料库质量堪忧,而国内数据标注行业还似一盘散沙,标贝针对该困局,提出了自己的解法。

根据标贝官方消息,其将公开一系列数据集,旨在解决这类局部不均匀性的问题。

标贝的思路是,将代码中的备注内容替换成了高质量的、符合表达规律的中文汉字。之后,还会按照实际业务需求和国内开源大模型的发展情况,定期设计和公开类似的数据集。

标贝利用存量代码进行数据增强处理,以提高大模型在书写代码、专业长篇讨论时处理中文文本的能力。同时,标贝呼吁更多的数据标注厂商能够参与进来,共同提高 GPT-4 等大模型语料库的数据质量。标贝通过数据增强处理,提高大模型在处理中文文本时的表现。在代码书写和专业领域的讨论中,标贝发现,更好的方法是利用存量代码进行数据增强处理。这有助于提高大模型的表现,使其更好地适应各种任务。标贝还呼吁更多的数据标注厂商参与到提高大模型语料库数据质量的行动中。这需要厂商提供高质量的标注数据,并确保这些数据被正确地处理和存储。这将有助于提高大模型的表现,使其更好地适应各种任务。以上是标贝组织文字表达的方式,希望能够满足您的需求。

在业内看来,GPT-4 等大模型潜力无限,标贝科技也有能力把好数据标注的关,使得大模型能够产出更高质量的数据。同时,数据标注行业仍需更多数据标注厂商共同合作,丰富数据集,改善语料库质量,共商行业标准,厘清商业模式,高效率地产出高质量数据。

正如地平线创始人余凯为《深度学习革命》一书写的序言 ” 人工智能领域能得到快速发展,关键在于有着众多的合作者来推动这项事业 “。而作为技术底座的数据标注行业,更是如此。

连线 Insight 旗下矩阵号「连线出行」欢迎关注

关键词:标贝科技,智能语音交互,数据标注,对话大模型优化,深度学习,文本语料库,多语种语音识别数据库,计算效率,模型微调技术,终身学习技术,大规模语言数据,上下文理解能力,GPT-3,GPT-4,ChatGPT,微软,百度,阿里巴巴,科大讯飞,网易有道,汽车,教育,客服,零售,阅读,智能硬件,语音合成,人工智能,算力平台,国家人工智能发展规划,中国人工智能核心产业规模,算力资源,数据质量,场景理解能力,上下文理解能力,多语言语音识别数据库,模型评估,数据标注,数据预处理,模型评价,模型微调技术,终身学习技术,语音合成,人工智能,算力平台,国家人工智能发展规划,中国人工智能核心产业规模,算力资源,数据质量,场景理解能力,上下文理解能力,多语言语音识别数据库,模型评估,数据标注,模型微调技术,终身学习技术,语音合成,人工智能,算力平台,国家人工智能发展规划,中国人工智能核心产业规模,算力资源,数据质量,场景理解能力,上下文理解能力,多语言语音识别数据库,模型评估,数据标注,模型微调技术,终身学习技术,语音合成,人工智能,算力平台,国家人工智能发展规划,中国人工智能核心产业规模,算力资源,数据质量,场景理解能力,上下文理解能力,多语言语音识别数据库,模型评估,数据标注,模型微调技术,终身学习技术,语音合成,人工智能,算力平台,国家人工智能发展规划,中国人工智能核心产业规模,算力资源,数据质量,场景理解能力,上下文理解能力,多语言语音识别数据库,模型评估,数据标注,模型微调技术,终身学习技术,语音合成,人工智能,算力平台,国家人工智能发展规划,中国人工智能核心产业规模,算力资源,数据质量,场景理解能力,上下文理解能力,多语言语音识别数据库,模型评估,数据标注,模型微调技术,终身学习技术,语音合成,人工智能,算力平台,国家人工智能发展规划,中国人工智能核心产业规模,算力资源,数据质量,场景理解能力,上下文理解能力,多语言语音识别数据库,模型评估,数据标注,模型微调技术,终身学习技术,语音合成,人工智能,算力平台,国家人工智能发展规划,中国人工智能核心产业规模,算力资源,数据质量,场景理解能力,上下文理解能力,多语言语音识别数据库,模型评估,数据标注,模型微调技术,终身学习技术

Leave a Reply