云素材PPT模板超市 ChatGPT与PPT 2023-08-05

文章UltraChat:高质量对话数据集的构建与应用

文章主题：机器之心报道,UltraChat,数据荒,ChatGPT

机器之心报道

机器之心编辑部

UltraChat 解决了数据荒的一大难题。

自 ChatGPT 推出以来，其热度持续升温，这充分说明了人们对其表现的关注和认可。然而，我们也不能忽视这些模型背后的巨大支持力量，它来自于强大的算力和海量的数据。正是这种支持，让这些模型能够展现出令人惊叹的性能，为我们提供了更智能、更高效的对话体验。

单就数据而言，高质量的数据至关重要，为此 OpenAI 对数据和标注工作下了很大力气。有多项研究表明，ChatGPT 是比人类更加可靠的数据标注者，如果开源社区可以获得 ChatGPT 等强大语言模型的大量对话数据，就可以训练出性能更好的对话模型。这一点羊驼系列模型 —— Alpaca、Vicuna、Koala —— 已经证明过。例如，Vicuna 使用从 ShareGPT 收集的用户共享数据对 LLaMA 模型进行指令微调，就复刻了 ChatGPT 九成功力。越来越多的证据表明，数据是训练强大语言模型的第一生产力。

ShareGPT 是一个致力于分享 ChatGPT 数据的平台，用户可以在此上传他们认为有趣的 ChatGPT 回答。尽管 ShareGPT 提供的数据是开放且丰富的，但其质量并不高，需要研究人员自行对这些数据进行整理和筛选。因此，一个高质量、覆盖面广泛的数据集对于对话模型的研发将起到事半功倍的作用。

为了构建一个超高质量的对对话数据集,最近一个名为UltraChat的项目采用了系统化方法。该项目的作者试图通过使用两个独立的ChatGPT Turbo API来模拟对话,从而生成多轮对话数据。这种方法的设计目的是为了确保数据的准确性和可靠性,以便更好地应用于各种对话生成任务中。

项目地址：https://github.com/thunlp/UltraChat

数据集地址：http://39.101.77.220/

对于您的查询，我建议您首先了解这个URL链接所代表的含义。根据我的分析，该链接似乎是一个用于数据集交互的入口。具体而言，它可能与Atlas项目有关，该项目旨在提供某种类型的地图服务。在这个项目中，有一个特定的数据集可能需要进行交互，其ID为0ce65783-c3a9-40b5-895d-384933f50081，而与之关联的另一个数据集的ID为a7b46301-022f-45d8-bbf4-98107eabdbac。如果您想进一步了解这些数据集，我建议您直接访问上述URL链接，以便更详细地了解它们的内容和用途。

这个项目的主要目标是创建一个开放、大型且多轮迭代的开源对话数据集，该数据集基于Turbo API，以便研究人员能够开发出拥有强大学习对话能力的通用语言模型。同时，考虑到隐私保护等因素，项目不会直接从互联网上获取数据作为提示。为确保数据的品质，研究者们在生成过程中使用了两个独立的ChatGPT Turbo API，其中一个模型充当用户的角色来生成问题或指令，而另一个模型则生成反馈。

在实际应用中，若简单地让 ChatGPT 根据一些初始对话和问题来生成内容，可能会导致话题过于集中、内容缺乏多样性等问题的出现，这进而可能影响到数据的丰富性。为了应对这一挑战，UltraChat 对对话数据覆盖的主题和任务类型进行了全面且系统的分类与设计，并在用户模型和回复模型上进行了精细的提示工程。该系统主要包括以下三个方面：

关于世界的问题（Questions about the World）：这部分对话来自于对现实世界中的概念、实体和对象相关的广泛询问。所涉及的主题涵盖科技、艺术、金融等多个领域。

写作与创作（Writing and Creation）：这部分对话数据着重于指示 AI 从头进行创作一个完整的文本材料，并在此基础上进行后续的提问或进一步指导以完善写作，撰写的材料内容类型包括文章、博客、诗歌、故事、戏剧，电子邮件等等。

对于现有资料的辅助改写（Writing and Creation）：该对话数据是基于现有资料生成的，指令包括但不限于改写、续写、翻译、归纳、推理等，涵盖主题同样非常多样。

这三部分数据覆盖了大部分用户对于 AI 模型的要求。同时，这三类数据也会面临着不同的挑战，为此需要不同的构造方法。

例如，第一部分的数据主要挑战在于如何在总量为几十万组对话中尽量广泛地涵盖人类社会中的常见知识，为此研究者从自动生成的主题和来源于 Wikidata 的实体两个方面进行了筛选和构造。

第二、三部分的挑战主要来自于如何模拟用户指令，并在后续对话中让用户模型的生成尽量多样化的同时又不偏离对话的最终目标（按照要求生成材料或改写材料），为此研究者对用户模型的输入提示进行了充分的设计和实验。在构造完成之后，作者还对数据进行了后处理以削弱幻觉问题。

目前，该项目已经发布了前两部分的数据，数据量为 124 万条，应该是目前开源社区内规模最大的相关数据集。内容包含在现实世界中丰富多彩的对话，最后一部分数据将在未来发布。

世界问题数据来源于 30 个具有代表性和多样性的元主题，如下图所示：

基于以上元主题，该项目生成了 1100 + 子主题用于数据构建；

对于每个子主题，最多生成 10 个具体问题；

然后使用 Turbo API 为 10 个问题中的每一个生成新的相关问题；

对于每个问题，如上所述迭代地使用两个模型生成 3~7 轮对话。

此外，该项目从维基数据中收集了最常用的 10000 个命名实体；使用 ChatGPT API 为每个实体生成 5 个元问题；对于每个元问题，生成 10 个更具体的问题和 20 个相关但一般的问题；采样 20w 个特定问题和 25w 个一般问题以及 5w 个元问题，并为每个问题生成了 3~7 轮对话。

接下来我们看一个具体的例子：

我们在 UltraChat 平台上测试了数据搜索效果。例如，输入「音乐（music）」，系统会自动搜索出 10000 组与音乐相关的 ChatGPT 对话数据，并且每组都是多轮对话

输入关键词「数学（math）」的搜索结果，有 3346 组多轮对话：

目前，UltraChat 涵盖的信息领域已经非常多，包括医疗、教育、运动、环保等多个话题。同时，笔者尝试使用开源的 LLaMa-7B 模型在 UltraChat 上进行监督的指令微调，发现仅仅训练 10000 步后就有非常可观的效果，一些例子如下：

世界知识：分别列出 10 个很好的中国和美国大学

想象问题：当时空旅行成为可能后，有什么可能的后果？

三段论：鲸鱼是鱼吗？

假设问题：证明成龙比李小龙更出色

总体来说，UltraChat 是一个高质量、范围广的 ChatGPT 对话数据集，可以和其它数据集结合，显著地提升开源对话模型的质量。目前 UltraChat 还只放出了英文版，但也会在未来放出中文版的数据。感兴趣的读者快去探索一下吧。

投稿或寻求报道：content@jiqizhixin.com