云素材PPT模板超市 ChatGPT与PPT 2023-06-27

如何培养自己的领导力？如何培养自己的

这几天学习了B站上Andrej Karpathy的演讲，State of GPT，详细讲述了如何从训练一个基础模型开始到ChatGPT的过程，通俗易懂，内容也很精彩。特对视频的内容总结如下。

1.ChatGPT训练的四个阶段

一图胜千言，Andrej展示的PPT如下图。

（1）预训练（Pretraining），产出为基础模型（Base model），占据了整个训练过程时间的99%。这个阶段所需的GPU资源和时间数量级为，千张GPU、几个月的训练时长、花费几百万美元。以LLaMA-65B模型训练为例，使用了2048张A100 GPU、21天和花费了500万美元。

（2）有监督微调（Supervised Finetuning），产出为有监督微调（SFT model，Supervised Finetuning model）模型。这个阶段所需的GPU资源和时间数量级为，百卡GPU，几天的训练时长。

（3）奖励建模（Reward Modeling），产出为奖励模型（RM model）。这个阶段所需的GPU资源和时间数量级为，百卡GPU，几天的训练时长。需要注意的是该模型并不是像其它三个阶段的产出部署使用，而是用在用在第四个阶段中的模型训练过程中。

（4）强化学习（Reinforcement Learning），产出为强化学习模型（RL model）。这个阶段所需的GPU资源和时间数量级为，百卡GPU，几天的训练时长。

OpenAI讲的RLHF（Reinforcement Learning from Human Feedback）=奖励建模+强化学习。按照Andrej在演讲中提到的，RLHF模型在某些情况下并不是对基础模型的严格改进，相比基础模型，RLHF模型失去了一些信息熵，这意味着RLHF模型给出了更多的峰值结果。ChatGPT就是一个RLHF模型。

2.Tokenization

这个词一直不知怎么翻译比较好，翻译成“标记化”只能说还凑合。模型训练的输入是文本（Raw text），必须转换为整数才能输入模型训练，这个过程称之为标记化，典型的标记化算法是Byte Pair Encoding。基于Andrej的演讲，推测他们用到的词汇表大小是50,257 个标记（Tokens）。如下图所示。