01 ChatGPT在做的事情
02 预训练(Pre-train)
ChatGPT
G-Generative
P-Pre-trained
T-Transformer
GPT3 ----> InstructGPT(经过预训练的GPT3)
生成式学习的两种策略
我们在使用ChatGPT的时候会注意到,网站上的回答几乎是一个字一个字给出来的,这里就是生成式学习的两种策略:
"逐个击破"(文字)与"一次到位"(影像)
三种结构数据:文本(由token构成)、影像(像素点)、语音(采样频率)
- 中文的token -----> 字
- 英文的token -----> word piece,如unbreakable ----> un break able
Finetuning 与 Prompting
Adapter,不修改模型本身参数,插入一个额外的模组
上图包括了几种Adapter:Bitfit、Houlsby、AdapterBias、Prefix-tuning、LoRA
思维链
Chain of Thought(COT) Prompting
思维链可以大大提高模型的准确率
上图是在要求大语言模型按步骤输出答案和直接要求其输出答案的准确率区别。
03 大模型+大资料
大模型的顿悟
在某个参数量之前,增加参数量不会提高模型的正确率,当提高参数规模到一定程度,会出现准确率突然变高的情况(如下图)
同理,也只有在参数量达到一定程度的时候,思维链和微调才能起作用,如下图:
模型是否知道自己在胡说八道,在参数量足够大的时候,模型才拥有这个能力,如下图:
模型与资料的平衡
足够大的时候,模型才拥有这个能力,如下图:
[外链图片转存中...(img-MTYfwvWJ-1697377074486)]