Language Models are Few-Shot Learners,GPT-3详细讲解


GPT的训练范式:预训练+Fine-Tuning

GPT2的训练范式:预训练+Prompt predict (zero-shot learning)

GPT3的训练范式:预训练+Prompt predict (few-shot learning)

GPT2的性能太差,新意高,但有效性低 -> GPT3

GPT-3的本质还是通过海量的参数学习海量的数据,然后依赖transformer强大的拟合能力使得模型能够收敛。

1.GPT-3结构

在Transformer的各层中交替使用密集注意力(dense attention)与局部带状稀疏注意力模式(locally banded sparse attention patterns),类似于稀疏Transformer(Sparse Transformer)。

Sparse Transforme允许我们处理更长更稀疏的输入序列。Sparse Transformer是一种旨在处理高维、稀疏和长序列数据的Transformer拓展版,由OpenAI团队在2019年提出。相比于传统的Transformer架构,Sparse Transformer通过在自注意力机制中引入稀疏性,减少了网络中计算的数量,从而可以处理更长的序列数据。在处理高维、稀疏数据时,Sparse Transformer可以避免对所有输入的位置进行计算,只计算与当前位置相关的位置,从而提高了计算效率。

2.评估方法

人看两三个例子就可以学会一件事了,给预训练好的语言模型一点样本,不finetune,语言模型就可以迅速学会下游的任务,相当于举几个例子告诉模型。

In-context learning (上下文学习) 一种新的范式,在不进行参数更新的情况下,只做预测,只在输入中加入示例就能让模型进行学习。给定几个任务示例和一个任务说明,模型通过理解任务本身对任务中的实例进行补全。

1、Few Shot Learning(FS):用自然语言告诉模型任务;对每个子任务,提供10~100个训练样本。

2、One-shot Learning(1S):用自然语言告诉模型任务,而后只给该任务提供1个样本。

3、Zero-shot learning(0S):用自然语言告诉模型任务,但一个样本都不给。

GPT3中的few-shot learning,只是在预测时候给几个例子,并不微调网络。

GPT-2用zero-shot去讲了multi-task Learning的故事

GPT-3使用meta-learning和in-context learning去讲故事

meta-learning元学习的核心思想在于通过少量的数据寻找一个合适的初始化范围,使得模型能够在有限的数据集上快速拟合,并获得不错的效果。

评估设置:

(1)随着few shot输入的上下文例子数量的增加,不同模型参数下的acc变化

(2)随着模型参数的增加,zero shot、one shot、few shot下的acc变化
3.训练数据
3.训练数据

训练中从给定数据集中提取的样例的比例。在训练过程中,采样的频次和数据集大小无关,而和数据集的重要程度相关。

数据处理方式
A .高质量参考语料库的相似度对CommonCrawl进行过滤

高质量的语料库例如WebText, Wikiedia, and web books corpus 作为正样例,将Common Crawl作为负样例训练了一个分类器,然后用这个分类器对原始Common Crawl中的样例进行打分,筛选出高质量的样例。
B . 对训练语料去重:在数据集内部和跨数据集之间执行模糊文档去重。基于MinHash算法计算文档相似度,并删除相似度高的文档。
C . 对训练语料中和测试集/验证集重叠的部分去重:清洗掉训练文档中与验证集和测试集中的样例有重叠的部分;

对于训练集中的文档如果和验证集以及测试集中的样例有13-gram的重叠,则删去该文档中重叠的13-gram以及周围的200个字节,并将该文档从该处分成片段,并删去小于200个字节的片段。对于片段数多于10的文档,则被整个删除。
D. 在训练数据中添加了几个高质量的数据集,包括WebText数据集的扩展版本,两个基于互联网的图书语料库(Books1和Books2)和英语Wikipedia。

4.GPT-3训练过程

1.GPT-3的batch size达到了320万,为什么要选择这么大的批大小呢?

(1)大模型相比于小模型更不容易过拟合,所以用更大的、噪音更少的Batch也不会带来太多负面影响;

(2)a.多台机器分布式并行计算,同数据量,batch size上去了,通讯量减少时间的优势>batch size增加导致梯度计算的时间复杂度增加量 b.减少梯度方差可以提高模型稳定性 c.工程经验

2.模型变大、batch size提升的时候,OpenAI选择的学习率反而下降了

模型参数量增加,高学习率可能导致优化过程不稳定(梯度爆炸等),降低学习率可以缓解。

batch size增大降低梯度估计的噪声(更接近真实梯度),但过高的学习率可能导致单步更新幅度过大,破坏模型的稳定性。

学习率下降核心逻辑:模型变大、batch size提升时,优先保障优化过程的稳定性和泛化性,而非单纯追求更新速度。这一权衡在大模型训练中尤其关键,因为训练成本极高,一旦优化失败代价巨大。

5.9大数据集任务

1.传统语言建模:完形填空与文本补全任务,预测特定词汇、完成句子/段落,或在多个文本补全选项中选择最佳答案。

2.闭卷问答(closed book QA)任务,要求模型利用参数中存储的知识回答通用领域问题;

3.语言翻译能力评估(重点关注单样本与少样本场景);

4.类Winograd Schema任务的表现测试;

5.涉及常识推理或问答的数据集;

6.阅读理解任务;

7.SuperGLUE基准测试套件;

8.自然语言推理(NLI)的初步探索;

9.专门设计的情境学习能力探针任务,重点测试即时推理、动态适应与开放式文本生成能力

6.实验结论

1.GPT-3生成能力较强,生成能力随着给出的样例数和模型的参数量而增加,生成的长新闻可以以假乱真,有一定的代码生成能力;

2.事实知识储备比较充足,科学知识储备欠缺,不能正确地用该类知识进行推理;

3.将其它语言翻译成英语的能力较强,该能力随着模型大小和样例数而增加,将英语翻译成其它语言的能力弱;

4.常识推理和精细阅读理解能力较弱,原因可能是因为GPT-3是单向语言模型,不能对文档进行回顾,比较,精读等;

5.在大多数任务上,给出足够的样例,GPT-3的能力超过了fine-tune后的主流模型的能力;

6.具有一些自主学习能力,能够简单处理没有见过的任务和识别一些简单的模式;

7.总的来说GPT-3知识储备多,生成能力强,已经能够理解人类语言并具有自主学习能力;

7.GPT-3模型的局限性 Limitations

In-Context Learning上下文学习,这个模存在缺陷:

(1)GPT-3的输入窗口长度是有限的,不可能无限的堆叠example的数量,即有限的输入窗口限制了我们利用海量数据的能力。

(2)每次做一次新的预测,模型都要从输入的中间抓取有用的信息;可是做不到把从上一个输入中抓取到的信息存起来,存在模型中,用到下一次输入里。

GPT-3模型的局限性 Limitations

1.长文本生成能力还是很弱,2048输入

2.基于物理等世界尝试的逻辑推理能力可能还不够。

3.很难摆脱数据集的分布情况,对于一些明显不在这个分布或者和这个分布有冲突的任务来说,GPT-3还是无能为力

4.每次做一次新的预测,模型都要从输入的中间抓取有用的信息;可是做不到把从上一个输入中抓取到的信息存起来,存在模型中,用到下一次输入里

这就是GPT-3明明早在2020年5月就已经用巨大参数取得了很好的效果,但是学术界用Few-shot做上下文学习的热度好像还是不那么高的原因

5.可能会输出有害的、有偏见的内容,和人类的价值观或者社会主义核心价值观不对齐

8.GPT-3这篇论文在预训练时代的意义是什么?

1.改变人机交互方式。以程序开发为例,在未来开发人员只需要定义需求,而AI将自动帮助开发人员完成编程,测试,部署等功能,整个开发周期大大缩短;

2.让AI像人类一样学习和思考;

3.随着计算能力变得愈发廉价,大模型越来越接近一个超级大脑,帮助人类完成各项任务。

4.改变了传统的预训练加微调的范式,转向训练大规模通用模型。引领了大规模语言模型的时代。

9.GPT-3是怎么进化成ChatGPT的

相关推荐
大数据追光猿2 小时前
Tree of Thought Prompting(思维树提示)
大数据·人工智能·深度学习·计算机视觉·语言模型
明晚十点睡2 小时前
解决diffusers加载stablediffusion模型,输入prompt总是报错token数超出clip最大长度限制
人工智能·深度学习·机器学习·计算机视觉·stable diffusion·prompt
訾博ZiBo2 小时前
AI日报 - 2025年3月19日
人工智能
神策数据3 小时前
神策数据接入 DeepSeek,AI 赋能数据分析与智能运营
人工智能·数据挖掘·数据分析
大模型铲屎官3 小时前
从零精通机器学习:线性回归入门
开发语言·人工智能·python·算法·机器学习·回归·线性回归
Zhouqi_Hua4 小时前
LLM论文笔记 25: Chain-of-Thought Reasoning without Prompting
论文阅读·人工智能·深度学习·机器学习·chatgpt
试剂界的爱马仕4 小时前
投资早报 3.14
人工智能·深度学习·算法·机器学习·区块链·ai写作
ConardLi4 小时前
发布第五天,我的开源项目突破 1.7 K Star!
前端·javascript·人工智能
蹦蹦跳跳真可爱5894 小时前
Python----计算机视觉处理(Opencv:图片颜色识别:RGB颜色空间,HSV颜色空间,掩膜)
人工智能·python·opencv·计算机视觉