GPT理论 - 技术栈

GPT理论

Hiweir ·2024-09-28 9:32

1.GPT发展

Transformer是一个用作翻译任务的模型，谷歌出品。

GPT全称 lmproving Language Understanding by Generative Pre-Training，用预训练语言理解模型。OPENAI出品。

BERT全称Pre-training of Deep BidirectionalTransformers for Language Understanding，双向预训练语言理解模型。谷歌出品。GPT与BERT都是基于Transformer的模型结构。

BERT在学术界比GPT要火很多，BERT论文引用量是58.9K。GPTI.,2.3加起来的论文引用量是17.7K。(截至2023年2月10日)

GPTI，2，3本质没有区别,仅是模型参数的数量越来越多。

GPT3.5是GPT3在不同任务上微调之后的综合模型。

ChatGPT则是利用GPT系列模型封装的智能聊天Al应用。

2.GPT和BERT的区别

模型结构:

GPT是一种单向的 Transformer模型，只考虑一个词的左侧上下文。

BERT是一种双向的Transformer模型，同时处理一个词的左侧和右侧的上下文。

预训练任务:

GPT的预训练任务是Language Modeling，它更注重语言生成。(简单理解，就是文本生成，如写作，写歌词等)

BERT的预训练任务是Masked Language Modeling 和Next Sentence Prediction，它更注重语言理解和关系推断。(简单理解，就是完型填空，与预测B句子是否在A句子后面这两个任务联合训练。)

应用领域:

GPT则更专注于语言生成，如文本生成、对话生成等。

BERT的应用领域更广泛，可以用于命名实体识别、问答系统、句子相似度等任务。

模型参数量对比

BERT-base就是故意做成GPT的大小从而与之比较,结果效果上完胜。

GPT2代开始将模型做大，BERT便不再与GPT竞争。

GPT半开源，BERT全开源。这意味着，做产品时可以把BERT模型部署在自己的服务器上从而脱离其母公司，而GPT不可以。

GPT目前有API可调用，BERT没有。这意味着对于普通程序员而言，基于GPT做产品的门槛远低于BERT

GPT的微调不是真正的微调,而是few-shot。

3.微调和Few-Shot

微调

优势:训练效果与普通模型训练没有区别。预训练模型的存在相当于为此次训练做了大量的准备工作。

劣势:所需算力与数据量与普通模型训练没有区别。

Few-Shot

优势:训练省力，计算量小,不需要太多数据。

劣势:容易过拟合。很考验预训练模型的泛化能力。