GPT理论

1.GPT发展

  • Transformer是一个用作翻译任务的模型,谷歌出品。

  • GPT全称 lmproving Language Understanding by Generative Pre-Training,用预训练语言理解模型。OPENAI出品。

  • BERT全称Pre-training of Deep BidirectionalTransformers for Language Understanding,双向预训练语言理解模型。谷歌出品。GPT与BERT都是基于Transformer的模型结构。

  • BERT在学术界比GPT要火很多,BERT论文引用量是58.9K。GPTI.,2.3加起来的论文引用量是17.7K。(截至2023年2月10日)

  • GPTI,2,3本质没有区别,仅是模型参数的数量越来越多。

  • GPT3.5是GPT3在不同任务上微调之后的综合模型。

  • ChatGPT则是利用GPT系列模型封装的智能聊天Al应用。

2.GPT和BERT的区别

模型结构:

  • GPT是一种单向的 Transformer模型,只考虑一个词的左侧上下文。

  • BERT是一种双向的Transformer模型,同时处理一个词的左侧和右侧的上下文。

预训练任务:

  • GPT的预训练任务是Language Modeling,它更注重语言生成。(简单理解,就是文本生成,如写作,写歌词等)

  • BERT的预训练任务是Masked Language Modeling 和Next Sentence Prediction,它更注重语言理解和关系 推断。(简单理解,就是完型填空,与预测B句子是否在A句子后面这两个任务联合训练。)

应用领域:

  • GPT则更专注于语言生成,如文本生成、对话生成等。

  • BERT的应用领域更广泛,可以用于命名实体识别、问答系统、句子相似度等任务。

模型参数量对比

  • BERT-base就是故意做成GPT的大小从而与之比较,结果效果上完胜。

  • GPT2代开始将模型做大,BERT便不再与GPT竞争。

  1. GPT半开源,BERT全开源。这意味着,做产品时可以把BERT模型部署在自己的服务器上从而脱离其母公司,而GPT不可以。

  2. GPT目前有API可调用,BERT没有。这意味着对于普通程序员而言,基于GPT做产品的门槛远低于BERT

  3. GPT的微调不是真正的微调,而是few-shot。

3.微调和Few-Shot

微调

优势:训练效果与普通模型训练没有区别。预训练模型的存在相当于为此次训练做了大量的准备工作。

劣势:所需算力与数据量与普通模型训练没有区别。

Few-Shot

优势:训练省力,计算量小,不需要太多数据。

劣势:容易过拟合。很考验预训练模型的泛化能力。

相关推荐
小陈phd10 小时前
高级RAG策略学习(五)——llama_index实现上下文窗口增强检索RAG
人工智能
凯禾瑞华养老实训室11 小时前
人才教育导向下:老年生活照护实训室助力提升学生老年照护服务能力
人工智能
湫兮之风12 小时前
Opencv: cv::LUT()深入解析图像块快速查表变换
人工智能·opencv·计算机视觉
Christo313 小时前
TFS-2018《On the convergence of the sparse possibilistic c-means algorithm》
人工智能·算法·机器学习·数据挖掘
qq_5088234013 小时前
金融量化指标--2Alpha 阿尔法
大数据·人工智能
黑金IT13 小时前
`.cursorrules` 与 `.cursorcontext`:Cursor AI 编程助手时代下的“双轨配置”指南
人工智能
dlraba80214 小时前
基于 OpenCV 的信用卡数字识别:从原理到实现
人工智能·opencv·计算机视觉
IMER SIMPLE14 小时前
人工智能-python-深度学习-经典神经网络AlexNet
人工智能·python·深度学习
小憩-16 小时前
【机器学习】吴恩达机器学习笔记
人工智能·笔记·机器学习
却道天凉_好个秋16 小时前
深度学习(二):神经元与神经网络
人工智能·神经网络·计算机视觉·神经元