【大模型】GPT系列模型基础

前言:GPT整体上与transformer结构相似,但只用了decoder部分。

目录

  • [1. GPT](#1. GPT)
  • [2. GPT2](#2. GPT2)
  • [3. GPT3](#3. GPT3)
  • [4. 知识补充](#4. 知识补充)
    • [4.1 下游任务实现方式](#4.1 下游任务实现方式)
    • [4.2 sparse attention](#4.2 sparse attention)

1. GPT

  • 预训练:无监督,根据前k个词预测下一个词的概率。
  • 微调: 有监督,目标函数=有监督的目标函数+λ*无监督的目标函数。
  • 核心结构:主要由12个transformer的decoder组成,并且只用了mask multi-head attention

2. GPT2

与GPT1相比做了以下改进:

  • 在attention前做了Layer Norm,使得模型输入更稳定
  • 输入序列的最大长度从 512 扩充到 1024。
  • 使用预训练+zero-shot的方式,而不是预训练+有监督微调,zero-shot通过prompt实现。

3. GPT3

与GPT2相比做了以下优化:

  • zero-shot变few-shot
  • attention变为了sparse attention

4. 知识补充

4.1 下游任务实现方式

  • fine-tuning:预训练 + 训练样本计算loss更新梯度,然后预测。会更新模型参数
  • zero-shot:预训练 + task description + prompt,直接预测。不更新模型参数
  • one-shot:预训练 + task description + example + prompt,预测。不更新模型参数
  • few-shot :又称为in-context learning,预训练 + task description + examples + prompt,预测。不更新模型参数

4.2 sparse attention

  • dense attention :token之间两两计算注意力,时间复杂度为 O ( N 2 ) {O(N^2)} O(N2)
  • sparse attention :token只与其他token的一个子集计算注意力。对于某一个token,只计算和他相对距离小于k,以及距离为2k,3k...nk的token计算,时间复杂度为 O ( N ∗ l o g ( N ) ) {O(N*log(N))} O(N∗log(N))
相关推荐
一个处女座的程序猿2 小时前
LLMs之GPT:gpt-oss-120b/gpt-oss-20b的简介、安装和使用方法、案例应用之详细攻略
gpt·gpt-oss
数字游名Tomda3 小时前
OpenAI推出开源GPT-oss-120b与GPT-oss-20b突破性大模型,支持商用与灵活部署!
人工智能·经验分享·gpt
AI_gurubar4 小时前
OpenAI 开源 GPT-OSS:大型语言模型的开放时代正式来临!
gpt·语言模型·开源
GPUStack11 小时前
忘掉Ollama! 将GPT OSS私有部署推理性能提升100倍的部署教程
gpt·openai
win4r11 小时前
🚀Cursor CLI+GPT-5保姆级教程+编程能力测评!Cursor CLI零成本免费使用GPT-5!Claude Code的劲敌来了!从安装到实战演示
gpt·aigc·openai
Gyoku Mint12 小时前
自然语言处理×第四卷:文本特征与数据——她开始准备:每一次输入,都是为了更像你地说话
人工智能·pytorch·神经网络·语言模型·自然语言处理·数据分析·nlp
Ailerx14 小时前
OpenAI隆重推出开源大模型:GPT-OSS
gpt·语言模型·开源·大模型·github·开源协议
量子位15 小时前
GPT-5来了!人人都能免费用,最强大模型只需最傻瓜式使用
gpt·ai编程
数据知道15 小时前
机器翻译:语料库的定义与获取,及语料预处理
人工智能·自然语言处理·机器翻译
Leinwin16 小时前
OpenAI 开源模型 gpt-oss 正式上线微软 Foundry 平台
gpt·microsoft·开源