【大模型】GPT系列模型基础

前言:GPT整体上与transformer结构相似,但只用了decoder部分。

目录

  • [1. GPT](#1. GPT)
  • [2. GPT2](#2. GPT2)
  • [3. GPT3](#3. GPT3)
  • [4. 知识补充](#4. 知识补充)
    • [4.1 下游任务实现方式](#4.1 下游任务实现方式)
    • [4.2 sparse attention](#4.2 sparse attention)

1. GPT

  • 预训练:无监督,根据前k个词预测下一个词的概率。
  • 微调: 有监督,目标函数=有监督的目标函数+λ*无监督的目标函数。
  • 核心结构:主要由12个transformer的decoder组成,并且只用了mask multi-head attention

2. GPT2

与GPT1相比做了以下改进:

  • 在attention前做了Layer Norm,使得模型输入更稳定
  • 输入序列的最大长度从 512 扩充到 1024。
  • 使用预训练+zero-shot的方式,而不是预训练+有监督微调,zero-shot通过prompt实现。

3. GPT3

与GPT2相比做了以下优化:

  • zero-shot变few-shot
  • attention变为了sparse attention

4. 知识补充

4.1 下游任务实现方式

  • fine-tuning:预训练 + 训练样本计算loss更新梯度,然后预测。会更新模型参数
  • zero-shot:预训练 + task description + prompt,直接预测。不更新模型参数
  • one-shot:预训练 + task description + example + prompt,预测。不更新模型参数
  • few-shot :又称为in-context learning,预训练 + task description + examples + prompt,预测。不更新模型参数

4.2 sparse attention

  • dense attention :token之间两两计算注意力,时间复杂度为 O ( N 2 ) {O(N^2)} O(N2)
  • sparse attention :token只与其他token的一个子集计算注意力。对于某一个token,只计算和他相对距离小于k,以及距离为2k,3k...nk的token计算,时间复杂度为 O ( N ∗ l o g ( N ) ) {O(N*log(N))} O(N∗log(N))
相关推荐
再玩一会儿看代码1 小时前
2026 年 ChatGPT 套餐怎么选?Free、Go、Plus、Pro、Business、Enterprise 一次讲清楚
人工智能·gpt·chatgpt·golang·openai·codex
网安情报局1 小时前
GPT-5.5+GPT-Image-2国内使用指南:AI聚合大模型平台实测体验
人工智能·gpt·ai
向量引擎1 小时前
我用AI给自己搭了一套热点证据系统
人工智能·gpt·aigc·文心一言·ai编程·ai写作·agi
陈猪的杰咪2 小时前
DeepSeek V4 中转方案全解析 | Flash 成本仅为 GPT 的 1/90
java·人工智能·gpt·spring
lulu12165440782 小时前
OpenAI 如何用开源前端生态为 GPT-5.6 铺路? - 微元算力(weytoken)
java·前端·人工智能·python·gpt·开源·ai编程
圣殿骑士-Khtangc13 小时前
GPT-5.5 技术深度解析与企业级生产落地实战:从幻觉率下降到百万Token工程化
人工智能·gpt
DisonTangor13 小时前
谷歌开源首个扩散大语言模型——DiffusionGemma
人工智能·语言模型·自然语言处理·开源·aigc·transformer
财经资讯数据_灵砚智能15 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年6月10日
大数据·人工智能·python·ai·信息可视化·自然语言处理·灵砚智能
不大姐姐AI智能体15 小时前
实测教程:用 Codex 配合 HyperFrames,把公众号文章做成可渲染的讲解型视频
人工智能·经验分享·gpt·自动化·aigc
诺***帝15 小时前
GPT-Image-2多轮编辑功能完全教程:2026年从入门到精通
人工智能·gpt