GPT-1.0、GPT-2.0、GPT-3.0参数对比

以下是 GPT-1.0、GPT-2.0、GPT-3.0 的模型参数对比表格:

模型 GPT-1.0 GPT-2.0 GPT-3.0
参数数量 117M 1.5B 175B
层数 12 层 12 - 48 层 96 层
嵌入维度 768 768 - 1600 12,288
注意力头数 12 12 - 25 96
上下文长度 512 1024 2048
词汇表大小 约 40,000 50,000 50,000
训练数据 BooksCorpus (约 5GB) WebText (约 40GB) 多种来源 (570GB)
显著特性 提出"预训练+微调"框架 支持多任务学习和长文本生成 强大的少样本和零样本学习能力
相关推荐
LLM精进之路2 小时前
上海AI实验室突破扩散模型!GetMesh融合点云与三平面,重塑3D内容创作
人工智能·深度学习·机器学习·语言模型·transformer
时空无限7 小时前
大模型知识点之矩阵乘以向量
线性代数·语言模型·矩阵
时空无限7 小时前
为什么矩阵乘以向量要求矩阵列数等于向量维度
机器学习·语言模型·矩阵
youcans_8 小时前
【AGI使用教程】GPT-OSS 本地部署(2)
人工智能·gpt·大语言模型·模型部署·webui
AI前沿简报-ALLMHUB10 小时前
AI前沿简报20250825——腾讯、阿里IDE迎重大更新,字节跳动首次开源36B大语言模型,快手8B模型刷新记录,马斯克称xAI最大竞争对手是中国公司
人工智能·语言模型·自然语言处理
tzc_fly20 小时前
rbio1:以生物学世界模型为软验证器训练科学推理大语言模型
人工智能·语言模型·自然语言处理
有点不太正常1 天前
《Password Guessing Using Large Language Models》——论文阅读
人工智能·语言模型·自然语言处理·密码学
AIbase20241 天前
Gemini 2.5 Flash-Lite 与 GPT-5-mini:高性能低成本模型,如何选择?
前端·人工智能·gpt
什么都想学的阿超2 天前
【大语言模型 17】高效Transformer架构革命:Reformer、Linformer、Performer性能突破解析
语言模型·架构·transformer
*星星之火*2 天前
【GPT入门】第56课 大模型分布式训练的三种方式、模型层介绍及DeepSpeed ZeRO的支持
gpt