GPT-1.0、GPT-2.0、GPT-3.0参数对比

以下是 GPT-1.0、GPT-2.0、GPT-3.0 的模型参数对比表格:

模型 GPT-1.0 GPT-2.0 GPT-3.0
参数数量 117M 1.5B 175B
层数 12 层 12 - 48 层 96 层
嵌入维度 768 768 - 1600 12,288
注意力头数 12 12 - 25 96
上下文长度 512 1024 2048
词汇表大小 约 40,000 50,000 50,000
训练数据 BooksCorpus (约 5GB) WebText (约 40GB) 多种来源 (570GB)
显著特性 提出"预训练+微调"框架 支持多任务学习和长文本生成 强大的少样本和零样本学习能力
相关推荐
梦星辰.3 小时前
大语言模型训练中的显存占用与优化方法简述
人工智能·深度学习·语言模型
次旅行的库5 小时前
机器学习-多模态大模型(MLLM)
机器学习·语言模型
柯南小海盗6 小时前
大模型GPU选型与部署资源评估完全指南:从RTX 4090到H20,从vLLM到SGLang
语言模型·vllm·sglang
renhongxia16 小时前
学习如何聚合零样本大型语言模型代理以进行企业披露分类
学习·语言模型·分类
lifallen7 小时前
Agent plantask 的架构推导
人工智能·语言模型·架构
victory04317 小时前
karpathy 4种GPT仓库在做基础LLM研究情况下应该如何选择
gpt
程序媛小鱼7 小时前
InstructGPT:通过人类反馈训练语言模型以遵循指令(RLHF完整指南,小白也可轻松掌握)
人工智能·语言模型·自然语言处理
当交通遇上机器学习8 小时前
IEEEICDE2025 | TimeKD:融合大语言模型与知识蒸馏的时间序列预测方法
人工智能·深度学习·机器学习·计算机视觉·语言模型
pp起床9 小时前
Part01:大语言模型设置
人工智能·语言模型·自然语言处理