GPT-1.0、GPT-2.0、GPT-3.0参数对比

以下是 GPT-1.0、GPT-2.0、GPT-3.0 的模型参数对比表格:

模型 GPT-1.0 GPT-2.0 GPT-3.0
参数数量 117M 1.5B 175B
层数 12 层 12 - 48 层 96 层
嵌入维度 768 768 - 1600 12,288
注意力头数 12 12 - 25 96
上下文长度 512 1024 2048
词汇表大小 约 40,000 50,000 50,000
训练数据 BooksCorpus (约 5GB) WebText (约 40GB) 多种来源 (570GB)
显著特性 提出"预训练+微调"框架 支持多任务学习和长文本生成 强大的少样本和零样本学习能力
相关推荐
lll上18 分钟前
三步对接gpt-5-pro!地表强AI模型实测
人工智能·gpt
喜欢吃豆22 分钟前
一份关于语言模型对齐的技术论述:从基于PPO的RLHF到直接偏好优化
人工智能·语言模型·自然语言处理·大模型·强化学习
聚梦小课堂3 小时前
用于大语言模型后训练阶段的新方法GVPO(Group Variance Policy Optimization)
人工智能·语言模型·后训练
DisonTangor8 小时前
Lumina-DiMOO:用于多模态生成与理解的全扩散大语言模型
人工智能·语言模型·自然语言处理·ai作画·aigc
七牛云行业应用8 小时前
实战GPT-5:用“XML三明治”和“完美循环”重构你的提示
xml·gpt·重构
强哥之神19 小时前
浅谈目前主流的LLM软件技术栈:Kubernetes + Ray + PyTorch + vLLM 的协同架构
人工智能·语言模型·自然语言处理·transformer·openai·ray
闲看云起21 小时前
Bert:从“读不懂上下文”的AI,到真正理解语言
论文阅读·人工智能·深度学习·语言模型·自然语言处理·bert
nueroamazing21 小时前
PPT-EA:PPT自动生成器
vue.js·python·语言模型·flask·大模型·项目·ppt
jerryinwuhan1 天前
基于大语言模型(LLM)的城市时间、空间与情感交织分析:面向智能城市的情感动态预测与空间优化
人工智能·语言模型·自然语言处理
闲看云起1 天前
论文阅读《LIMA:Less Is More for Alignment》
论文阅读·人工智能·语言模型·自然语言处理