GPT-1.0、GPT-2.0、GPT-3.0参数对比

以下是 GPT-1.0、GPT-2.0、GPT-3.0 的模型参数对比表格:

模型 GPT-1.0 GPT-2.0 GPT-3.0
参数数量 117M 1.5B 175B
层数 12 层 12 - 48 层 96 层
嵌入维度 768 768 - 1600 12,288
注意力头数 12 12 - 25 96
上下文长度 512 1024 2048
词汇表大小 约 40,000 50,000 50,000
训练数据 BooksCorpus (约 5GB) WebText (约 40GB) 多种来源 (570GB)
显著特性 提出"预训练+微调"框架 支持多任务学习和长文本生成 强大的少样本和零样本学习能力
相关推荐
大模型任我行4 分钟前
电信:Agent记忆管理决策理论框架DAM
人工智能·语言模型·自然语言处理·论文笔记
SmartBrain1 小时前
解读:《华为变革法:打造可持续进步的组织》
大数据·人工智能·华为·语言模型
renhongxia11 小时前
一个多智能体Text2SQL框架,使用小语言模型和执行反馈
人工智能·语言模型·自然语言处理
Kakaxiii1 小时前
【2025.6 Nature】Large language models for disease diagnosis: a scoping review
人工智能·语言模型·自然语言处理
极客BIM工作室2 小时前
AI导读AI论文: FinGPT: Open-Source Financial Large Language Models
人工智能·语言模型·自然语言处理
算法狗22 小时前
LiveTalk:实时交互的视频生成系统论文分享
语言模型
喜欢吃豆12 小时前
OpenAI Realtime API 深度技术架构与实现指南——如何实现AI实时通话
人工智能·语言模型·架构·大模型
牛奶咖啡.85414 小时前
基于Llama-Factory/Qwen2.5-1.5b自定义数据集LoRA微调实战【PPO/RLHF/训练/评估】
语言模型·llm·llama·rl·ppo
蹦蹦跳跳真可爱58917 小时前
Python----大模型(GPT-2模型训练,预测)
开发语言·人工智能·pytorch·python·gpt·深度学习·embedding
阿正的梦工坊21 小时前
Rubicon论文数据部分详解:从Rubric设计到RL Pipeline的全流程
人工智能·深度学习·机器学习·语言模型·自然语言处理