GPT-1.0、GPT-2.0、GPT-3.0参数对比

以下是 GPT-1.0、GPT-2.0、GPT-3.0 的模型参数对比表格:

模型 GPT-1.0 GPT-2.0 GPT-3.0
参数数量 117M 1.5B 175B
层数 12 层 12 - 48 层 96 层
嵌入维度 768 768 - 1600 12,288
注意力头数 12 12 - 25 96
上下文长度 512 1024 2048
词汇表大小 约 40,000 50,000 50,000
训练数据 BooksCorpus (约 5GB) WebText (约 40GB) 多种来源 (570GB)
显著特性 提出"预训练+微调"框架 支持多任务学习和长文本生成 强大的少样本和零样本学习能力
相关推荐
vlln5 小时前
【论文速读】递归语言模型 (Recursive Language Models): 将上下文作为环境的推理范式
人工智能·语言模型·自然语言处理
玄同76511 小时前
告别 AgentExecutor:LangChain v1.0+ Agent 模块深度迁移指南与实战全解析
人工智能·语言模型·自然语言处理·langchain·nlp·agent·智能体
阿杰学AI11 小时前
AI核心知识74——大语言模型之ReAct 范式(简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·aigc·agent·react范式
2501_9481201512 小时前
大语言模型与爬虫技术融合的智能数据采集系统
人工智能·爬虫·语言模型
DisonTangor12 小时前
美团龙猫开源LongCat-Flash-Lite
人工智能·语言模型·自然语言处理·开源·aigc
AI浩17 小时前
PaddleOCR-VL-1.5:迈向用于鲁棒真实场景文档解析的多任务9亿参数视觉语言模型
人工智能·语言模型·自然语言处理
小芳矶19 小时前
【langgraph+postgres】用于生产环境的langgraph短期记忆的存取(postgreSQL替代InMemorySaver)
数据库·postgresql·语言模型
阿杰学AI20 小时前
AI核心知识73——大语言模型之Shared Vector Space(简洁且通俗易懂版)
人工智能·机器学习·ai·语言模型·自然语言处理·aigc·共享向量空间
向量引擎小橙1 天前
Google 帝国的绝地反击:Gemini 3 深度硬核测评——GPT-5 的噩梦来了吗?
开发语言·人工智能·gpt·深度学习·机器学习
Loo国昌1 天前
【Transformer解析】第二阶段:深度解析Encoder、Decoder与Encoder-Decoder架构
人工智能·后端·深度学习·算法·语言模型·自然语言处理·transformer