GPT-1.0、GPT-2.0、GPT-3.0参数对比

以下是 GPT-1.0、GPT-2.0、GPT-3.0 的模型参数对比表格:

模型 GPT-1.0 GPT-2.0 GPT-3.0
参数数量 117M 1.5B 175B
层数 12 层 12 - 48 层 96 层
嵌入维度 768 768 - 1600 12,288
注意力头数 12 12 - 25 96
上下文长度 512 1024 2048
词汇表大小 约 40,000 50,000 50,000
训练数据 BooksCorpus (约 5GB) WebText (约 40GB) 多种来源 (570GB)
显著特性 提出"预训练+微调"框架 支持多任务学习和长文本生成 强大的少样本和零样本学习能力
相关推荐
聚客AI3 小时前
PyTorch高阶技巧:构建非线性分类器与梯度优化全解析
人工智能·pytorch·深度学习·神经网络·语言模型·自然语言处理·transformer
摩尔线程6 小时前
推测解码算法在 MTT GPU 的应用实践
算法·语言模型·大模型·gpu算力·gpu·摩尔线程
西西阿西哥9 小时前
【人工智障生成日记1】从零开始训练本地小语言模型
人工智能·语言模型·自然语言处理
脚踏实地的大梦想家10 小时前
【ICL】上下文学习
语言模型·大模型·prompt·提示词·上下文学习·提示词工程·icl
正在走向自律13 小时前
探索Dify:开启大语言模型应用开发新时代
人工智能·语言模型·自然语言处理·llm·didy
_Tenk_13 小时前
Java SpringBoot 扣子CozeAI SseEmitter流式对话完整实战 打字机效果
java·spring boot·语言模型·ai编程·智能体·coze扣子
Panesle14 小时前
ten-vad:低延迟、轻量化且高性能的流式语音活动检测系统
人工智能·语言模型·ffmpeg·开源·音视频·语音识别
路人与大师1 天前
构建基于全面业务数据的大数据与大模型企业护城河战略
大数据·语言模型·策略模式
武子康1 天前
大语言模型 18 - MCP Model Context Protocol 基本项目 测试案例
数据库·redis·语言模型
Liii4031 天前
解决RAGFlow部署中镜像源拉取的问题
gpt-3·rag·ollama·ragflow部署