目录

GPT-1.0、GPT-2.0、GPT-3.0参数对比

以下是 GPT-1.0、GPT-2.0、GPT-3.0 的模型参数对比表格:

模型 GPT-1.0 GPT-2.0 GPT-3.0
参数数量 117M 1.5B 175B
层数 12 层 12 - 48 层 96 层
嵌入维度 768 768 - 1600 12,288
注意力头数 12 12 - 25 96
上下文长度 512 1024 2048
词汇表大小 约 40,000 50,000 50,000
训练数据 BooksCorpus (约 5GB) WebText (约 40GB) 多种来源 (570GB)
显著特性 提出"预训练+微调"框架 支持多任务学习和长文本生成 强大的少样本和零样本学习能力
本文是转载文章,点击查看原文
如有侵权,请联系 xyy@jishuzhan.net 删除
相关推荐
x-cmd1 分钟前
[250401] OpenAI 向免费用户开放 GPT-4o 图像生成功能 | Neovim 0.11 新特性解读
人工智能·gpt·文生图·openai·命令行·neovim
开始学AI2 小时前
【Windows+Cursor】从0到1配置Arxiv MCP Server,实现论文自主查询、下载、分析、综述生成
语言模型·大模型·ai agent·mcp
Moutai码农3 小时前
大模型-提示词(Prompt)技巧
人工智能·语言模型·prompt
Moutai码农3 小时前
大模型-提示词(Prompt)最佳实践
人工智能·语言模型·prompt
墨绿色的摆渡人1 天前
用 pytorch 从零开始创建大语言模型(三):编码注意力机制
人工智能·pytorch·语言模型
Toky丶1 天前
【文献阅读】Vision-Language Models for Vision Tasks: A Survey
人工智能·语言模型·自然语言处理
硅谷秋水1 天前
大语言模型智体的综述:方法论、应用和挑战(下)
人工智能·深度学习·机器学习·语言模型·自然语言处理
TGITCIC1 天前
BERT与Transformer到底选哪个-下部
人工智能·gpt·大模型·aigc·bert·transformer
新加坡内哥谈技术1 天前
大型语言模型Claude的“思维模式”最近被公开解剖
人工智能·语言模型·自然语言处理
在下_诸葛2 天前
DeepSeek的API调用 | 结合DeepSeek API文档 | Python环境 | 对话补全(二)
人工智能·python·gpt·prompt·aigc