以下是 GPT-1.0、GPT-2.0、GPT-3.0 的模型参数对比表格:
模型 | GPT-1.0 | GPT-2.0 | GPT-3.0 |
---|---|---|---|
参数数量 | 117M | 1.5B | 175B |
层数 | 12 层 | 12 - 48 层 | 96 层 |
嵌入维度 | 768 | 768 - 1600 | 12,288 |
注意力头数 | 12 | 12 - 25 | 96 |
上下文长度 | 512 | 1024 | 2048 |
词汇表大小 | 约 40,000 | 50,000 | 50,000 |
训练数据 | BooksCorpus (约 5GB) | WebText (约 40GB) | 多种来源 (570GB) |
显著特性 | 提出"预训练+微调"框架 | 支持多任务学习和长文本生成 | 强大的少样本和零样本学习能力 |