GPT-1.0、GPT-2.0、GPT-3.0参数对比

以下是 GPT-1.0、GPT-2.0、GPT-3.0 的模型参数对比表格:

模型 GPT-1.0 GPT-2.0 GPT-3.0
参数数量 117M 1.5B 175B
层数 12 层 12 - 48 层 96 层
嵌入维度 768 768 - 1600 12,288
注意力头数 12 12 - 25 96
上下文长度 512 1024 2048
词汇表大小 约 40,000 50,000 50,000
训练数据 BooksCorpus (约 5GB) WebText (约 40GB) 多种来源 (570GB)
显著特性 提出"预训练+微调"框架 支持多任务学习和长文本生成 强大的少样本和零样本学习能力
相关推荐
尼罗河女娲4 小时前
深度剖析RLHF:语言模型“类人输出”的训练核心机制
人工智能·深度学习·语言模型
PLUS_WAVE4 小时前
CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning 学习笔记
学习·语言模型·大模型·cot·vlm·推理模型·reasoning
yc_234 小时前
KAG:通过知识增强生成提升专业领域的大型语言模型(二)
人工智能·语言模型·自然语言处理
崔高杰8 小时前
On the Biology of a Large Language Model——Claude团队的模型理解文章【论文阅读笔记】其一CLT与LLM知识推理
论文阅读·人工智能·笔记·语言模型·自然语言处理
Funny_AI_LAB8 小时前
大模型图像编辑那家强?
图像处理·计算机视觉·ai·语言模型
Jamence9 小时前
多模态大语言模型arxiv论文略读(四十四)
人工智能·语言模型·自然语言处理
艾醒(AiXing-w)9 小时前
探索大语言模型(LLM):自监督学习——从数据内在规律中解锁AI的“自学”密码
人工智能·学习·语言模型
硅谷秋水11 小时前
π0.5:带开放世界泛化的视觉-语言-动作模型
人工智能·机器学习·计算机视觉·语言模型
Tech Synapse12 小时前
打造企业级AI文案助手:GPT-J+Flask全栈开发实战
人工智能·gpt·flask
weixin_4352081613 小时前
图解模型并行框架
人工智能·算法·语言模型·自然语言处理·aigc