大语言模型(3)--GPT-2

GPT-2(《Language Models are Unsupervised Multitask Learners》)是继GPT-1之后的第二个开源版本(考虑到技术滥用的担心只发布了mini版本),它的训练语料与参数比GPT-1多了一个数量级。正如题目,它是一个无监督、无领域知识调优的模型,然而在阅读理解、摘要生成、翻译、问答等方面可以超过多个领域下调优的已知模型。

模型

GPT-2是一个基于transformer的语言模型,在800万个网页上训练得到,它包含15亿参数。训练语料与参数数量都比GPT-1多了一个数量级。它仍使用GPT-1的模型,在此基础上做了少量调优:

  • layer norm前置到每个block的输入
  • 残差层参数使用层次N进行归一化(1/sqrt(N)
  • 词表扩大到5w+
  • 上下文词的数量从512->1024
  • batch size扩大到512

效果

GPT-2显示了很强的zero-shot能力,它的效果超过了多个基于领域语料(例如wikipedia/news/books等)训练的模型。如下图所示:

下面给出了一些问答的例子:

相关推荐
拓端研究室TRL5 分钟前
Python贝叶斯回归、强化学习分析医疗健康数据拟合截断删失数据与参数估计3实例
开发语言·人工智能·python·数据挖掘·回归
国科安芯19 分钟前
高安全等级车规芯片在星载控制终端上的应用
人工智能·嵌入式硬件·物联网·架构·汽车
Direct_Yang22 分钟前
如何使用 DeepSeek 帮助自己的工作?
人工智能
汪子熙1 小时前
使用 Trae 开发一个演示勾股定理的动画演示
前端·人工智能·trae
小白学C++.2 小时前
大模型论文:CRAMMING TRAINING A LANGUAGE MODEL ON ASINGLE GPU IN ONE DAY(效率提升)-final
人工智能·语言模型·自然语言处理
Encarta19932 小时前
【语音识别】vLLM 部署 Whisper 语音识别模型指南
人工智能·whisper·语音识别
AWS官方合作商2 小时前
AWS Bedrock:开启企业级生成式AI的钥匙【深度解析】
大数据·人工智能·aws
神经星星2 小时前
【vLLM 学习】API 客户端
数据库·人工智能·机器学习
星江月2 小时前
EchoMimic 音频驱动照片生成视频部署测试
人工智能·echomimic·语音生成视频
剑盾云安全专家2 小时前
AI制作PPT,如何轻松打造高效演示文稿
人工智能·科技·aigc·powerpoint·软件