大语言模型(3)--GPT-2

GPT-2(《Language Models are Unsupervised Multitask Learners》)是继GPT-1之后的第二个开源版本(考虑到技术滥用的担心只发布了mini版本),它的训练语料与参数比GPT-1多了一个数量级。正如题目,它是一个无监督、无领域知识调优的模型,然而在阅读理解、摘要生成、翻译、问答等方面可以超过多个领域下调优的已知模型。

模型

GPT-2是一个基于transformer的语言模型,在800万个网页上训练得到,它包含15亿参数。训练语料与参数数量都比GPT-1多了一个数量级。它仍使用GPT-1的模型,在此基础上做了少量调优:

  • layer norm前置到每个block的输入
  • 残差层参数使用层次N进行归一化(1/sqrt(N)
  • 词表扩大到5w+
  • 上下文词的数量从512->1024
  • batch size扩大到512

效果

GPT-2显示了很强的zero-shot能力,它的效果超过了多个基于领域语料(例如wikipedia/news/books等)训练的模型。如下图所示:

下面给出了一些问答的例子:

相关推荐
MARS_AI_2 小时前
云蝠智能 Voice Agent 落地展会邀约场景:重构会展行业的智能交互范式
人工智能·自然语言处理·重构·交互·语音识别·信息与通信
weixin_422456443 小时前
第N7周:调用Gensim库训练Word2Vec模型
人工智能·机器学习·word2vec
HuggingFace6 小时前
Hugging Face 开源机器人 Reachy Mini 开启预定
人工智能
夏末蝉未鸣016 小时前
python transformers库笔记(BertForTokenClassification类)
python·自然语言处理·transformer
企企通采购云平台7 小时前
「天元宠物」×企企通,加速数智化升级,“链”接萌宠消费新蓝海
大数据·人工智能·宠物
redreamSo7 小时前
AI 绘图效率神器:Mermaid Previewer Sidebar Chrome 插件
chrome·langchain·aigc
超级小忍7 小时前
Spring AI ETL Pipeline使用指南
人工智能·spring
张较瘦_7 小时前
[论文阅读] 人工智能 | 读懂Meta-Fair:让LLM摆脱偏见的自动化测试新方法
论文阅读·人工智能
墨风如雪8 小时前
惊了!国产代码大模型硬刚 GPT-4o,微软也来“蹭热度”?
aigc
巴伦是只猫8 小时前
【机器学习笔记 Ⅲ】4 特征选择
人工智能·笔记·机器学习