「深度解析」ChatGPT2:无监督多任务学习的语言模型(2019)

论文总结

以下是我阅读完整篇论文做的个人总结,包含了ChatGPT-2文章的主要内容,可以仅看【论文总结】章节。

数据集

自制了一个网页爬虫,被抓取的网页部分来自于社交平台,这些网页由人工进行过滤。最终生成
WebText数据集

,包含45000000个链接。另一部分来自于新闻网站,数据截止2017年12月,数据总量达到8000000篇文章,总共有40GB的文本内容。文章还提到,包括wiki百科等文本也纳入训练数据集,由
全世界各地数百万人参与

来创建和清洗GPT-2训练所用的数据集。

输入表示

设计了一种
结合单词级表示和字节级表示的混合输入表示

。针对过去的单词级库去除大量重复单词,又引入字节级表示来提升泛化能力。

单词级表示具有先验优势,字节级表示具有泛化优势。

模型

针对GPT1进行了部分修改:

1.将层归一化移动到每个子块的输入。

2.在自注意块之后添加额外的层归一化。

3.改进了初始化方法(初始化时将残差层的权重按1/√N的倍数扩大,N是残差层数量)。

4.词典扩大,分词扩大,指令集扩大,批处理大小扩大。

5.GPT包含117000000参数,
GPT-2包含1542000000参数

实验

因为只训练一次,却想观察模型在各个细分领域的表现,因此所有实验都可归类为
零次学习(zero-shot)

测试项目 测试模型的哪方面能力 测试结果
儿童书籍 识别不同类型的词汇 ACC从85.7提升至93.3
LAMBADA测试 识别文本中长依赖的能力 PPL99.8降低至8.63
Winograd Schema Challenge 常识性推理 63.7%提升至70.7%
阅读理解 需要模型具有一定记忆能力 4项测试3项刷新历史记录
摘要 对新闻文章提取摘要的能力 与历史成绩持平
翻译 大模型自动学习的翻译能力 英译法较差,法译英达到基准水平
问答 模型对于似是而非问题回答正确的能力 准确度提升5.3倍
总结

GPT-2论文的核心内容,可以用一句话进行总结:那就是
在GPT模型的基础上,作者提升了模型大小和训练数据集大小,结果发现GPT-2可以自动适应并完成NLP不同领域的任务目标的学习

举个例子来说,我们同时给一个固定的语言模型输入日常对话文本和新闻报道文本的数据集,并且这个数据集足够大、模型足够大、训练时间足够长。则最终产出的模型将会拥有区分日常对话和新闻报道的不同场景的能力,不仅如此模型还将自动拥有一些新的能力,例如编写新闻摘要的能力。

这意味着大型语言模型具有很强的泛化能力,同时也意味着
大型语言模型将会具有潜在自主意识

。随后本文针对作者列举的几个独立领域,陈述了实验结果。

相比于GPT论文中只提到Large Dataset,GPT-2论文中开始出现LLM(Large Language Model)的描述。


论文原文解读

原论文地址:https://cdn.openai.com/better-language-models/language_models_are_uns

相关推荐
守护者170几秒前
JAVA学习-练习试用Java实现“实现一个Hadoop程序,使用Hive进行复杂查询和数据筛查”
java·学习
程序员Linc10 分钟前
写给新人的深度学习扫盲贴:向量与矩阵
人工智能·深度学习·矩阵·向量
xcLeigh18 分钟前
OpenCV从零开始:30天掌握图像处理基础
图像处理·人工智能·python·opencv
果冻人工智能21 分钟前
如何有效应对 RAG 中的复杂查询?
人工智能
2305_7978820930 分钟前
AI识图小程序的功能框架设计
人工智能·微信小程序·小程序
吴梓穆30 分钟前
UE5学习笔记 FPS游戏制作35 使用.csv配置文件
笔记·学习·ue5
果冻人工智能32 分钟前
向量搜索中常见的8个错误(以及如何避免它们)
人工智能
虾球xz33 分钟前
游戏引擎学习第199天
学习·游戏引擎
碳基学AI37 分钟前
哈尔滨工业大学DeepSeek公开课:探索大模型原理、技术与应用从GPT到DeepSeek|附视频与讲义免费下载方法
大数据·人工智能·python·gpt·算法·语言模型·集成学习
补三补四40 分钟前
机器学习-聚类分析算法
人工智能·深度学习·算法·机器学习