「深度解析」ChatGPT2:无监督多任务学习的语言模型(2019)

论文总结

以下是我阅读完整篇论文做的个人总结,包含了ChatGPT-2文章的主要内容,可以仅看【论文总结】章节。

数据集

自制了一个网页爬虫,被抓取的网页部分来自于社交平台,这些网页由人工进行过滤。最终生成
WebText数据集

,包含45000000个链接。另一部分来自于新闻网站,数据截止2017年12月,数据总量达到8000000篇文章,总共有40GB的文本内容。文章还提到,包括wiki百科等文本也纳入训练数据集,由
全世界各地数百万人参与

来创建和清洗GPT-2训练所用的数据集。

输入表示

设计了一种
结合单词级表示和字节级表示的混合输入表示

。针对过去的单词级库去除大量重复单词,又引入字节级表示来提升泛化能力。

单词级表示具有先验优势,字节级表示具有泛化优势。

模型

针对GPT1进行了部分修改:

1.将层归一化移动到每个子块的输入。

2.在自注意块之后添加额外的层归一化。

3.改进了初始化方法(初始化时将残差层的权重按1/√N的倍数扩大,N是残差层数量)。

4.词典扩大,分词扩大,指令集扩大,批处理大小扩大。

5.GPT包含117000000参数,
GPT-2包含1542000000参数

实验

因为只训练一次,却想观察模型在各个细分领域的表现,因此所有实验都可归类为
零次学习(zero-shot)

测试项目 测试模型的哪方面能力 测试结果
儿童书籍 识别不同类型的词汇 ACC从85.7提升至93.3
LAMBADA测试 识别文本中长依赖的能力 PPL99.8降低至8.63
Winograd Schema Challenge 常识性推理 63.7%提升至70.7%
阅读理解 需要模型具有一定记忆能力 4项测试3项刷新历史记录
摘要 对新闻文章提取摘要的能力 与历史成绩持平
翻译 大模型自动学习的翻译能力 英译法较差,法译英达到基准水平
问答 模型对于似是而非问题回答正确的能力 准确度提升5.3倍
总结

GPT-2论文的核心内容,可以用一句话进行总结:那就是
在GPT模型的基础上,作者提升了模型大小和训练数据集大小,结果发现GPT-2可以自动适应并完成NLP不同领域的任务目标的学习

举个例子来说,我们同时给一个固定的语言模型输入日常对话文本和新闻报道文本的数据集,并且这个数据集足够大、模型足够大、训练时间足够长。则最终产出的模型将会拥有区分日常对话和新闻报道的不同场景的能力,不仅如此模型还将自动拥有一些新的能力,例如编写新闻摘要的能力。

这意味着大型语言模型具有很强的泛化能力,同时也意味着
大型语言模型将会具有潜在自主意识

。随后本文针对作者列举的几个独立领域,陈述了实验结果。

相比于GPT论文中只提到Large Dataset,GPT-2论文中开始出现LLM(Large Language Model)的描述。


论文原文解读

原论文地址:https://cdn.openai.com/better-language-models/language_models_are_uns

相关推荐
li星野1 分钟前
LLMLingua:用小型模型“剪枝”大语言模型提示词,让长文本不再昂贵
人工智能·python·学习·语言模型·剪枝
三行数学1 分钟前
AI4Math 综述:人工智能如何重塑数学研究
人工智能
MR.欻2 分钟前
ZLMediaKit 源码分析(四):RTP/RTCP 协议栈实现分析
c++·人工智能·vscode·ffmpeg·音视频
峥嵘life6 分钟前
Android getprop 属性限制详解:User 版本属性获取问题分析
android·开发语言·python·学习
人月神话-Lee7 分钟前
【图像处理】Core Image 与 GPU 渲染管线——让滤镜飞起来
图像处理·人工智能·ios·chatgpt·ai编程·swift·gpu
石工记8 分钟前
CTO如何落地AI?从0到1的实战路径
人工智能·python·django·flask·numpy·pandas·pyqt
星夜夏空9912 分钟前
FreeRTOS学习(5)——内存映射
开发语言·学习
云天AI实战派15 分钟前
跨境出海全流程实战:用 Medusa + Hyperswitch + ClickHouse 搭建落地页、支付订阅、客服工单与多语言 SEO 闭环
大数据·人工智能·clickhouse·独立开发·跨境出海·medusa
向量引擎16 分钟前
向量引擎技术文档给我的创作启发:AI搜索生态下的内容适配实践
人工智能·gpt·ai编程·ai写作·key
程序大视界19 分钟前
2026年AI大模型三足鼎立:ChatGPT、Claude、Gemini终极对比与选型指南
人工智能·chatgpt