「深度解析」ChatGPT2:无监督多任务学习的语言模型(2019)

论文总结

以下是我阅读完整篇论文做的个人总结,包含了ChatGPT-2文章的主要内容,可以仅看【论文总结】章节。

数据集

自制了一个网页爬虫,被抓取的网页部分来自于社交平台,这些网页由人工进行过滤。最终生成
WebText数据集

,包含45000000个链接。另一部分来自于新闻网站,数据截止2017年12月,数据总量达到8000000篇文章,总共有40GB的文本内容。文章还提到,包括wiki百科等文本也纳入训练数据集,由
全世界各地数百万人参与

来创建和清洗GPT-2训练所用的数据集。

输入表示

设计了一种
结合单词级表示和字节级表示的混合输入表示

。针对过去的单词级库去除大量重复单词,又引入字节级表示来提升泛化能力。

单词级表示具有先验优势,字节级表示具有泛化优势。

模型

针对GPT1进行了部分修改:

1.将层归一化移动到每个子块的输入。

2.在自注意块之后添加额外的层归一化。

3.改进了初始化方法(初始化时将残差层的权重按1/√N的倍数扩大,N是残差层数量)。

4.词典扩大,分词扩大,指令集扩大,批处理大小扩大。

5.GPT包含117000000参数,
GPT-2包含1542000000参数

实验

因为只训练一次,却想观察模型在各个细分领域的表现,因此所有实验都可归类为
零次学习(zero-shot)

测试项目 测试模型的哪方面能力 测试结果
儿童书籍 识别不同类型的词汇 ACC从85.7提升至93.3
LAMBADA测试 识别文本中长依赖的能力 PPL99.8降低至8.63
Winograd Schema Challenge 常识性推理 63.7%提升至70.7%
阅读理解 需要模型具有一定记忆能力 4项测试3项刷新历史记录
摘要 对新闻文章提取摘要的能力 与历史成绩持平
翻译 大模型自动学习的翻译能力 英译法较差,法译英达到基准水平
问答 模型对于似是而非问题回答正确的能力 准确度提升5.3倍
总结

GPT-2论文的核心内容,可以用一句话进行总结:那就是
在GPT模型的基础上,作者提升了模型大小和训练数据集大小,结果发现GPT-2可以自动适应并完成NLP不同领域的任务目标的学习

举个例子来说,我们同时给一个固定的语言模型输入日常对话文本和新闻报道文本的数据集,并且这个数据集足够大、模型足够大、训练时间足够长。则最终产出的模型将会拥有区分日常对话和新闻报道的不同场景的能力,不仅如此模型还将自动拥有一些新的能力,例如编写新闻摘要的能力。

这意味着大型语言模型具有很强的泛化能力,同时也意味着
大型语言模型将会具有潜在自主意识

。随后本文针对作者列举的几个独立领域,陈述了实验结果。

相比于GPT论文中只提到Large Dataset,GPT-2论文中开始出现LLM(Large Language Model)的描述。


论文原文解读

原论文地址:https://cdn.openai.com/better-language-models/language_models_are_uns

相关推荐
linzᅟᅠ5 分钟前
README
人工智能·python
小猴子下山12311 分钟前
2026年无锡细胞存储市场格局观察:四家企业的传承脉络与业务分野
大数据·人工智能·精选
Database_Cool_15 分钟前
数据库慢查询优化首选方案:阿里云 RDS 性能洞察+自动诊断
数据库·人工智能·阿里云
北邮刘老师23 分钟前
国标配套开源实现再升级!AIP智能体互联开源项目v2.1.0正式发布
人工智能·开源·大模型·智能体·智能体互联网
zhoupenghui16826 分钟前
【AI大模型应用开发】【项目实战】13.RAG智慧问答项目-(一)项目介绍&项目架构&项目环境配置
人工智能·docker·ai·milvus·rag·attu·rag智慧问答项目
神奇小汤圆35 分钟前
AI Coding 不只靠 Prompt:Agent 工程闭环如何接入 DevOps
人工智能
hongmai66688838 分钟前
ESP32-S2-MINI-2U-N4R2:一款为灵活部署而生的Wi-Fi MCU模组
人工智能·单片机·嵌入式硬件·物联网·智能家居
神奇小汤圆40 分钟前
AI Agent 替你写代码没问题,但这 3 类后端任务让它当场翻车
人工智能
lyy-独立开发者1 小时前
主动推理-人工海马
人工智能
云栖梦泽在1 小时前
Claude Code / Codex 使用卡顿怎么办?AI 编程 Agent 连接失败与网络排查思路
网络·人工智能·网络协议·chatgpt·性能优化