GPT-1 技术报告

关键词：

GLUE, NLI, Entailment, F1, PC, MC

GPT-1 是一个阶段实验报告, 文章类似博客形式发表，发表时注明该模型还在研发阶段。

原文《Improving Language Understanding by Generative Pre-Training, 2018》

link: https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

Transformer架构优势明显：能处理长程依赖，提高迁移性能，优于LSTM。其有以下两点趋势：

数据范式：
- 生成式（generative）：预测文本序列，用无标签数据预训练。
- 判别式（discriminative）：直接预测标签，需要标注数据，用于微调。
双阶段训练：
- 生成式预训练 (Pre-train)+ 判别式微调(Fine-tuning)是NLP任务的有效策略，可充分利用大量无标签文本。
- 任务无关的通用表示可迁移到多种下游任务 (Pre-train)，只需最小架构调整即可显著超越专门设计的判别式模型(Fine-tuning)。

2. 方法部分 (Framework)

2.1 损失函数

无监督预训练 (Unsupervised pre-training)
有监督微调 (Supervised fine-tuning)
改进微调，在微调时加上语言建模损失，作为辅助目标（auxiliary objective）
- 提高监督模型的泛化能力；
- 加速收敛。

阶段	目标	数据类型	核心思想	输出
预训练	最大化语言模型似然 (L_1)	无标签文本	学习通用语言表示	Transformer 解码器权重
微调	最大化监督目标 (L_2)	带标签任务	学习任务特定能力	分类或推理预测结果
联合目标	(L_3 = L_2 + λ\lambdaλ L_1)	有标签任务 + 辅助语言建模	稳定收敛，防止过拟合	改进泛化性能

常用两类损失函数

特性	Cross-Entropy	F1 Loss
优化目标	最大化单个样本的正确分类概率	最大化整体 Precision-Recall 平衡
类别不平衡	容易偏向多数类	对少数类更敏感
可微性	完全可微	需要 soft 近似处理
应用场景	大多数分类任务	类别严重不平衡，或想直接优化 F1-score 的任务

2.2 微调

NLP的下游任务可以归纳为分类任务，即双选/多选题，具体如下：

任务	"下一个逻辑单元" 的含义
分类任务	类别标签（text label 或特殊token）
蕴含/相似性	二分类或多分类, 关系标签包括（entailment-contradiction-neutral / similar / dissimilar）
问答	正确答案候选
语言建模	下一个词（自然语言token）

输出

任务类型	输入格式（示例）	输出内容	输出解释
1️⃣ 文本分类 (Text Classification)	`[<s>, text, </s>]`	类别标签的概率分布	模型最后一个 token 的表示 → 线性+softmax → 输出类别概率。例如情感分类输出 `[positive, negative]` 两类概率。
2️⃣ 文本蕴含 (Textual Entailment)	`[<s>, 前提(premise), $, 假设(hypothesis）, </s>]`	三类概率: `entailment （蕴含）/ contradiction（矛盾） / neutral（中立）`	模型输出一个分类概率分布，判断假设是否被前提蕴含。
3️⃣ 相似度任务 (Sentence Similarity)	两个输入顺序：`[<s>, s1, $, s2, </s>]` 与 `[<s>, s2, $, s1, </s>]`	相似度得分（实数或类别）	两个方向的输出 hidden 向量求和，再经线性层 → softmax（或回归值）。
4️⃣ 问答 / 常识推理 (QA / Commonsense Reasoning)	`[<s>, context, question, $, answer_k, </s>]` (每个候选答案独立输入)	候选答案分布	模型对每个 `[z;q;$;a_k]` 输出一个标量得分，经 softmax 得到"正确答案"。

模型输出结构

如图：

2.3 实验设置部分

Unsupervised pre-training
- 数据集：
  - 使用 BooksCorpus 数据集：包含 7000+ 未出版书籍，涵盖冒险、奇幻、爱情等多种体裁。
  - 特点：文本连续性强，有利于模型学习长程依赖。
  - 对比数据集：1B Word Benchmark（ELMo 使用）大小相近，但其句子打乱，无长程结构。
- 模型性能：在 BooksCorpus 上， token-level perplexity = 18.4。
Model specifications
- 架构：
  - 12 层 decoder-only Transformer，带 masked self-attention。
  - 隐藏层维度：768，注意力头数：12。
  - 前馈网络维度：3072。
- 训练参数：
  - 优化器：Adam，最大学习率 2.5e-4。
  - 学习率调度：前 2000 步线性升高，之后采用余弦衰减（cosine schedule）。
  - 训练周期：100 epochs，每批 64 个随机采样的 512-token 连续序列。
  - 正则化：LayerNorm 全局使用，权重初始化 N(0,0.02) 足够。
  - Dropout：残差、embedding、attention 均 0.1。
  - L2 正则化：非 bias/gain 权重 w=0.01。
  - 激活函数：GELU。
- 位置编码：学习位置 embedding（learned），替代 Transformer 原文的 sinusoidal 位置编码。
- 分词与文本预处理：
  - 使用 BPE，40,000 merges。
  - 使用 ftfy 清洗文本，标准化标点/空格。
  - 使用 spaCy tokenizer。
- Fine-tuning details
  - 超参数继承：除非特别说明，否则沿用预训练设置。
  - 额外Dropout：在分类头上加0.1的dropout。
  - 学习率：6.25×10⁻⁵（比预训练小，防止灾难性遗忘）。
  - batch size：32
  - 训练轮数：一般3个epoch就收敛。
  - 学习率调度：
    - 前0.2%的训练步骤warmup；
    - 线性下降（linear decay）。
  - 损失函数：任务相关（分类通常为cross-entropy）。

3. 实验 Experiments

实验涉及多任务类型数据, 具体如表1：

3.1 GLUE

GLUE（General Language Understanding Evaluation）是在 2018 年提出的多任务自然语言理解基准，目的是让模型学习到多任务的通用语言理解能力，并评测模型在多任务上的泛化能力，多任务类型包括：

自然语言推理（NLI）
句子相似度（Semantic Similarity）
文本蕴含（Entailment）
情感分类（Sentiment Classification）
可接受性判断（Acceptability Judgment）
语义等价（Paraphrase Detection）等。

原始 GLUE 论文（2018）中介绍的任务共 9 个主任务（部分任务包含多个子集），如下：

类型	数据集名称	简介
单句分类	CoLA (Corpus of Linguistic Acceptability)	判断句子语法是否可接受（binary）
	SST-2 (Stanford Sentiment Treebank)	判断影评句子的情感极性（positive / negative）
句子对分类	MRPC (Microsoft Research Paraphrase Corpus)	判断两句是否语义等价（paraphrase）
	QQP (Quora Question Pairs)	判断两句 Quora 问题是否意思相同（duplicate）
自然语言推理	MNLI (Multi-Genre NLI)	判断句子对间关系（entailment / contradiction / neutral）
	QNLI (Question NLI)	从 SQuAD 改造，用于判定答案句是否蕴含问题（entailment / not-entailment）
	RTE (Recognizing Textual Entailment)	整合 RTE1~RTE5，判断文本是否蕴含假设句
	WNLI (Winograd NLI)	基于 Winograd Schema，测试代词指代推理能力
语义相似度回归	STS-B (Semantic Textual Similarity Benchmark)	句对相似度评分（1~5）
自然语言推理多域验证	MNLI-m / MNLI-mm	分别代表 matched（同域）与 mismatched（异域）评测集

在Hugging Face Datasets中，将MNLI分为两个子集，并增加 AX集 (Analysis Set), 如图：

其中AX是一个人工构造的小规模评测集，大约 1100 个样本，由语言学专家人工编写，专门用来诊断模型在不同语言现象上的理解能力。

AX不计入 GLUE 总分（GLUE score），只用于分析模型的语言学行为和推理能力，分数一般在 20--50 之间。

3.1 NLI数据集

定义：给定一对句子 (T, H)，判断 T 是否能蕴含 H（T ⇒ H）

二分类：如果 T 为真，H 是否也必然为真？
三分类：若不为真，句子T,H的逻辑是对立关系(contradiction)，还是无关系(neutral)

NLI数据集包括

SNLI, MultiNLI, QNLI, RTE, SciTail

基本介绍如下：

任务	输入类型	标签类别	数据来源	任务重点
SNLI	(premise, hypothesis)	entail / neutral / contra	图像 caption	推理语义关系
MNLI	(premise, hypothesis)	entail / neutral / contra	多领域文本	泛化能力
RTE	(premise, hypothesis)	entail / not_entail	多任务融合小集	少样本
QNLI	(question, sentence)	entail / not_entail	Wikipedia QA 转换	语义匹配与问答逻辑
SciTail	(sentence1, sentence2)	entail / neutral	科学考试 QA 转换	科学推理

3.1.1 RTE

RTE （Recognizing Textual Entailment）是最早系统化定义"语义蕴含"任务的项目（始于 2005 年），由 PASCAL (Pattern Analysis, Statistical Modelling and Computational Learning) Recognizing Textual Entailment Challenge 发起。

RTE是早期 NLI 标准任务，数据少、领域广，无法通过大规模训练记忆，需靠语言理解泛化能力，考验语言理解的泛化能力。

RTE1--RTE5 是自然语言推理任务的演化轨迹：从最初的"句子级语义蕴含" → "跨句推理" → "文档更新检测"。

为后来 SNLI、MNLI、QNLI 等大规模 NLI 数据集奠定了定义、格式与评测标准:

届数	年份	规模	来源	新特征	难度
RTE-1	2005	800	新闻、QA、IE	定义任务	⭐
RTE-2	2006	800	QA、IE、IR	增加dev、标准化	⭐⭐
RTE-3	2007	800	QA、MT、IE	句子更长、标注更严	⭐⭐⭐
RTE-4	2008	1000	新闻、Wiki	文档级pilot任务	⭐⭐⭐⭐
RTE-5	2009	1200	新闻更新检测	跨文档更新推理	⭐⭐⭐⭐

子集	年份	来源	样本数
RTE1--RTE5	2005--2009	新闻、问答、信息抽取	各 800--1600
SICK (RTE-like)	2014	图片描述、句法转换	10k
GLUE 中 RTE	合并自 RTE1--RTE5 + SICK + SNLI 小样本	2.5k 训练样本

3.1.2 SNLI （Stanford Natural Language Inference Corpus）

SNLI 由斯坦福大学在 2015 年提出，核心目标是创建一个大规模、自然、语义多样的 NLI 数据集。

为了让句子语义自然，其选用图像描述数据集 Flickr30k 的文本标题（caption）作为前提句（premise）。

Flickr30k 数据基础：

项目	内容
数据集名称	Flickr30k
图片数量	31,783 张
每张图片的标题数	5 条 captions（由人工撰写）
总标题数（caption 数量）	约 31,783 × 5 ≈ 158,915 条

具体如下：

SNLI 的样本生成机制

步骤	内容
①	从 Flickr30k 数据集中选取数10万条图像描述（caption），如： → "A man is playing a guitar on stage."
②	将每条caption作为前提句 (premise)。
③	使用众包平台（Amazon Mechanical Turk, AMT）让人工标注者为每个前提句编写三种类型的假设句 (hypothesis )：必然为真（Entailment）--- 必然为假（Contradiction）--- 真假不定（Neutral）
④	收集标注者写出的句子，形成成对的文本样本（premise, hypothesis, label）。

每个前提句有 5个标注者标记 3个标签类型，即一个前提句可生成 15 个假设句，共150w句对。经过筛选、验证和清理后，最终得到约 57 万个高质量句对。

3.1.3 MultiNLI（Multi-Genre Natural Language Inference）

MNLI（MultiNLI）是 SNLI 的扩展版，它包含来自 10 种语体（genres）的英文文本，例如：

Fiction（小说）
Telephone speech（电话语音）
Government reports（政府文件）
Slate magazine（新闻评论）
Travel guides（旅游指南）等。

每个样本都是一个句子对（premise, hypothesis），任务是预测它们的关系：

entailment（蕴含） / contradiction（矛盾） / neutral（中立）。

MNLI包含：MNLI-m（matched）和 MNLI-mm（mismatched）:

名称	含义	举例	评估目的
MNLI-matched (MNLI-m)	同域测试集（matched）：测试数据来自与训练集相同的语体（genre）	如果模型在"fiction"语体上训练，那么测试样本也来自"fiction"等已见过的域	检查模型在熟悉领域中的泛化性能
MNLI-mismatched (MNLI-mm)	异域测试集（mismatched）：测试数据来自与训练集不同的语体	模型在"fiction"等上训练，但在"telephone speech"或"government reports"上测试	检查模型在未见领域（out-of-domain）的泛化能力

具体结构：

glue版本：

3.1.4 QNLI （Question NLI）

QNLI 是 GLUE Benchmark（2018）的核心八个子任务之一。由问答任务（SQuAD）改造成的自然语言推理（NLI）任务。

基本信息：

项目	内容
全名	Question-answering Natural Language Inference (QNLI)
来源	由 SQuAD v1.1 (Stanford Question Answering Dataset) 改造而来
任务类型	二分类 (Binary classification)
输入形式	(question, sentence) 对
输出标签	"entailment" / "not entailment"（是否能回答问题）
评测指标	Accuracy
所属类别	自然语言推理（NLI）类任务
GLUE 任务编号	通常排第 7 位

SQuAD v1.1

一个抽取式问答任务：

输入：一个文章段落 + 一个问题
输出：从文章中抽取出一个片段作为答案

例如：

复制代码

Paragraph: "The Eiffel Tower is located in Paris."
Question: "Where is the Eiffel Tower located?"
Answer: "in Paris."

转换方式

原 SQuAD 元素	QNLI 对应形式
Question	Premise / Sentence 1
Context Sentence	Hypothesis / Sentence 2
是否包含正确答案？	NLI 标签（entailment / not entailment）

如果该句子中包含回答问题所需的信息 → "entailment"；否则 → "not entailment"。

数据量

数据集	训练集	验证集	测试集
QNLI	≈ 105K	≈ 5.4K	≈ 5.4K

HF的格式

3.1.5 SciTail

SciTail 是由 AI2 的科学问答数据集（Science Question Answering Dataset）用脚本自动构造的。

构造过程
1. 从 science QA 数据集中选取问题及正确答案；
2. 将 question + correct answer 组合成 hypothesis；
3. 从包含该问题的相关文档（或支持证据）中选取句子作为 premise；
4. 若 premise 能支持 hypothesis → entailment；若不能 → neutral（注意：没有 contradiction 标签）。
数据特征

特征	说明
科学领域特化	全部语料来源于 science QA，测试知识推理
由 QA → NLI 转换	与 QNLI 类似，都是"句对化问答"任务
标签为二分类（entail / neutral）	没有 contradiction，语义判定更细腻
考察常识+科学知识	需要模型具有一定 factual & commonsense reasoning 能力

数据规模

集合	样本数
训练集	≈ 23K
验证集	≈ 1.3K
测试集	≈ 2.1K

数据样例

3.2 NLI任务评测

各数据集评测结果：

数据集	来源领域	特点	模型提升幅度
SNLI	图像标题	语义简单但结构规范	+0.6%
MNLI (MultiNLI)	多领域	演讲/小说/新闻/政府报告等覆盖广、难度高	+1.5%
QNLI (Question NLI)	Wikipedia	由问答任务转化为NLI	+5.8%
SciTail	科学考试	科学知识推理	+5%
RTE	新闻报道	传统小规模RTE任务，未使用多任务训练	56%（低于对比模型61.7%）

准确率结果如表2：

其中MNLI-m/mm 分别为 matched / mismatched（同域/异域）评估集

4. QA-知识问答

问答与常识推理（Question Answering & Commonsense Reasoning）包括Story Cloze, RACE。

测试模型的多句理解能力、长文本阅读理解能力与常识逻辑推理。

4.1 Story Cloze

常识推理 (commonsense reasoning) 的经典 benchmark。

每个样本是一个四句开头 + 两个候选结尾，选择一个更合理结尾(二选一)。

模型需要理解叙事逻辑 + 人类常识 + 情感合理性。示例：

复制代码

Context (前四句)
1. John went to the kitchen.
2. He saw a big cake on the table.
3. He was very hungry.
4. He picked up a knife.

Two possible endings:
* (A) He cut the cake and had a slice. ✅
* (B) He washed the knife and put it away. ❌

4.2 RACE

RACE (Reading Comprehension Dataset from Exams)，中国中高考英语题。

涉及长文本理解、多句推理、词汇消歧义与推测人物意图。

模型不仅要"找句子"，还要能"理解整篇文章结构与上下文逻辑"。

项目	内容
来源论文	Lai et al., "RACE: Large-scale ReAding Comprehension Dataset From Examinations" EMNLP 2017
数据来源	中国初高中英语考试题（middle & high school， 12 to 18 岁）
任务类型	Multi-choice reading comprehension（4选1，阅读理解）
规模	约 27,933 篇文章，97,687 个问题，约 280,000 个选项
评测指标	Accuracy（正确选项选择率）

三个子集

子集	名称	来源	难度	文章数 / 问题数	主要特点
RACE-m	Middle school subset	初中英语考试	⭐⭐（中等）	~6,409 篇 / 25,421 问题	句子短、选项易辨别、推理浅显
RACE-h	High school subset	高中英语考试	⭐⭐⭐⭐（困难）	~21,524 篇 / 72,266 问题	篇章长、题目更抽象、涉及推理与隐含信息
RACE	合集 (RACE-m + RACE-h)	全体	混合	27,933 篇 / 97,687 问题	综合性评测

4.3 测试性能

结果
- Story Cloze：86.5%，比前最佳（77.6%）提升 +8.9%
- RACE-m：62.9%，RACE-h：57.4%，整体 RACE：59.0%，总体提升+5%以上
结论
- GPT-1 的 Transformer LM 经过下游任务微调（fine-tuning）后，显著优于此前基于 RNN 与融合网络的模型。
- 在两个任务中都表现出强跨句推理与长程依赖建模能力。

具体结果如表3所示：

5. 分类&语义相似-数据集

复制代码

- 分类: CoLA, SST2
- Semantic Similarity: MRPC, STSB, QQP
- 综合GLUE

数据集分类

任务类型	数据集	核心能力	输出类型
分类	CoLA	语法理解	MC
分类	SST-2	情感分析	Accuracy
语义相似性	MRPC	句子重写判定	F1 / Acc
语义相似性	STS-B	语义相似度评分	Pearson / Spearman Correlation
语义相似性	QQP	问题重复判定	F1 / Acc
综合	GLUE	多任务迁移能力	各子任务指标综合

评价指标

数据集	样本分布	使用指标
SST-2	平衡	Accuracy 足够
MRPC	正例少，负例多	F1 更能衡量模型识别少数类能力
QQP	正例少，负例多	同上
CoLA	二分类但不平衡	使用 Matthew's Correlation (MC) 更适合语法可接受性判断
STS-B	连续评分	用 Pearson / Spearman 衡量线性和秩相关性

离散标签
- Acc: 样本分类平衡
- F1 : 侧重评估模型对正类的分类表现
- MC: 样本不平衡时替代Acc，需要衡量正负分类的一致性
连续性输出（回归问题）
- Pearson Correlation: 两个连续变量的线性相关程度, 衡量"数值精确匹配度"
- Spearman Correlation: 两个变量的秩（rank）相关性, 衡量"排序一致性"

5.1 分类数据集 (Classification)

5.1.1 CoLA (Corpus of Linguistic Acceptability)

项目	内容
类型	二分类 (binary classification)
任务	判断句子是否符合英语语法（grammatical vs ungrammatical）
数据来源	来自语言学论文和语料库，由专家标注
样本量	8,551 训练样本 / 1,043 验证 / 1,064 测试
评测指标	Matthew's Correlation (MC)
难点	语法感知任务，模型需捕捉深层语言结构和句法规则
研究意义	测量模型的语法敏感性和语言规则理解能力

5.1.2 SST-2 (Stanford Sentiment Treebank 2)

项目	内容
类型	二分类 (binary classification)
任务	句子级情感分类（正面/负面）
数据来源	IMDb 影评语料
样本量	67,349 训练 / 872 验证 / 1,821 测试
评测指标	Accuracy
难点	情感表达通常依赖于上下文、否定词、词序，甚至讽刺
研究意义	测量模型对情感理解的能力，是典型文本分类任务

5.2 语义相似性任务 (Semantic Similarity)

5.2.1 MRPC (Microsoft Research Paraphrase Corpus)

项目	内容
类型	二分类 (paraphrase / not paraphrase)
任务	判断两句话是否在语义上等价
数据来源	新闻文本对，Microsoft Research 提供
样本量	3,668 训练 / 408 验证 / 1,725 测试
评测指标	F1-score / Accuracy
难点	需要理解同义改写、否定、语序变化和语义消歧
研究意义	测量模型的语义理解和句子级推理能力

5.2.2 STS-B (Semantic Textual Similarity Benchmark)

项目	内容
类型	回归 (0--5 分的相似度评分)
任务	预测两句子语义相似度（连续值）
数据来源	来自新闻、论坛、Wikipedia、图片描述等多种语料
样本量	5,749 训练 / 1,500 验证 / 1,379 测试
评测指标	Pearson / Spearman correlation
难点	精细的语义判断，区分部分重叠、逻辑相反或上下文不同的句子
研究意义	测量模型的语义相似度理解能力，用于下游检索、QA 等任务

5.2.3 QQP (Quora Question Pairs)

项目	内容
类型	二分类 (duplicate / not duplicate)
任务	判断两个 Quora 问题是否语义重复
数据来源	Quora 网站公开数据
样本量	364,000 训练 / 40,000 验证 / 390,000 测试
评测指标	F1-score / Accuracy
难点	问题可能用不同方式表达同一个意思，需理解同义替换和长短句
研究意义	测量模型问句语义匹配能力，对 FAQ、问答系统很重要

5.3 性能评测

分类任务
- CoLA：提升巨大（+10.4），说明模型对语法可接受性学习能力强，能够捕捉内在语言规律。
- SST-2：91.3% 与前最佳接近，说明模型在标准情感分类任务上也有良好性能。
相似性匹配
- MRPC：提升显著（≈9.5% F1），说明模型在小规模句子重写/同义句匹配上能力很强。
- STS-B：提升 1 个点 Pearson，表明模型能够更精准地预测连续语义相似度。
- QQP：F1 提升 1.4%，说明在大规模重复问题匹配上也有稳定改进。
GLUE
- 从小数据集（STS-B, 5.7k）到大数据集（SNLI, 550k）均表现稳定(SOTA)

具体如图:

6. 性能分析

这一部分主要讨论两个核心问题：

Transfer Learning（层转移的影响）：预训练模型的不同层参与微调，对下游任务影响
Zero-shot 性能：不依赖监督微调，直接用预训练语言模型解决任务的能力(vs LSTM)

6.1 层转移（Figure 2 left）

实验思路：
1. 将不同数量的 transformer 层从无监督预训练模型迁移到下游监督任务
2. 评估迁移层数对 MultiNLI（NLI任务）和 RACE（问答任务）的性能影响
观察结果：
1. 只迁移 embedding 层 → 性能已有明显提升
2. 增加 transformer 层迁移 → 性能逐层提升
3. MultiNLI 全部层迁移 → 性能提升约 9%
结论
- 每一层 transformer 都包含有用的表示能力，对下游任务都有贡献
- 预训练模型层越多，迁移效果越明显
- 图示通常是 x轴：迁移层数，y轴：任务性能
- 线条向上趋势 → 层数增加性能提升

直观理解：预训练模型的深层表示越丰富，对下游理解任务的帮助越大。

6.2 Zero-shot 性能（Figure 2 right）

实验目标：为什么预训练 transformer 有效，即不依赖下游微调时的能力，设计一系列启发式解法（heuristics）：
- CoLA：使用平均 token log-probability 预测句子语法是否正确
- SST-2：在句子末尾添加 token very 并限制输出为 positive/negative，用概率高的词预测
- RACE：选择生成概率最高的答案
- DPRD (Winograd)：用两种可能的指代替换句子，选择 log-probability 高的选项
观察结果
- 零样本性能随预训练进程稳定增长
- Transformer 比 LSTM 波动小 → 表明 Transformer 的结构 inductive bias 有利于迁移
- 结论：预训练语言模型学到了广泛的、任务相关的能力，即使没有微调也能解决多种任务

6.3 三个消融实验 (Ablation studies)

复制代码

- 去掉语言建模损失（微调时，除分类交叉熵、F1损失外，加入预测下一个 token 的交叉熵）
- 替换 Transformer 为 LSTM（单层 2048 单元）
- 去掉预训练（直接在下游任务上训练 Transformer）

目的：量化各个设计选择对下游任务表现的影响

(1) 去掉语言建模损失（auxiliary LM objective）

实验：Transformer 进行微调时不使用辅助 LM 目标
观察：
- 对 NLI（MNLI, QNLI, RTE）和 QQP 有提升大数据集受益

数据集	数据规模	影响 aux LM
MNLI	大 (~392k)	显著受益
QQP	大 (~363k)	显著受益
QNLI	中 (~104k)	有一定受益
RTE	小 (~2.5k)	干扰

复制代码

* 对中小规模数据集无用，甚至性能下降：
    * CoLA: ~8.5k train
    * SST-2: ~67k train
    * MRPC: ~3.7k train
    * STS-B: ~5.7k train

结论：
- 辅助 LM 目标帮助模型在大规模数据任务中捕捉更多上下文信息

(2) Transformer vs LSTM

实验：把 Transformer 替换为单层 2048 单元 LSTM，其他训练框架保持一致
观察：
- 平均得分下降 5.6
- LSTM 仅在 MRPC 上略好
结论：
- Transformer 的结构（多层自注意力）更适合捕捉长程依赖和复杂语义关系
- LSTM 在句子对小规模语义匹配任务（MRPC）表现稍好，适合数据量小且任务短文本

(3) 去掉预训练（直接训练 Transformer）

实验：不使用大规模无监督预训练，直接在下游任务上训练 Transformer
观察：
- 平均得分下降 14.8%，几乎在所有任务上性能下降
结论：
- 预训练模型在大规模语料学习到的语义、句法和世界知识对下游任务迁移至关重要，是性能提升的核心原因。

上述结果如表5：

总结

Transformer结构 + 预训练 + auxiliary LM 是LLM多任务性能最优组合

GPT-1 技术报告

1.概述 (Introduction & Related Work)

2. 方法部分 (Framework)

2.1 损失函数

2.2 微调

2.3 实验设置部分

3. 实验 Experiments

3.1 GLUE

3.1 NLI数据集

3.1.1 RTE

3.1.2 SNLI （Stanford Natural Language Inference Corpus）

3.1.3 MultiNLI（Multi-Genre Natural Language Inference）

3.1.4 QNLI （Question NLI）

3.1.5 SciTail

3.2 NLI任务评测

4. QA-知识问答

4.1 Story Cloze

4.2 RACE

4.3 测试性能

5. 分类&语义相似-数据集

5.1 分类数据集 (Classification)

5.1.1 CoLA (Corpus of Linguistic Acceptability)

5.1.2 SST-2 (Stanford Sentiment Treebank 2)

5.2 语义相似性任务 (Semantic Similarity)

5.2.1 MRPC (Microsoft Research Paraphrase Corpus)

5.2.2 STS-B (Semantic Textual Similarity Benchmark)

5.2.3 QQP (Quora Question Pairs)

5.3 性能评测

6. 性能分析

6.1 层转移（Figure 2 left）

6.2 Zero-shot 性能（Figure 2 right）

6.3 三个消融实验 (Ablation studies)

Ref