AI大事记12:Transformer 架构——重塑 NLP 的革命性技术（中）

3 Transformer 对 NLP 领域的革命性影响

3.1 预训练 - 微调范式的确立

Transformer 架构最重要的贡献是推动了" 预训练 - 微调（Pre-training + Fine-tuning）" 范式的确立。这一范式彻底改变了 NLP 领域的研究和应用模式，标志着从 "特定任务特定模型" 向 "通用模型特定任务适配" 的根本性转变。

2018 年，基于 Transformer 架构的两个里程碑式模型相继问世：Google 发布的 BERT 和 OpenAI 发布的 GPT-1。BERT 采用双向编码器架构，通过掩码语言模型（MLM）和下一句预测（NSP）任务进行预训练，在 11 个 NLP 基准测试任务上全面超越了当时的所有模型。

图 3 Google 发布的 BERT

GPT-1 则采用自回归生成式预训练方法，参数规模达到 1.17 亿，通过在海量文本数据上预训练，学习如何生成下一个词的概率分布。

图 4 OpenAI 发布 GPT 系列

预训练 - 微调范式的核心优势在于其高效性和泛化能力。通过在大规模无标注数据上进行预训练，模型能够学习到丰富的语言知识和语法规则，然后只需在少量有标注的任务数据上进行微调，就能达到甚至超越传统模型的性能。这种方法不仅大大减少了对标注数据的需求，还提高了模型的泛化能力。

3.2 各项 NLP 任务的性能飞跃

Transformer 架构在各项 NLP 任务上都带来了性能的显著提升，这种提升不仅体现在精度上，更体现在效率上。

在机器翻译领域，基于 Transformer 的模型展现出了惊人的能力。Google 的 Transformer 模型在 WMT 2014 英语到德语翻译任务上达到了 28.4 BLEU，创下了当时的新纪录。更重要的是，模型的训练速度比传统 RNN 快了 3 倍，推理速度快了 2 倍。

在文本生成任务中，Transformer 展现出了强大的创造力。GPT-2（1.5B 参数）首次展现了 "零样本学习" 能力，无需针对特定任务微调，就能完成新闻写作、诗歌创作、问答等任务，生成文本长度可达 400 词以上。GPT-3（1750 亿参数）更是通过 "少样本学习" 展现出了前所未有的通用能力，在翻译、问答、文本生成乃至代码编写等大量不同的自然语言处理任务上取得了极具竞争力的表现。

在文本分类 和情感分析任务中，基于 Transformer 的模型同样表现出色。BERT 在 GLUE 基准测试中的得分达到 80.5，而当时最先进的模型得分仅为 72.8。在 SST-2 情感分析任务中，BERT 的准确率达到 95.5%，创造了新的世界纪录。

在问答系统中，Transformer 模型能够理解问题的含义，并在大量文本中寻找答案。这种能力使得问答系统更加智能和准确。例如，在 SQuAD 数据集上，基于 Transformer 的模型已经达到了超过人类水平的性能。

3.3 计算效率的革命性提升

Transformer 的另一个重要贡献是在计算效率上的革命性提升。由于自注意力机制支持完全并行化计算，模型的训练速度得到了极大提高。在处理长序列时，这种优势更加明显。

传统 RNN 的训练时间复杂度为 O (n)，其中 n 是序列长度，这意味着处理更长的序列需要成比例增加计算时间。而 Transformer 的自注意力机制虽然时间复杂度为 O (n²)，但由于其高度的并行性，在实际训练中往往比 RNN 快得多。特别是在使用 GPU 或 TPU 进行训练时，Transformer 能够充分利用硬件的并行计算能力，实现数十倍甚至上百倍的速度提升。

研究者指出，"Transformer 是第一个完全基于注意力机制的架构，摒弃了传统的循环和卷积结构，实现了高度的并行化计算，显著提升了训练效率"。这种效率提升不仅缩短了模型训练时间，还降低了计算成本，使得训练更大规模的模型成为可能。

3.4 开启 NLP 预训练时代

Transformer 架构的成功直接推动了 NLP 进入预训练时代。预训练模型的出现标志着 NLP 领域研究思路的根本转变 ------ 从追求特定任务的极致优化，转向构建通用智能的基础能力。

这种转变带来了深远的影响。首先，它改变了 NLP 系统的开发模式。过去，开发一个 NLP 系统需要针对每个任务单独设计和训练模型；现在，只需要在预训练模型的基础上进行微调，就能够快速构建出高性能的应用系统。其次，它降低了 NLP 技术的应用门槛。即使是资源有限的小型团队或个人开发者，也能够利用预训练模型开发出高质量的 NLP 应用。

预训练模型的发展也催生了大量创新应用。从智能客服到机器翻译，从文本生成到代码编写，基于 Transformer 的预训练模型正在各个领域发挥着重要作用。特别是在 2023 年以后，随着多模态大模型的兴起，Transformer 架构更是成为了连接文本、图像、语音等多种模态的桥梁，开启了 AI 应用的新纪元。