AI大事记13:GPT 与 BERT 的范式之争(上)

2018 年,人工智能领域发生了一场意义深远的技术革命。在这一年,两个基于 Transformer 架构的模型相继问世,它们不仅彻底改变了自然语言处理(NLP)的研究范式,更开启了 AI 发展的新纪元。这两个模型就是 OpenAI 在 6 月发布的GPT-1 和 Google 在 10 月推出的BERT。虽然它们都采用了 Transformer 架构,但在技术路线上却选择了截然不同的方向:GPT-1 专注于生成任务,而 BERT 则聚焦于理解任务。这场 "范式之争" 不仅展现了两种不同的技术哲学,更共同推动了预训练模型黄金时代的到来。

图 1 BERT 与GPT

1 GPT-1:开创 "预训练 + 微调" 范式的先行者

1.1 技术架构与创新突破

2018 年 6 月,OpenAI 发布了具有里程碑意义的 GPT-1 模型,全称为Generative Pre-trained Transformer(生成式预训练 Transformer)。

图 2 OpenAI 的 GPT 系列

这是首个基于 Transformer 解码器的生成模型,其技术架构包含 12 层 Transformer 解码器,采用 12 个掩码自注意力头,每个头的维度为 64(总共 768 维)。与传统的循环神经网络(RNN)相比,Transformer 架构具有强大的并行计算能力,能够有效捕捉长距离依赖关系。

图 3 GPT Decoder架构与Transformer Decoder架构的对比

GPT-1 的参数量达到1.17 亿,在当时是最大的语言模型之一。模型在 BooksCorpus 数据集上进行训练,该数据集包含超过 7000 本未出版的书籍,总数据量达到 40GB。这种大规模无监督预训练的方式,让 GPT-1 能够从海量文本中学习语言的深层规律和语义知识。

在预训练阶段,GPT-1 采用了标准的语言建模任务,即预测下一个单词。具体而言,模型通过自回归的方式,根据前面的单词序列来预测下一个单词的概率分布。这种方法虽然看似简单,但却能够让模型学习到语言的语法结构、语义关系和知识表示。

1.2 "预训练 + 微调" 范式的确立

GPT-1 最具革命性的贡献在于确立了 **"预训练 + 微调"(Pre-training + Fine-tuning)的两阶段训练范式 **。这一范式彻底改变了传统 NLP 任务 "一事一训" 的模式,即每个任务都需要单独设计和训练一个模型。

在微调阶段,GPT-1 通过任务特定的输入转换方法,将不同类型的 NLP 任务(如文本蕴含、语义相似度、问答等)转换为统一的 token 序列格式。例如,对于文本蕴含任务,模型将前提句和假设句拼接为 "[前提;; 假设]"的格式;对于问答任务,则构造"[上下文; 问题; ; 答案]" 的序列。这种统一的输入格式使得同一个预训练模型可以适配各种下游任务。

更重要的是,GPT-1 在微调时保留了语言建模任务作为辅助目标,最终的优化目标是主任务损失和语言建模损失的加权和。这种设计不仅提高了模型的泛化能力,还加快了收敛速度。

1.3 性能表现与技术影响

GPT-1 在多个 NLP 任务上取得了显著的性能提升。在自然语言推理任务中,GPT-1 在 MNLI、SNLI、SciTail 等数据集上超越了当时的最先进方法;在问答和常识推理任务中,在 RACE 和 Story Cloze 上取得了最高准确率,其中 Story Cloze 的准确率提升了 8.9%;在语义相似度任务中,在 STS-B 上比前人提升了 1 个百分点;在文本分类任务中,在 CoLA 任务中的准确率从 35% 提升至 45%。

这些成果证明了通用预训练模型的有效性,通过微调可以在多种任务上取得优异成绩。GPT-1 的成功不仅推动了自然语言处理技术的发展,还引发了全球范围内的研究热潮,为后续的 GPT-2、GPT-3 等大规模模型提供了验证思路和实验基础。

2 BERT:双向编码器的理解革命

2.1 双向编码器架构的创新

如果说 GPT-1 开启了预训练模型的大门,那么 BERT 则彻底推开了这扇门。2018 年 10 月,Google 发布了BERT (Bidirectional Encoder Representations from Transformers ,这是一个基于双向 Transformer 编码器的预训练模型。

图 4BERT(Bidirectional Encoder Representations from Transformers)

与 GPT-1 的单向解码器架构不同,BERT 采用了双向 Transformer 编码器,能够同时捕捉左右上下文信息。这种架构设计的核心思想是:在理解一个词时,应该同时利用其左边和右边的所有上下文信息。BERT 通过自注意力机制实现了真正的 "深度双向",在模型的每一层都充分利用了双向上下文。

图 5 BERT 采用了双向架构

BERT 的技术架构与 GPT-1 在某些方面非常相似。BERT-Base 的参数设置与 GPT-1 完全相同:L=12 层、H=768 维、A=12 个注意力头。然而,正是因为采用了双向架构,BERT 在相同参数规模下取得了远超 GPT-1 的性能。

2.2 掩码语言模型与下一句预测

BERT 的成功很大程度上归功于其创新的预训练任务设计。与 GPT-1 的单向语言建模不同,BERT 采用了两个独特的预训练任务:掩码语言模型( Masked Language Model, MLM )和下一句预测(Next Sentence Prediction, NSP

码语言模型(MLM)是 BERT 最核心的创新。在这个任务中,模型随机掩盖输入序列中 15% 的 tokens,然后预测这些被掩盖的 token 是什么。具体的掩盖策略是:80% 的概率用 [MASK] 标记替换,10% 的概率用随机 token 替换,10% 的概率保持不变。这种设计既让模型学习到上下文信息,又避免了预训练和推理时的不匹配问题。

下一句预测(NSP)任务则训练模型理解句子之间的关系。在这个任务中,BERT 需要预测两个句子是否在逻辑上连续,例如 "我今天去了公园" 和 "天气很好" 是否构成连续的文本。这个任务的准确率达到了 97%-98%,证明了 BERT 能够很好地理解句子间的语义关系。

2.3 11 项 NLP 任务的全面突破

BERT 在 11 项 NLP 任务上取得了突破性的成绩,彻底刷新了当时的基准记录。在 GLUE(通用语言理解评估)基准测试中,BERT 将分数提升至 80.5%,实现了 7.7 个百分点的绝对改进;在 MultiNLI(多体裁自然语言推理)任务中,准确率达到 86.7%,提升了 4.6 个百分点;在 SQuAD v1.1 问答任务中,测试 F1 得分达到 93.2,提升了 1.5 个点,甚至比人类表现还高出 2 分;在 SQuAD v2.0 任务中,测试 F1 得分达到 83.1,提升了 5.1 个点。

更令人惊讶的是,BERT-Base 和 OpenAI GPT 在模型架构上几乎相同,除了注意力掩码的差异。然而,BERT 的性能却全面超越了 GPT-1,这充分证明了双向训练对语言理解任务的重要性。在 GLUE 基准测试中,BERT-Base 的平均分达到 79.6,而 GPT 仅为 75.1;BERT-Large 更是达到了 82.1 的高分。

2.4 微调的高效性与通用性

BERT 在微调方面展现出了极高的效率。所有结果都可以在单个 Cloud TPU 上最多 1 小时内复现,或在 GPU 上几小时内完成。这种高效性使得研究人员能够快速验证不同的任务和参数设置。

在微调策略上,BERT 采用了简单而有效的方法:为每个任务插入特定的输入和输出,然后端到端地微调所有参数。在输入方面,句子 A 和句子 B 在预训练中类似于:(1)释义任务中的句子对;(2)蕴含任务中的假设 - 前提对;(3)问答任务中的问题 - 段落对;(4)文本分类或序列标注中的文本 - 空对。在输出方面,token 表示被输入到输出层用于 token 级任务,而 [CLS] 表示被输入到输出层用于分类任务。

相关推荐
文火冰糖的硅基工坊5 小时前
[人工智能-大模型-43]:模型层技术 - 强化学学习:学习的目标、收敛条件、评估依据、应用到的模型、应用场景 - 通俗易懂。
人工智能·学习
Fibocom广和通5 小时前
禾赛科技与广和通战略合作,联合推出机器人解决方案加速具身智能商业化落地
人工智能
飞哥数智坊5 小时前
Claude Skills 自定义实战:提炼会议纪要并推送企业微信
人工智能·claude·chatglm (智谱)
golang学习记6 小时前
性能飙升4倍,苹果刚发布的M5给人看呆了
人工智能·后端
golang学习记6 小时前
快手推出AI编程IDE:自主编程时代已来!
人工智能
皮皮学姐分享-ppx6 小时前
上市公司CEO IT背景数据(2007-2024)
大数据·人工智能·经验分享·科技·区块链
亚马逊云开发者6 小时前
利用 CloudWatch AIOps 实现智能化根因分析与故障排查
人工智能
一个处女座的程序猿O(∩_∩)O6 小时前
一个完整的AI项目从需求分析到部署的全流程详解
人工智能·需求分析