来自https://datawhalechina.github.io/base-llm/#/chapter5/13_Bert
BERT仅采用Transfromer中的编码器结构构建,其核心优势在于双向性,适用于语言理解
因为它在预测时能看到整个输入序列,而生成模型(以GPT为代表的),在预测下一个词时,必须严格遵守单向规则("只能看到过去")
BERT可以作为一个词向量生成工具,也是一个强大的预训练语言模型
BERT的工作范式
分为预训练和微调两个阶段
![[Pasted image 20260117234907.png]]
微调阶段以BERT模型作为 任务模型的基础结构,根据具体任务在BERT模型上增加一个小的、任务相关的输出层,最后在自己的任务数据集上对整个模型或仅对顶部的输出层进行训练
这种预训练+微调的训练范式,属于迁移学习的一种实现
从海量数据中学到的通用语言知识迁移到数据量有限的特定任务中