【王树森】BERT：预训练Transformer模型（个人向笔记）

好心的小明2024-09-06 18:27

前言

BERT：B idirectional E ncoder R epresentations from Transformer
BERT是用来预训练Transformer模型的encoder的
本节课只讲述主要思想
BERT用两个主要思想来训练Transformer的encoder网络：①随机遮挡单词，让encoder根据上下文来预测被遮挡的单词。②把两句话放在一起，让encoder判断是不是原文相邻的两句话

Randomly mask a word

随机遮挡一个单词，让神经网络来预测这个单词是什么：
我们把cat遮住后如下图所示：我们把原来的 x 2 x_2 x2 变为了 x M x_M xM，由前几节课transformer的原理可以知道：最后的输出不仅仅取决于 x 2 x_2 x2 或 x M x_M xM，而是包含整句话的信息，最后我们把 u M u_M uM 输入到 Softmax 后，期望其中的 cat 的概率是最大的
我们把被遮住的单词 cat 的one-hot向量称为 e e e， p p p 为上面 Softmax 输出的概率分布向量，那么我们要让 p p p 尽可能地接近 e e e，于是我们可以把它丢进交叉熵损失函数里面进行反向传播，梯度下降：
BERT 不需要人为打标，可以自动遮住单词然后生成标签。因此可以拥有很多的数据，可以训练很大的模型

Predict the Next Sentence

给定随机的两句话，问这两句在文中是否是相邻的
其中输入时两句话，其中 $CLS$ 时分类的标号， $SEP$ 是分句的标号
该方法会在原来的文本随机选取句子，其中一半是相邻的，一半不是相邻的
CLS符号在经过 Embedding 和 Transformer 的 Encoder 后会生成一个向量 c c c，其由一个二分类器来计算值，虽然由 attention 机制我们可以知道： c c c 还依赖于文中的其他信息，这样就能学到两句话的信息，这样我们就可以让 c c c 和标签做交叉熵损失，然后就能反向传播和梯度下降来训练。相邻两句话通常含有关联，这样训练就能让 Embedding 和 Encoder 学到这种关联信息。

Combining the two methods

把上面两个任务结合起来：这样就有多个标签
假设我们有两个单词被遮住了，那么就有三个任务，三个损失函数，那么最后的损失函数就是三个损失函数之和
BERT 的优点在于不用人工标注数据，因为人工标注数据是非常昂贵的。而 BERT 可以自动生成标签，这是一个非常好的性质
缺点在于 BERT 的计算代价很大：

上一篇：集成 Logrus 到 Gin：打造高效的 Go Web 日志系统

下一篇：本地大语言模型部署及应用

热门推荐

01GitHub 镜像站点 022026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 03如何新建文件夹？电脑新建文件夹的4种方法 04幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 05AI科技热点日报 | 2026年07月01日 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 082026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？09Kimi K3 真实体验：全网评价整理，优缺点一次性说清楚 102026 年 AI 大模型 & AI 编程工具实战全总结