大模型面试准备(十五):BERT 工作流程

节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学,针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何备战、面试常考点分享等热门话题进行了深入的讨论。


合集在这里:《大模型面试宝典》(2024版) 正式发布!


可以将预训练的 BERT 假设为一个黑匣子,它为序列中的每个输入标记(单词)提供 H = 768 个形状的向量。BERT 本质上是由堆叠的编码器层组成。

Token Embeddings是通过索引一个30000x768矩阵得到的,权重在训练中学习;Segment Embeddings用于指示句子来源,全0或全1向量表示;Position Embeddings则用于指定单词在序列中的位置,是一个具有预设模式的常数矩阵。这些构成了BERT嵌入的重要组成部分。

BERT的工作原理

可以将预训练的 BERT 假设为一个黑匣子,它为序列中的每个输入标记(单词)提供 H = 768 个形状的向量。 这里,序列可以是单个句子或由分隔符 [SEP] 分隔并以标记 [CLS] 开头的一对句子。

BERT为输入句子中的所有单词得到一个 768 大小的向量。

BERT的本质

BERT 本质上是由堆叠的编码器层组成。

在论文中,作者尝试了两种模型:

  • BERT 基础:层数 L=12,隐藏层大小,H=768,自注意力头,A=12,总参数=110M

  • BERT Large:层数 L=24,隐藏层大小,H=1024,自注意力头,A=16,总参数=340M

BERT的Embedding流程

Token Embeddings是通过索引一个30000x768矩阵得到的,权重在训练中学习;Segment Embeddings用于指示句子来源,全0或全1向量表示;Position Embeddings则用于指定单词在序列中的位置,是一个具有预设模式的常数矩阵。这些构成了BERT嵌入的重要组成部分。

Token Embeddings

我们通过索引一个大小为30000x768(H)的矩阵来得到Token嵌入。在这里,30000是wordpiece分词后的词汇表长度。这个矩阵的权重将在训练过程中学习得到。

Segment Embeddings

指定这个句子来自哪个段落。如果嵌入来自句子1,则这些都是长度为H的全0向量;如果嵌入来自句子2,则这些是一个全1向量。

Position Embeddings

这些嵌入用于指定单词在序列中的位置,这与我们在转换器(transformer)架构中所做的相同。因此,我们本质上有一个具有一些预设模式的常数矩阵。这个矩阵的列数为768。这个矩阵的第一行是标记[CLS]的嵌入,第二行是单词"my"的嵌入,第三行是单词"dog"的嵌入,以此类推。

预训练掩码语言模型

通过尝试不同的训练模型并找出各自的缺陷,来逐步解释模型架构,并最终了解BERT的工作原理。

预测所有单词

BERT 预训练掩码语言模型设置如下:

结果:预测所有单词。

问题:学习任务很琐碎。

原因:网络事先知道它要预测什么,因此可以轻松学习权重以达到 100% 的分类准确度。

仅预测被掩码的单词

在每个训练输入序列中屏蔽 15% 的随机单词,并仅预测这些单词的输出。

结果:仅预测被掩码的单词。

现在模型学会了预测它未见过的单词,同时看到了这些单词周围的所有上下文。在这个示例中,我们掩码了3个单词,而实际上应该只掩码1个单词,因为8的15%是1。

问题:这个模型基本上学会了只针对[MASK]标记预测出好的概率。 也就是说,在预测时间或微调时间,当模型没有收到[MASK]作为输入时,它无法预测出好的上下文嵌入。

预测被掩码的单词和随机单词

在这次尝试中,仍然会屏蔽 15% 的仓位。但将用一些随机单词替换 20% 的屏蔽标记中的任何单词。这样做是想让模型知道当单词不是 [MASK] 标记时我们仍然需要一些输出。

因此,如果有一个长度为 500 的序列,将屏蔽 75 个标记(500 个标记的 15%),在这 75 个标记中,15 个标记(75 个标记的 20%)将被随机单词替换。如图所示,这里用随机单词替换了一些掩码。

结果:预测被掩码的单词和随机单词。

优势:现在网络仍然可以处理任何单词。

问题:网络学会了输入单词永远不会等于输出单词。也就是说,在"随机单词"位置上的输出向量永远不会是"随机单词"。

预测被掩码的单词、随机单词和非掩码单词

训练数据生成器会随机选择15%的标记位置进行预测。如果选择了第i个标记,我们会用以下方式替换它:(1) 80%的时间用[MASK]标记替换第i个标记 (2) 10%的时间用一个随机标记替换第i个标记 (3) 10%的时间第i个标记保持不变。

因此,如果我们有一个长度为500的序列,我们会掩码75个标记(500的15%),在这75个标记中,有7个标记(75的10%)会被随机词替换,有7个标记(75的10%)将保持不变。从图像上看,我们会用随机词替换一些掩码,并用实际词替换一些掩码。

结果:预测被掩码的单词、随机单词和非掩码单词。

因此,现在我们有了最佳的设置,模型不会学习任何不良的模式。

但是,如果我们只保留掩码+非掩码的设置呢?模型会学到每当单词出现时,就预测那个单词。

总结

本文重点讨论了预训练掩码语言模型的不同训练策略,包括预测所有单词、仅预测被掩码的单词、预测被掩码的单词和随机单词以及预测被掩码的单词、随机单词和非掩码单词。通过这些不同的训练策略,BERT能够学习到更加丰富的语言表示,提高模型的泛化能力。

相关推荐
MinIO官方账号13 分钟前
使用亚马逊针对 PyTorch 和 MinIO 的 S3 连接器实现可迭代式数据集
人工智能·pytorch·python
四口鲸鱼爱吃盐16 分钟前
Pytorch | 利用IE-FGSM针对CIFAR10上的ResNet分类器进行对抗攻击
人工智能·pytorch·python·深度学习·计算机视觉
四口鲸鱼爱吃盐17 分钟前
Pytorch | 利用EMI-FGSM针对CIFAR10上的ResNet分类器进行对抗攻击
人工智能·pytorch·python
章章小鱼44 分钟前
LLM预训练recipe — 摘要版
人工智能
single5941 小时前
【c++笔试强训】(第四十五篇)
java·开发语言·数据结构·c++·算法
红色的山茶花1 小时前
YOLOv9-0.1部分代码阅读笔记-loss_tal_dual.py
笔记·深度学习·yolo
算家云1 小时前
Stability AI 新一代AI绘画模型:StableCascade 本地部署教程
人工智能·ai作画·stable diffusion·模型构建·算家云·算力租赁·stablecascade
RacheV+TNY2642781 小时前
深度解析:电商平台API接口的安全挑战与应对策略
人工智能·python·自动化·api
学术会议1 小时前
“智能控制的新纪元:2025年机器学习与控制工程国际会议引领变革
大数据·人工智能·科技·计算机网络·机器学习·区块链
呆头鹅AI工作室2 小时前
基于特征工程(pca分析)、小波去噪以及数据增强,同时采用基于注意力机制的BiLSTM、随机森林、ARIMA模型进行序列数据预测
人工智能·深度学习·神经网络·算法·随机森林·回归