LLM--BERT架构解析

文章目录

概述 :一种基于Transformer编码器架构的预训练语言模型,通过结合Tokenization、Embedding和特定任务的输出层,能够捕捉文本的双向上下文信息。

工作原理:在大量未标注数据上执行预训练任务,然后再表注数据中进行微调,使其称为专用模型。

模型整体架构

从模型结构来说,没有太大创新点,都是基于Transformer架构改编而来,与GPT模型不同的是,BERT是双向的,GPT是单向的。

从BERT的模型结构来看,小编感觉他独特地方在于输入与词嵌入两个模块,参考xhs大神图片。

模型架构细节

输入张量

BERT的输入是一个原始的文本序列,可以由单个句子,也可以是两个句子,如问答。

输入张量需要经过<font style="color:rgb(6, 10, 38);">transformers</font> 库的 tokenizer(如 <font style="color:rgb(6, 10, 38);">BertTokenizer</font>)处理而来。

案例API使用(参考qwen)

python 复制代码
# 设置分词器,不同词参数不同(选用不同标准分词)
tokenizer = BertTokenizer.from_pretrained("bert-base-chinese")

# 单句
out = tokenizer("Hello world!")

# 句子对
out = tokenizer("Question?", "Answer.")

# 批量 + 张量
batch_out = tokenizer(
    ["I like apples.", "She runs fast."],
    padding=True,
    truncation=True,
    max_length=64,
    return_tensors="pt"  # or "tf", "np"
)

# batch_out.input_ids.shape 含有CLS等字符结束标志

tokenizer的返回值挺多的,需要注意一下。

字段名 说明
input_ids token 对应的词汇表 ID 序列(含 [CLS][SEP]
token_type_ids 段 ID 序列(0 或 1)
attention_mask 指明哪些 token 是真实内容(1) vs padding(0)

输入层

输入层有三个部分组成,Token Embedding、Segment Embedding、Position Embedding。**Token Embedding->Segment Embedding->Position Embedding.**

Token Embedding

Token Embedding也称"词嵌入"层。

输入文本首先通过**分词器"WordPiece"**将文本切割为**<font style="background-color:#FBDE28;">subword tokens</font>**,这一步通常含有文本转小写,去除标点等作用。

BERT提出的特殊标记:

  • [CLS]: 在序列开头,用于分类任务,代表整个句子的聚合表示。
  • [SEP]: 用于分割 两个句子或者标记单句的结束。
python 复制代码
[CLS] 我 爱 你 。 [SEP] 你 喜 欢 我 吗 ? [SEP]

Segment Embedding

这一部分称为"段嵌入",主要用于区分不同句子

Position Embedding

这一部分称为"位置嵌入",主要用于表示每个token在序列中的位置

最后讲三个部分相加,得到嵌入层最总输出。

BERT网络结构

BERT的核心是transformer的编码器,每个编码器都包含:自注意力机制、前馈神经网络、残差连接和归一化,这个和transformer一致

  • 自注意力机制:允许模型在处理序列的时候关注来着不同位置的token,并且计算不同token之间的权重,从而捕捉不同序列中的依赖关系。
  • 前馈神经网络:对自注意力机制的输出进一步进行特征提取。
  • 残差和归一化:提高模型的稳定性,防止模型退化。

输出层

这一部分取决于不同任务。

  • a. 句子对分类
  • b. 单句分类
  • c. 问答
  • d. 序列标志,如:输出每个Token的标签

预训练两种模型

BERT在预训练的时候采用两种任务:

Masked Language Model(MLM)

  • 任务 :在文本输入中,随机的遮蔽或者替换一些词汇,并要求模型预测这些被遮掩或者替换的词汇。
  • **实现方法:**在预训练过程中,BERT随机选择文中15%的Token进行遮盖,其中80%的概率用【mask】进行标记替换,10%用随机词汇替换,10%保持不变。

Next Sentence Prediction(NSP)

  • 任务:给定一个句子,判断第二个句子是否为第一个句子的后续句子。
  • 实现 :在预训练过程中,BERT构造了一恶搞二分类任务,其中50%的概率B是A真正的后续句子,标签为IsNext,50%概率为随机选择的句子,标签为NotNect,最后通过CLS标记的输出进行预测分类。

参考资料

相关推荐
2601_9583529010 小时前
拆解 EN-46:一块 15mA 的 DSP 芯片如何实现 50dB 降噪
人工智能·语音识别·信号处理·嵌入式开发·音频降噪·双麦波束成形·硬件拆解
Mangguo520811 小时前
GPU利用率提升软件横向对比评测:NVIDIA Run:ai、VMware Bitfusion、博云ACE与阿里云PAI灵骏
人工智能·阿里云·云计算
摄影图11 小时前
蓝色光效科技背景图片素材 多场景设计
人工智能·科技·aigc·贴图·插画
AI视觉网奇11 小时前
3d 打印拆分零件
人工智能·深度学习
月诸清酒11 小时前
62-260515 AI 科技日报 (Qwen3.6 模型推理速度再提升,MTP加速至1.8倍)
人工智能
z小猫不吃鱼11 小时前
01 为什么 Vision Transformer 会出现?从 CNN 到 ViT,理解视觉模型的一次重要转变
深度学习·cnn·transformer
guslegend11 小时前
第9节:前端工程与一键启动
前端·大模型·状态模式·ai编程
云和数据.ChenGuang11 小时前
FastText的核心优势
人工智能·深度学习·机器学习·数据挖掘·边缘计算
大强同学11 小时前
Gemini cli 登录异常解决办法
人工智能
做萤石二次开发的哈哈11 小时前
怎样通过接口模糊检索语音文件名称?
人工智能·语音识别