语言模型 预训练语言模型BERT - 结构Transformer

Pre-train

1.收集海量无标注文本数据

2.进行模型预训练,并在任务模型中使用

Fine-tune 传统方法

  1. 设置模型结构

  2. 收集/标注训练数据

  3. 使用标注数据进行模型训练

  4. 真实场景模型预测

传统方法: Fine-true

预训练方法: Pre-train + Fine-true

预训练方式

1.完形填空

依照一定概率,用[mask]掩盖文本中的某个字或词

2.句子关系预测

BERT的本质是一种文本特征

文本 -> 矩阵

文本 -> 向量

word2vec 也可以做到同样的事

但word2vec是静态的,而BERT是动态的 这里是因为,word2vec可以把语言弄成向量,但是无法做到语义上的理解,就好比苹果,是指苹果手机还是能吃的苹果,word2vec做不到

BERT可以做到,因为它经过线性层,就好比RNN,就能理解

BERT成功的原因一个是预训练,另一个则是提出大名鼎鼎的结构,transformer结构

BERT结构 - Embedding

加入 [CLS],[SEP] 来标记文本起始位置 BERT开源后V* h ,词表为2w多,h为768,

Segment embedding 判断来源语句 EA代表第一句 ,EB代表第二句,一共就准备两个embeding,第三句又会用上EA,第四句又会用上EB

Position embedding 带入语序信息

加和后会做 Layer Normalization

但是有个局限性,Position当时只准备了512个,无法适应超长的文本

BERT结构 - self -attention

X为embedding层的输出,WQ,WK,WV都是 h*h,所以QKV是l*h

Q*K的转置 是L*L的矩阵,形成一个如下矩阵

这个矩阵很关键,它体现了自身到自身的注意力

接下来就是根号dk,多头机制

BERT结构 - Encoder

LayerNorm是干啥用的

因为,我们之间经历了很多神经网络层,为了防止"数据跑偏"和"梯度失控",强制把每一层数据拉回来

BERT的优势

1.通过预训练利用了海量无标注文本数据

2.想必词向量,BERT的文本表示结合了语境

3.Transformer模型结构由很强的拟合能力,词与词之间的距离不会造成关系计算上的损失

4.效果大幅提升

相关推荐
惊鸿一博2 小时前
OpenDriveVLA:基于大型VLA模型的端到端自动驾驶(2025 CVPR)
人工智能·机器学习·自动驾驶
墨染天姬2 小时前
【AI】RMSS:循环状态空间模型
人工智能
辉视广播对讲2 小时前
科技赋能智慧监管:智能监仓内屏,重塑监所管理新生态
人工智能·科技·音视频
小真zzz2 小时前
超越“快照”,深入“解剖”:搜极星专业版如何成为品牌AI心智的“高分辨率核磁共振”
大数据·人工智能·ai·seo·geo
不才小强2 小时前
YOLOv8目标检测实战详解
人工智能·yolo·目标检测
我是发哥哈2 小时前
横向评测:主流AI培训方案的关键维度对比
大数据·人工智能·学习·机器学习·chatgpt
IDZSY04302 小时前
实测机乎AI一个月:普通用户真实体验分享
人工智能
shdwak....sad2 小时前
星核协同体系 Skill 工程:原子型、工作流型与专属型架构设计
人工智能
FluxMelodySun2 小时前
机器学习(三十五) 概率图模型-精确推断与近似推断
人工智能·机器学习