Bert各种变体——RoBERTA/ALBERT/DistillBert

RoBERTa

  1. 会重复一个语句10次,然后每次都mask不同的15%token。
  2. 丢弃了NSP任务,论文指出NSP任务有时甚至会损害性能。
  3. 使用了BPE

ALBERT

1. 跨层参数共享

可以共享多头注意力层的参数,或者前馈网络层的参数,或者全部共享。

实验结果发现,共享注意力层基本没有性能损失。

2. 词向量因式分解:

将词汇表改成两个矩阵乘。

3. 句子顺序预测

加入句子顺序预测任务,代替NSP任务。句子预测分为正序还是倒序。

DistillBERT


1. 有监督损失:

[MASK]对应的输出的损失

2. 蒸馏损失

使用teacher模型的概率作为指导信号,也是交叉熵,但是此时是软标签。

3. 词向量余弦函数

计算隐含层,教师模型和学生模型的向量余弦距离。

相关推荐
山顶夕景6 分钟前
【ML】机器学习中常见的25个数学公式
人工智能·数学·机器学习
Crossoads7 分钟前
【汇编语言】外中断(一)—— 外中断的魔法:PC机键盘如何触发计算机响应
android·开发语言·数据库·深度学习·机器学习·计算机外设·汇编语言
Zik----9 分钟前
Anaconda搭建Python虚拟环境并在Pycharm中配置(小白也能懂)
开发语言·人工智能·python·机器学习·pycharm
凡人的AI工具箱26 分钟前
每天40分玩转Django:Django缓存
数据库·人工智能·后端·python·缓存·django
红色的山茶花28 分钟前
YOLOv9-0.1部分代码阅读笔记-hubconf.py
笔记·深度学习·yolo
Hoper.J34 分钟前
微调 BERT:实现抽取式问答
人工智能·深度学习·自然语言处理·llm·bert
PeterClerk36 分钟前
NLP基础知识 - 向量化
人工智能·自然语言处理
热爱生活的五柒36 分钟前
自然语言处理(NLP)中的事件检测和事件抽取
人工智能·自然语言处理
开出南方的花40 分钟前
BiLSTM+CRF实现NLP中的NER任务
人工智能·pytorch·自然语言处理·nlp·ner·条件随机场
AI敲代码的手套43 分钟前
解读目前AI就业岗位——大语言模型(LLM)应用工程师学习路线、就业前景及岗位全解析
人工智能·学习·语言模型