Bert各种变体——RoBERTA/ALBERT/DistillBert

RoBERTa

  1. 会重复一个语句10次,然后每次都mask不同的15%token。
  2. 丢弃了NSP任务,论文指出NSP任务有时甚至会损害性能。
  3. 使用了BPE

ALBERT

1. 跨层参数共享

可以共享多头注意力层的参数,或者前馈网络层的参数,或者全部共享。

实验结果发现,共享注意力层基本没有性能损失。

2. 词向量因式分解:

将词汇表改成两个矩阵乘。

3. 句子顺序预测

加入句子顺序预测任务,代替NSP任务。句子预测分为正序还是倒序。

DistillBERT


1. 有监督损失:

MASK\]对应的输出的损失 ### 2. 蒸馏损失 使用teacher模型的概率作为指导信号,也是交叉熵,但是此时是软标签。 ### 3. 词向量余弦函数 计算隐含层,教师模型和学生模型的向量余弦距离。

相关推荐
Debroon21 小时前
openCHA: 个性化LLM驱动的对话健康代理框架
人工智能
心动啊12121 小时前
了解语音识别模型Whisper
人工智能·whisper·语音识别
汤姆yu21 小时前
基于深度学习的车牌识别系统
人工智能·深度学习
数智大号21 小时前
艾利特×迈幸机器人:引领智能操作新范式,开启具身智能新纪元
人工智能·数据挖掘
wechat_Neal21 小时前
智能座舱_车载语音交互相关技术术语简介
人工智能·语音识别
lpfasd12321 小时前
《21世纪金融资本论:投机资本的新理论》精读导引笔记
人工智能·笔记·金融
虫小宝21 小时前
电商AI导购系统设计:基于深度学习的商品推荐算法与架构实践
人工智能·深度学习·推荐算法
skywalk816321 小时前
Auto-Coder常用秘籍 autocoder.chat启动之后的处理
开发语言·人工智能
課代表21 小时前
大语言模型能够理解的11种文件格式
人工智能·语言模型·自然语言处理·llm·markdown·token·模型
洛卡卡了21 小时前
2025:从用 AI 到学 AI,我最轻松也最忙碌的一年
人工智能·后端·ai编程