Bert各种变体——RoBERTA/ALBERT/DistillBert

RoBERTa

  1. 会重复一个语句10次,然后每次都mask不同的15%token。
  2. 丢弃了NSP任务,论文指出NSP任务有时甚至会损害性能。
  3. 使用了BPE

ALBERT

1. 跨层参数共享

可以共享多头注意力层的参数,或者前馈网络层的参数,或者全部共享。

实验结果发现,共享注意力层基本没有性能损失。

2. 词向量因式分解:

将词汇表改成两个矩阵乘。

3. 句子顺序预测

加入句子顺序预测任务,代替NSP任务。句子预测分为正序还是倒序。

DistillBERT


1. 有监督损失:

[MASK]对应的输出的损失

2. 蒸馏损失

使用teacher模型的概率作为指导信号,也是交叉熵,但是此时是软标签。

3. 词向量余弦函数

计算隐含层,教师模型和学生模型的向量余弦距离。

相关推荐
我的青春不太冷17 分钟前
【探索篇】探索部署离线AI在Android的实际体验
android·人工智能·经验分享·科技·架构
MYT_flyflyfly25 分钟前
计算机视觉-边缘检测
人工智能·计算机视觉
破晓之翼1 小时前
司库建设-融资需求分析与计划制定
大数据·人工智能·信息可视化
冰糖小新新1 小时前
ELF2开发板(飞凌嵌入式)搭建深度学习环境部署(RKNN环境部署)
人工智能·深度学习
MichaelIp2 小时前
大模型高级工程师实践 - 将课程内容转为音频
人工智能·gpt·ai·语言模型·自然语言处理·aigc·音视频
慕容木木2 小时前
本地部署最强人工智能服务:方案(一)Chatbox+硅基流动(满血DeepSeek R1)
人工智能·华为云·deepseek·硅基流动·chatbox
弥树子2 小时前
使用 PaddlePaddle 实现逻辑回归:从训练到模型保存与加载
人工智能·逻辑回归·paddlepaddle
倔强的石头1063 小时前
DeepSeek横空出世,AI格局或将改写?
人工智能·aigc
Anlici3 小时前
强势DeepSeek——三种使用方式+推理询问指令😋
前端·人工智能·架构
MichaelIp4 小时前
大模型高级工程师实践 - 将课程内容转为视频
人工智能·python·自然语言处理·langchain·prompt·aigc·音视频