Bert各种变体——RoBERTA/ALBERT/DistillBert

RoBERTa

  1. 会重复一个语句10次,然后每次都mask不同的15%token。
  2. 丢弃了NSP任务,论文指出NSP任务有时甚至会损害性能。
  3. 使用了BPE

ALBERT

1. 跨层参数共享

可以共享多头注意力层的参数,或者前馈网络层的参数,或者全部共享。

实验结果发现,共享注意力层基本没有性能损失。

2. 词向量因式分解:

将词汇表改成两个矩阵乘。

3. 句子顺序预测

加入句子顺序预测任务,代替NSP任务。句子预测分为正序还是倒序。

DistillBERT


1. 有监督损失:

MASK\]对应的输出的损失 ### 2. 蒸馏损失 使用teacher模型的概率作为指导信号,也是交叉熵,但是此时是软标签。 ### 3. 词向量余弦函数 计算隐含层,教师模型和学生模型的向量余弦距离。

相关推荐
结局无敌2 分钟前
深度探究cann仓库下的infra:AI计算的底层基础设施底座
人工智能
m0_466525292 分钟前
绿盟科技风云卫AI安全能力平台成果重磅发布
大数据·数据库·人工智能·安全
慢半拍iii3 分钟前
从零搭建CNN:如何高效调用ops-nn算子库
人工智能·神经网络·ai·cnn·cann
机器懒得学习7 分钟前
智能股票分析系统
python·深度学习·金融
晟诺数字人8 分钟前
2026年海外直播变革:数字人如何改变游戏规则
大数据·人工智能·产品运营
蛋王派8 分钟前
DeepSeek-OCR-v2 模型解析和部署应用
人工智能·ocr
vx_biyesheji000112 分钟前
豆瓣电影推荐系统 | Python Django 协同过滤 Echarts可视化 深度学习 大数据 毕业设计源码
大数据·爬虫·python·深度学习·django·毕业设计·echarts
禁默14 分钟前
基于CANN的ops-cv仓库-多模态场景理解与实践
人工智能·cann
禁默22 分钟前
【硬核入门】无需板卡也能造 AI 算子?深度玩转 CANN ops-math 通用数学库
人工智能·aigc·cann
敏叔V58728 分钟前
AI智能体的工具学习进阶:零样本API理解与调用
人工智能·学习