Bert各种变体——RoBERTA/ALBERT/DistillBert

RoBERTa

  1. 会重复一个语句10次,然后每次都mask不同的15%token。
  2. 丢弃了NSP任务,论文指出NSP任务有时甚至会损害性能。
  3. 使用了BPE

ALBERT

1. 跨层参数共享

可以共享多头注意力层的参数,或者前馈网络层的参数,或者全部共享。

实验结果发现,共享注意力层基本没有性能损失。

2. 词向量因式分解:

将词汇表改成两个矩阵乘。

3. 句子顺序预测

加入句子顺序预测任务,代替NSP任务。句子预测分为正序还是倒序。

DistillBERT


1. 有监督损失:

MASK\]对应的输出的损失 ### 2. 蒸馏损失 使用teacher模型的概率作为指导信号,也是交叉熵,但是此时是软标签。 ### 3. 词向量余弦函数 计算隐含层,教师模型和学生模型的向量余弦距离。

相关推荐
yiersansiwu123d12 小时前
AI伦理治理:在创新与规范之间寻找平衡之道
人工智能
程途拾光15812 小时前
AI 生成内容的伦理边界:深度伪造与信息真实性的保卫战
人工智能
趣味科技v12 小时前
亚马逊云科技储瑞松:AI智能体正在重塑未来工作模式
人工智能·科技
GEO AI搜索优化助手12 小时前
GEO生态重构:生成式引擎优化如何重塑信息传播链
人工智能·搜索引擎·生成式引擎优化·ai优化·geo搜索优化
爱笑的眼睛1112 小时前
GraphQL:从数据查询到应用架构的范式演进
java·人工智能·python·ai
江上鹤.14812 小时前
Day40 复习日
人工智能·深度学习·机器学习
QYZL_AIGC12 小时前
全域众链以需求为基、政策为翼,创AI + 实体的可行之路
人工智能
火星资讯12 小时前
Zenlayer AI Gateway 登陆 Dify 市场,轻装上阵搭建 AI Agent
大数据·人工智能
TextIn智能文档云平台12 小时前
LLM处理非结构化文档有哪些痛点
人工智能·文档解析
行如流水13 小时前
BLIP和BLIP2解析
深度学习