Bert各种变体——RoBERTA/ALBERT/DistillBert

RoBERTa

  1. 会重复一个语句10次,然后每次都mask不同的15%token。
  2. 丢弃了NSP任务,论文指出NSP任务有时甚至会损害性能。
  3. 使用了BPE

ALBERT

1. 跨层参数共享

可以共享多头注意力层的参数,或者前馈网络层的参数,或者全部共享。

实验结果发现,共享注意力层基本没有性能损失。

2. 词向量因式分解:

将词汇表改成两个矩阵乘。

3. 句子顺序预测

加入句子顺序预测任务,代替NSP任务。句子预测分为正序还是倒序。

DistillBERT


1. 有监督损失:

MASK\]对应的输出的损失 ### 2. 蒸馏损失 使用teacher模型的概率作为指导信号,也是交叉熵,但是此时是软标签。 ### 3. 词向量余弦函数 计算隐含层,教师模型和学生模型的向量余弦距离。

相关推荐
千寻girling3 小时前
Python 是用来做 AI 人工智能 的 , 不适合开发 Web 网站 | 《Web框架》
人工智能·后端·算法
AI攻城狮3 小时前
OpenClaw 里 TAVILY_API_KEY 明明写在 ~/.bashrc,为什么还是失效?一次完整排查与修复
人工智能·云原生·aigc
stark张宇3 小时前
构建第一个AI聊天机器人:Flask+DeepSeek+Postgres实战
人工智能·postgresql·flask
yiyu07165 小时前
3分钟搞懂深度学习AI:自我进化的最简五步法
人工智能·深度学习
浪浪山_大橙子7 小时前
OpenClaw 十分钟快速,安装与接入完全指南 - 推荐使用trae 官方 skills 安装
前端·人工智能
火山引擎开发者社区7 小时前
OpenClaw 快速上手:把云手机变成你的 7×24 小时 AI 手机助手
人工智能
Qlly7 小时前
DDD 架构为什么适合 MCP Server 开发?
人工智能·后端·架构
Lee川7 小时前
从零构建智能对话系统:AI Agent 实战指南
人工智能
冬奇Lab7 小时前
一天一个开源项目(第43篇):Star-Office-UI - 像素风格的 AI 办公室看板,让 AI 助手的工作状态可视化
人工智能·开源·资讯
风象南8 小时前
纯文本模型竟然也能直接“画图”,而且还很好用
前端·人工智能·后端