动手学深度学习69 BERT预训练

1. BERT




3亿参数 30亿个词

在输入和loss上有创新

两个句子拼起来放到encoder--句子对

cls-class分类

sep-seperate 分隔符 分开每个句子 告诉是哪个句子 两个句子给不同的向量

位置编码不用sin cos, 让网络自己学习

bert--通用任务

encoder 是双向的,两个方向的信息都可以看到

预测mask是谁。

改动:让模型在做微调的时候不要看到mask就做预测



4. QA

1 对每个词每个token 学习一个固定长度的向量

2 bert 用一个词段做向量表示

3 15% 中的10%

4 大量用在cv上,图片可以扣很多小块出来,是有空间关系的,模拟语言模型的关系

6 用小一点的bert模型;多用几个卡;每个gpu存一部分的模型。

7 gpt等 预训练任务本身都会有改进

8 bert之后的论文

相关推荐
Jack黄从零学c++18 分钟前
opencv(c++)---自带的卷积运算filter2D以及应用
c++·人工智能·opencv
封步宇AIGC28 分钟前
量化交易系统开发-实时行情自动化交易-4.2.3.指数移动平均线实现
人工智能·python·机器学习·数据挖掘
Mr.谢尔比43 分钟前
李宏毅机器学习课程知识点摘要(1-5集)
人工智能·pytorch·深度学习·神经网络·算法·机器学习·计算机视觉
我是博博啦44 分钟前
matlab例题
人工智能·算法·matlab
DieYoung_Alive1 小时前
一篇文章了解机器学习
人工智能·机器学习
2023数学建模国赛比赛资料分享1 小时前
2024亚太杯国际赛C题宠物预测1234问完整解题思路代码+成品参考文章
人工智能·数学建模·宠物·2024亚太杯国际赛数学建模·2024亚太杯国际赛a题·2024亚太杯国际赛数模abc·2024亚太杯数学建模
思通数科AI全行业智能NLP系统1 小时前
六大核心应用场景,解锁AI检测系统的智能安全之道
图像处理·人工智能·深度学习·安全·目标检测·计算机视觉·知识图谱
做程序员的第一天2 小时前
在PyTorch中,钩子(hook)是什么?在神经网络中扮演什么角色?
pytorch·python·深度学习
程序员小范2 小时前
孙玲:从流水线工人到谷歌程序员
人工智能·程序员·谷歌·远程工作
醉酒柴柴2 小时前
【代码pycharm】动手学深度学习v2-07 自动求导
ide·深度学习·pycharm