动手学深度学习69 BERT预训练

1. BERT




3亿参数 30亿个词

在输入和loss上有创新

两个句子拼起来放到encoder--句子对

cls-class分类

sep-seperate 分隔符 分开每个句子 告诉是哪个句子 两个句子给不同的向量

位置编码不用sin cos, 让网络自己学习

bert--通用任务

encoder 是双向的,两个方向的信息都可以看到

预测mask是谁。

改动:让模型在做微调的时候不要看到mask就做预测



4. QA

1 对每个词每个token 学习一个固定长度的向量

2 bert 用一个词段做向量表示

3 15% 中的10%

4 大量用在cv上,图片可以扣很多小块出来,是有空间关系的,模拟语言模型的关系

6 用小一点的bert模型;多用几个卡;每个gpu存一部分的模型。

7 gpt等 预训练任务本身都会有改进

8 bert之后的论文

相关推荐
VR最前沿14 分钟前
全新Xsens Animate版本是迄今为止最大的软件升级,提供更清晰的数据、快捷的工作流程以及从录制开始就更直观的体验
人工智能·科技·机器人·自动化
禺垣18 分钟前
知识图谱技术概述
大数据·人工智能·深度学习·知识图谱
zhongqu_3dnest22 分钟前
众趣科技与我爱我家达成战略合作:AI空间计算技术赋能重塑房产服务新范式
人工智能·科技·三维建模·空间计算·vr看房·房产经纪
我就是全世界27 分钟前
2025主流智能体Agent终极指南:Manus、OpenManus、MetaGPT、AutoGPT与CrewAI深度横评
人工智能·python·机器学习
MYH51629 分钟前
类Transformer架构
人工智能
谢耳朵(wer~wer~)34 分钟前
机器学习复习3--模型评估
人工智能·机器学习
king of code porter37 分钟前
深度学习之模型压缩三驾马车:基于ResNet18的模型剪枝实战(1)
人工智能·深度学习·剪枝
普通老人1 小时前
【人工智能】一些基本概念
人工智能
后端小肥肠1 小时前
Coze实战:一分钟生成10w+独居女孩Vlog动画,零基础也能日更!
人工智能·aigc·coze
Blossom.1181 小时前
使用Python和OpenCV实现图像识别与目标检测
人工智能·python·神经网络·opencv·安全·目标检测·机器学习