动手学深度学习69 BERT预训练

1. BERT




3亿参数 30亿个词

在输入和loss上有创新

两个句子拼起来放到encoder--句子对

cls-class分类

sep-seperate 分隔符 分开每个句子 告诉是哪个句子 两个句子给不同的向量

位置编码不用sin cos, 让网络自己学习

bert--通用任务

encoder 是双向的,两个方向的信息都可以看到

预测mask是谁。

改动:让模型在做微调的时候不要看到mask就做预测



4. QA

1 对每个词每个token 学习一个固定长度的向量

2 bert 用一个词段做向量表示

3 15% 中的10%

4 大量用在cv上,图片可以扣很多小块出来,是有空间关系的,模拟语言模型的关系

6 用小一点的bert模型;多用几个卡;每个gpu存一部分的模型。

7 gpt等 预训练任务本身都会有改进

8 bert之后的论文

相关推荐
边缘计算社区9 分钟前
吉快科技荣膺“金边奖·最佳大模型一体机”,引领AI边缘新时代
人工智能·科技
电子海鸥11 分钟前
迁移学习--fasttext概述
人工智能·机器学习·迁移学习
因_果_律11 分钟前
亚马逊云科技 re:Invent 2024重磅发布!Amazon Bedrock Data Automation 预览版震撼登场
大数据·人工智能·科技·亚马逊云科技·re invent
小陈phd11 分钟前
深度学习之超分辨率算法——SRCNN
python·深度学习·tensorflow·卷积
新智元11 分钟前
李飞飞谢赛宁:多模态 LLM「空间大脑」觉醒,惊现世界模型雏形!
人工智能·llm
dwjf32122 分钟前
机器学习(三)-多项式线性回归
人工智能·机器学习·线性回归
葡萄爱28 分钟前
OpenCV图像分割
人工智能·opencv·计算机视觉
www_3dyz_com1 小时前
人工智能在VR展览中扮演什么角色?
人工智能·vr
刘不二1 小时前
大模型应用—HivisionIDPhotos 证件照在线制作!支持离线、换装、美颜等
人工智能·开源
feilieren1 小时前
AI 视频:初识 Pika 2.0,基本使用攻略
人工智能·ai视频