动手学深度学习69 BERT预训练

1. BERT




3亿参数 30亿个词

在输入和loss上有创新

两个句子拼起来放到encoder--句子对

cls-class分类

sep-seperate 分隔符 分开每个句子 告诉是哪个句子 两个句子给不同的向量

位置编码不用sin cos, 让网络自己学习

bert--通用任务

encoder 是双向的,两个方向的信息都可以看到

预测mask是谁。

改动:让模型在做微调的时候不要看到mask就做预测



4. QA

1 对每个词每个token 学习一个固定长度的向量

2 bert 用一个词段做向量表示

3 15% 中的10%

4 大量用在cv上,图片可以扣很多小块出来,是有空间关系的,模拟语言模型的关系

6 用小一点的bert模型;多用几个卡;每个gpu存一部分的模型。

7 gpt等 预训练任务本身都会有改进

8 bert之后的论文

相关推荐
码上宝藏13 小时前
ComfyUI新插件上线!多模态多视角生成,中文场景适配拉满——手把手教你玩转ComfyUI-qwenmultiangle
人工智能·comfyui
故乡de云13 小时前
Google Cloud与AWS大数据AI服务对比:2026年企业选型指南
大数据·人工智能·aws
●VON13 小时前
可信 AI 认证:从技术承诺到制度信任
人工智能·学习·安全·制造·von
AI架构师易筋13 小时前
AIOps 告警归因中的提示工程:从能用到可上生产(4 阶梯)
开发语言·人工智能·llm·aiops·rag
数说星榆18114 小时前
在线高清泳道图制作工具 无水印 PC
大数据·人工智能·架构·机器人·流程图
说私域14 小时前
B站内容生态下的私域流量运营创新:基于AI智能名片链动2+1模式与S2B2C商城小程序的融合实践
人工智能·小程序·流量运营
特立独行的猫a14 小时前
告别写作焦虑:用 n8n + AI 打造“输入即发布”的自驱动写作工作流
人工智能·工作流·n8n
老胡全房源系统14 小时前
2026年1月适合房产经纪人用的房产中介管理系统
大数据·人工智能·房产经纪人培训
一瞬祈望14 小时前
⭐ 深度学习入门体系(第 11 篇): 卷积神经网络的卷积核是如何学习到特征的?
深度学习·学习·cnn
GISer_Jing14 小时前
智能体工具使用、规划模式
人工智能·设计模式·prompt·aigc