动手学深度学习69 BERT预训练

陌上阳光2024-11-14 12:47

1. BERT

3亿参数 30亿个词

在输入和loss上有创新

两个句子拼起来放到encoder--句子对

cls-class分类

sep-seperate 分隔符分开每个句子告诉是哪个句子两个句子给不同的向量

位置编码不用sin cos，让网络自己学习

bert--通用任务

encoder 是双向的，两个方向的信息都可以看到

预测mask是谁。

改动：让模型在做微调的时候不要看到mask就做预测

4. QA

1 对每个词每个token 学习一个固定长度的向量

2 bert 用一个词段做向量表示

3 15% 中的10%

4 大量用在cv上，图片可以扣很多小块出来，是有空间关系的，模拟语言模型的关系

6 用小一点的bert模型；多用几个卡；每个gpu存一部分的模型。

7 gpt等预训练任务本身都会有改进

8 bert之后的论文

上一篇：Element plus使用menu时候如何在折叠时候隐藏掉组件自带的小箭头

下一篇：MongoDB新版本，单节点安装

热门推荐

01GitHub 镜像站点 02UV安装并设置国内源 03BongoCat - 跨平台键盘猫动画工具 04Linux下V2Ray安装配置指南 05安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）06Valdi：Snapchat 开源的新一代跨平台 UI 框架 07Labelme从安装到标注：零基础完整指南 082025 最新教程：注册并切换到美区 Apple ID 09综合整理：pdf预览显示：你尝试预览的文件可能对你的计算机有害。如果你信任此文件以及其来源，请打开此文件以看其内容，如何解决以正常预览文件 10jdk21下载、安装（Windows、Linux、macOS）