动手学深度学习69 BERT预训练

1. BERT




3亿参数 30亿个词

在输入和loss上有创新

两个句子拼起来放到encoder--句子对

cls-class分类

sep-seperate 分隔符 分开每个句子 告诉是哪个句子 两个句子给不同的向量

位置编码不用sin cos, 让网络自己学习

bert--通用任务

encoder 是双向的,两个方向的信息都可以看到

预测mask是谁。

改动:让模型在做微调的时候不要看到mask就做预测



4. QA

1 对每个词每个token 学习一个固定长度的向量

2 bert 用一个词段做向量表示

3 15% 中的10%

4 大量用在cv上,图片可以扣很多小块出来,是有空间关系的,模拟语言模型的关系

6 用小一点的bert模型;多用几个卡;每个gpu存一部分的模型。

7 gpt等 预训练任务本身都会有改进

8 bert之后的论文

相关推荐
zhangfeng11331 分钟前
ONNX Runtime 微软的推理引擎 TensorRT,NVIDIA GPU 上的深度学习推理, CUDA Graph
人工智能·深度学习·microsoft
硬核子牙12 分钟前
你管这破玩意叫ChatGPT?
人工智能·chatgpt·程序员
亲爱的译官.15 分钟前
能精准双语翻译的智能手表!独立离线可用,全能好用更省心
人工智能·旅游·智能手表·亲爱的翻译官·翻译设备
风华圆舞15 分钟前
鸿蒙 + Flutter 下 AI 页面的状态协同设计
人工智能·flutter·harmonyos
马***41119 分钟前
科学高效学英语:全方位提升语言综合应用能力
人工智能
人工智能AI技术20 分钟前
AI‑Skills解锁效率天花板,告别低效闲聊式提问
人工智能
comcoo25 分钟前
告别复杂配置!Hermes Windows 极简部署流程详解【附部署包】
人工智能·开源软件·hermes·hermes部署包
qq_4112624225 分钟前
AI-01开发板编译、烧录与双配网模式说明
人工智能·ai·esp32-c2·四博
百度搜知知学社25 分钟前
ChatOn全新升级:融合GPT-4.0的AI聊天与绘画体验
人工智能·ai聊天·gpt-4.0·绘画生成·模型升级
TinssonTai25 分钟前
这个 VS Code 插件让我的 AI Coding 又快又稳 - 旧瓶装新酒
前端·人工智能·程序员