动手学深度学习69 BERT预训练

1. BERT




3亿参数 30亿个词

在输入和loss上有创新

两个句子拼起来放到encoder--句子对

cls-class分类

sep-seperate 分隔符 分开每个句子 告诉是哪个句子 两个句子给不同的向量

位置编码不用sin cos, 让网络自己学习

bert--通用任务

encoder 是双向的,两个方向的信息都可以看到

预测mask是谁。

改动:让模型在做微调的时候不要看到mask就做预测



4. QA

1 对每个词每个token 学习一个固定长度的向量

2 bert 用一个词段做向量表示

3 15% 中的10%

4 大量用在cv上,图片可以扣很多小块出来,是有空间关系的,模拟语言模型的关系

6 用小一点的bert模型;多用几个卡;每个gpu存一部分的模型。

7 gpt等 预训练任务本身都会有改进

8 bert之后的论文

相关推荐
Guheyunyi6 分钟前
安防监控系统,如何为你的生活构筑智慧安全屏障?
大数据·人工智能·安全·信息可视化·生活
计算衎11 分钟前
python的AI大模型之facebook/nllb-200-distilled-600M的介绍和使用
人工智能·python·facebook·huggingface_hub
小狗照亮每一天11 分钟前
【菜狗看背景】自动驾驶发展背景——20251117
人工智能·机器学习·自动驾驶
运筹说13 分钟前
运筹说145期:从快递到自动驾驶:启发式算法的智慧幕后
人工智能·自动驾驶·启发式算法
大白IT13 分钟前
智能驾驶:从感知到规控的自动驾驶系统全解析
人工智能·机器学习·自动驾驶
FL162386312917 分钟前
智慧交通自动驾驶场景道路异常检测数据集VOC+YOLO格式8302张6类别
人工智能·yolo·自动驾驶
拓端研究室18 分钟前
专题:2025年AI Agent智能体行业价值及应用分析报告:技术落地与风险治理|附140+ 份报告PDF、数据、可视化模板汇总下载
人工智能·pdf
数据与后端架构提升之路20 分钟前
英伟达的 Alpamayo-R1:利用因果链推理赋能自动驾驶模型和数据工程剖析
人工智能·机器学习·自动驾驶
算家计算29 分钟前
Grok 4.1深夜发布!算力需求跃升背后的技术演进与开发者机遇
人工智能·资讯
deephub43 分钟前
TOON:专为 LLM 设计的轻量级数据格式
人工智能·prompt·大语言模型