【Transformer】Transformer and BERT（1）

bryant_meng2023-12-21 6:54

文章目录

Transformer
BERT

太...完整了！同济大佬唐宇迪博士终于把【Transformer】入门到精通全套课程分享出来了，最新前沿方向

学习笔记

Transformer

无法并行，层数比较少

词向量生成之后，不会变，没有结合语境信息的情况下，存在一词多义，无法处理

词如何编码成向量

第一句话中，it 和 animal 的相应最高

内积，正交的话内积为0，越相近（相关），内积越大

d k \sqrt{d_k} dk 的目的，向量维度越大，内积也越大， d k \sqrt{d_k} dk 起到 scale 的作用

对于每个输入 x1 ... xn, 计算一样的，可以并行为一个矩阵乘法

多头类比多个卷积核，来提取多种特征

不同的头得到的特征表达也不相同

多头包含在了 self-attention 中了

引入位置编码，形式有很多，比如 one-hot，原文中作者使用的是周期性信号进行编码

layer normalization 和 residual structure

encoder-decoder attention，encoder 的 K,V，decoder 的 Q

mask 机制：以翻译为例，不能透答案了，翻译到 I am a 的时候，student 要被 mask 起来，只能计算 I am a 的注意力

不能用后面未知的结果当成已知的条件

BERT

语料

预测出 mask，来训练提升特征编码能力

end-to-end 的形式，词编码表达和 task 一起训练

答案 d2->d3

上一篇：美颜SDK技术对比，深入了解视频美颜SDK的工作机制

下一篇：Linux部署Nacos注册中心结合内网穿透实现远程访问UI管理界面

热门推荐

01GitHub 镜像站点 02UV安装并设置国内源 03安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）04Linux下V2Ray安装配置指南 05综合整理：pdf预览显示：你尝试预览的文件可能对你的计算机有害。如果你信任此文件以及其来源，请打开此文件以看其内容，如何解决以正常预览文件 06BongoCat - 跨平台键盘猫动画工具 07Labelme从安装到标注：零基础完整指南 08jdk21下载、安装（Windows、Linux、macOS）09全面评测 | Photoshop 2026 新特性深度解析与实测体验 10NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南