机器学习和深度学习-- 李宏毅(笔记于个人理解)Day 21

Day 21 Self- Attention

选修部分

学完自适应 再回来看看

Sequence Labling

假如我们现在有一个需要读完全部句子才能解的问题, 那么red window 就需要变得是最大的(最长的句子);

其实这里大家有没有想过,这个玩意儿就是个卷积网络CNN,所谓的window 就是卷积核

what is self Attention?

how self-attention work

主要考虑 Dot -product

实际操作自己也要做关联计算qk

如果b1 和 v2 比较接近的话,那么我们就说这a1 和a2 比较像

b1 --b4 是同时产生的

矩阵运算的角度

你也可以不做softmax(Relu 也行)

(小bug是 a_head 换成 ')


Multi-head -self-attention

Positional Encoding

hand - crafted (s to s 的规则使得不会超过位置信息)

can learned from data

这里感觉不到数学的巧妙,只是感到了工程的流水线的简洁和高效

Applicantions

Self -attention vs CNN

弹性较大,数据较小的时候容易过拟合

提问:

  1. 我们知道 fc 和cnn差不多(无非是fc更宽一些,如果你把cnn当初fc做的话有可能丢失位置信息,或可能需要postion encode),那么问你为什么不把windows变得很大去卷积呢?
  2. 如果说像老师说的
  3. 无法得知最长的sequerence
  4. 参数量大(这里不太明白参数量大在什么地方)

Self-Attention vs RNN

  1. 这里和我理解的差不多,就是特征彼此离得太远有点记不住了
  2. RNN 无法进行并行计算

Self - Attention for Graph

可以做智能知识图谱哎,相关性度量;this is one type of Graph Neural Network(GNN)

相关推荐
算法熔炉10 小时前
深度学习面试八股文(1)——训练
人工智能·深度学习·面试
算法熔炉10 小时前
深度学习面试八股文(2)——训练
人工智能·深度学习·算法
逐辰十七10 小时前
EDA学习笔记
笔记·学习
cici1587410 小时前
含风电场的十机24时系统机组出力优化算法
人工智能·算法·机器学习
代码游侠11 小时前
应用——Linux进程编程实例分析
linux·运维·网络·笔记·学习·算法
deephub11 小时前
PyCausalSim:基于模拟的因果发现的Python框架
开发语言·python·机器学习·因果发现
m0_6896182811 小时前
这款微光学天线让机器人拥有“超灵敏多感官”,重量仅0.1克
网络·笔记·学习
weixin_4231961711 小时前
# Python 深度学习 初始化(超参数、权重、函数输入列表)避坑指南:None 占位、可变共享与工厂函数
人工智能·深度学习
He BianGu11 小时前
【笔记】在WPF App.cs中结合 IServiceCollection 进行 IOC 依赖注入
数据库·笔记·wpf
colus_SEU11 小时前
【计算机网络笔记】第五章 网络层的控制平面
笔记·计算机网络