机器学习和深度学习-- 李宏毅(笔记于个人理解)Day 21

Day 21 Self- Attention

选修部分

学完自适应 再回来看看

Sequence Labling

假如我们现在有一个需要读完全部句子才能解的问题, 那么red window 就需要变得是最大的(最长的句子);

其实这里大家有没有想过,这个玩意儿就是个卷积网络CNN,所谓的window 就是卷积核

what is self Attention?

how self-attention work

主要考虑 Dot -product

实际操作自己也要做关联计算qk

如果b1 和 v2 比较接近的话,那么我们就说这a1 和a2 比较像

b1 --b4 是同时产生的

矩阵运算的角度

你也可以不做softmax(Relu 也行)

(小bug是 a_head 换成 ')


Multi-head -self-attention

Positional Encoding

hand - crafted (s to s 的规则使得不会超过位置信息)

can learned from data

这里感觉不到数学的巧妙,只是感到了工程的流水线的简洁和高效

Applicantions

Self -attention vs CNN

弹性较大,数据较小的时候容易过拟合

提问:

  1. 我们知道 fc 和cnn差不多(无非是fc更宽一些,如果你把cnn当初fc做的话有可能丢失位置信息,或可能需要postion encode),那么问你为什么不把windows变得很大去卷积呢?
  2. 如果说像老师说的
  3. 无法得知最长的sequerence
  4. 参数量大(这里不太明白参数量大在什么地方)

Self-Attention vs RNN

  1. 这里和我理解的差不多,就是特征彼此离得太远有点记不住了
  2. RNN 无法进行并行计算

Self - Attention for Graph

可以做智能知识图谱哎,相关性度量;this is one type of Graph Neural Network(GNN)

相关推荐
日更嵌入式的打工仔14 分钟前
LAN9253中文注释第八章
笔记·原文翻译
智能交通技术43 分钟前
iTSTech:从AGI到AMI——自动驾驶的新方向 2026
人工智能·机器学习·自动驾驶·agi
小lo想吃棒棒糖43 分钟前
思路启发:基于预测编码的Transformer无反向传播训练:局部收敛性与全局最优性分析:
人工智能·深度学习·transformer
2501_926978331 小时前
重整化群理论:从基础到前沿应用的综述(公式版)---AGI理论系统基础2.2
人工智能·经验分享·深度学习·机器学习·agi
程序员徐师兄1 小时前
Python 基于深度学习的电影评论可视化系统
python·深度学习·深度学习的电影评论可视化系统·深度学习评论情感分析
程序员徐师兄1 小时前
基于 Python 深度学习的电影评论情感分析算法
python·深度学习·算法·电影情感分析算法·评论情感分析
过期的秋刀鱼!1 小时前
深度学习-预测与向前传播
人工智能·深度学习
肾透侧视攻城狮1 小时前
《掌握TensorFlow图像处理全链路:核心API详解、标准化/增强技巧、管道构建与高频问题解答》
人工智能·深度学习·tf.image 模块·keras预处理层处理图像·数据增强技术·tensorfl图像数据处理·自定义图像处理层
Ro Jace2 小时前
脉冲神经网络与神经形态计算异同
人工智能·深度学习·神经网络
强子感冒了2 小时前
JavaScript学习笔记:函数、方法与继承(原型与class)
javascript·笔记·学习