机器学习和深度学习-- 李宏毅(笔记于个人理解)Day 21

Day 21 Self- Attention

选修部分

学完自适应 再回来看看

Sequence Labling

假如我们现在有一个需要读完全部句子才能解的问题, 那么red window 就需要变得是最大的(最长的句子);

其实这里大家有没有想过,这个玩意儿就是个卷积网络CNN,所谓的window 就是卷积核

what is self Attention?

how self-attention work

主要考虑 Dot -product

实际操作自己也要做关联计算qk

如果b1 和 v2 比较接近的话,那么我们就说这a1 和a2 比较像

b1 --b4 是同时产生的

矩阵运算的角度

你也可以不做softmax(Relu 也行)

(小bug是 a_head 换成 ')


Multi-head -self-attention

Positional Encoding

hand - crafted (s to s 的规则使得不会超过位置信息)

can learned from data

这里感觉不到数学的巧妙,只是感到了工程的流水线的简洁和高效

Applicantions

Self -attention vs CNN

弹性较大,数据较小的时候容易过拟合

提问:

  1. 我们知道 fc 和cnn差不多(无非是fc更宽一些,如果你把cnn当初fc做的话有可能丢失位置信息,或可能需要postion encode),那么问你为什么不把windows变得很大去卷积呢?
  2. 如果说像老师说的
  3. 无法得知最长的sequerence
  4. 参数量大(这里不太明白参数量大在什么地方)

Self-Attention vs RNN

  1. 这里和我理解的差不多,就是特征彼此离得太远有点记不住了
  2. RNN 无法进行并行计算

Self - Attention for Graph

可以做智能知识图谱哎,相关性度量;this is one type of Graph Neural Network(GNN)

相关推荐
百***24371 分钟前
GPT-5.2国内调用+API中转+成本管控
大数据·人工智能·深度学习
言之。23 分钟前
大模型 API 中的 Token Log Probabilities(logprobs)
人工智能·算法·机器学习
Cigaretter730 分钟前
Day 38 早停策略和模型权重的保存
python·深度学习·机器学习
就叫飞六吧44 分钟前
Java “跨平台”指的是(.class 字节码)跨平台,而不是指 JVM 这个软件本身跨平台
服务器·笔记
小鸡吃米…1 小时前
机器学习中的随机森林算法
算法·随机森林·机器学习
lowhot1 小时前
C语言UI框架
c语言·开发语言·笔记·ui
sunfove1 小时前
数理物理方法笔记:微分算子与拉普拉斯算子介绍
笔记
老骥伏枥_H1 小时前
信息系统项目管理师_第十七章 项目绩效域(中)
笔记
啊巴矲1 小时前
小白从零开始勇闯人工智能:机器学习初级篇(TF-IDF)
人工智能·机器学习·tf-idf
dulu~dulu1 小时前
机器学习---计算题总结
人工智能·机器学习·支持向量机·集成学习·贝叶斯分类器