机器学习和深度学习-- 李宏毅(笔记于个人理解)Day 21

Day 21 Self- Attention

选修部分

学完自适应 再回来看看

Sequence Labling

假如我们现在有一个需要读完全部句子才能解的问题, 那么red window 就需要变得是最大的(最长的句子);

其实这里大家有没有想过,这个玩意儿就是个卷积网络CNN,所谓的window 就是卷积核

what is self Attention?

how self-attention work

主要考虑 Dot -product

实际操作自己也要做关联计算qk

如果b1 和 v2 比较接近的话,那么我们就说这a1 和a2 比较像

b1 --b4 是同时产生的

矩阵运算的角度

你也可以不做softmax(Relu 也行)

(小bug是 a_head 换成 ')


Multi-head -self-attention

Positional Encoding

hand - crafted (s to s 的规则使得不会超过位置信息)

can learned from data

这里感觉不到数学的巧妙,只是感到了工程的流水线的简洁和高效

Applicantions

Self -attention vs CNN

弹性较大,数据较小的时候容易过拟合

提问:

  1. 我们知道 fc 和cnn差不多(无非是fc更宽一些,如果你把cnn当初fc做的话有可能丢失位置信息,或可能需要postion encode),那么问你为什么不把windows变得很大去卷积呢?
  2. 如果说像老师说的
  3. 无法得知最长的sequerence
  4. 参数量大(这里不太明白参数量大在什么地方)

Self-Attention vs RNN

  1. 这里和我理解的差不多,就是特征彼此离得太远有点记不住了
  2. RNN 无法进行并行计算

Self - Attention for Graph

可以做智能知识图谱哎,相关性度量;this is one type of Graph Neural Network(GNN)

相关推荐
君为先-bey1 小时前
CogVideoX——Transformer从文本到视频的扩散模型
深度学习·音视频·transformer·扩散模型
青风971 小时前
SDDGR:基于稳定扩散的深度生成重放,用于类增量对象检测(CVPR 2024)
网络·人工智能·深度学习·神经网络·计算机视觉
忆~遂愿2 小时前
《大模型驱动软件测试》| 软件工程3.0时代,大模型驱动测试实战指南
人工智能·深度学习·神经网络·机器学习·自然语言处理·软件工程·知识图谱
智者知已应修善业2 小时前
【51单片机8位数码管动态显示日期小数点风格】2023-11-13
c++·经验分享·笔记·算法·51单片机
智者知已应修善业2 小时前
【51单片机有三个LED 分别第一个灯闪三下 再到第二个灯又闪三下 再到第三个灯又闪三下 就这样循环程序】2023-11-16
c++·经验分享·笔记·算法·51单片机
暴躁小师兄数据学院2 小时前
【AI大数据工程师特训笔记】第04讲:PostgreSQL 数据库内置函数详解
大数据·数据库·笔记·ai·语言模型
这是谁的博客?2 小时前
Mamba 状态空间模型深度解析:挑战 Transformer 的新一代架构
深度学习·ai·架构·transformer·ssm·mamba·状态空间模型
有为少年4 小时前
深度隐式层 | 隐式函数与自动微分
人工智能·神经网络·线性代数·机器学习·矩阵
极光代码工作室5 小时前
基于机器学习的二手商品价格预测系统
人工智能·python·深度学习·机器学习