机器学习和深度学习-- 李宏毅(笔记于个人理解)Day 21

Day 21 Self- Attention

选修部分

学完自适应 再回来看看

Sequence Labling

假如我们现在有一个需要读完全部句子才能解的问题, 那么red window 就需要变得是最大的(最长的句子);

其实这里大家有没有想过,这个玩意儿就是个卷积网络CNN,所谓的window 就是卷积核

what is self Attention?

how self-attention work

主要考虑 Dot -product

实际操作自己也要做关联计算qk

如果b1 和 v2 比较接近的话,那么我们就说这a1 和a2 比较像

b1 --b4 是同时产生的

矩阵运算的角度

你也可以不做softmax(Relu 也行)

(小bug是 a_head 换成 ')


Multi-head -self-attention

Positional Encoding

hand - crafted (s to s 的规则使得不会超过位置信息)

can learned from data

这里感觉不到数学的巧妙,只是感到了工程的流水线的简洁和高效

Applicantions

Self -attention vs CNN

弹性较大,数据较小的时候容易过拟合

提问:

  1. 我们知道 fc 和cnn差不多(无非是fc更宽一些,如果你把cnn当初fc做的话有可能丢失位置信息,或可能需要postion encode),那么问你为什么不把windows变得很大去卷积呢?
  2. 如果说像老师说的
  3. 无法得知最长的sequerence
  4. 参数量大(这里不太明白参数量大在什么地方)

Self-Attention vs RNN

  1. 这里和我理解的差不多,就是特征彼此离得太远有点记不住了
  2. RNN 无法进行并行计算

Self - Attention for Graph

可以做智能知识图谱哎,相关性度量;this is one type of Graph Neural Network(GNN)

相关推荐
崎岖Qiu8 分钟前
【深度剖析】:结合 Spring Bean 的生命周期理解 @PostConstruct 的原理
java·笔记·后端·spring·javaee
蒸蒸yyyyzwd31 分钟前
mapreduce步骤学习总结
笔记
李昊哲小课36 分钟前
机器学习核心概念与经典算法全解析
人工智能·算法·机器学习·scikit-learn
勇气要爆发1 小时前
【AI扫盲】大模型(LLM)原理详解:从 DeepSeek 到 GPT-5 全面解析 (2026最新版)
人工智能·gpt·机器学习·llm·微调·多模态·预训练
秦ぅ时1 小时前
【OpenAI】claude-opus-4-20250514版本功能详解与应用示例获取OpenAI API KEY的两种方式,开发者必看全方面教程!
人工智能·深度学习
LeeeX!1 小时前
YOLO12全面解析与安卓平台NCNN部署实战:高效注意力机制的落地实践(待更新)
深度学习·yolo·视觉检测·边缘计算
RockHopper20251 小时前
流程工业的时序模型与机制论3M法则
人工智能·机器学习·智能制造·机制论
saoys2 小时前
Opencv 学习笔记:轮廓发现(提取 + 绘制全流程)
笔记·opencv·学习
GIS数据转换器2 小时前
基于GIS的宠物救助服务平台
大数据·人工智能·科技·机器学习·无人机·智慧城市·宠物
AI街潜水的八角2 小时前
基于YOLO26苹果水果缺陷检测系统1:苹果水果缺陷检测数据集说明(含下载链接)
人工智能·深度学习·神经网络