self-attention、transformer、bert理解

参考李宏毅老师的视频 https://www.bilibili.com/video/BV1LP411b7zS?p=2\&spm_id_from=pageDriver\&vd_source=c67a2725ac3ca01c38eb3916d221e708

一个输入,一个输出,未考虑输入之间的关系!!!

self-attention考虑输入之间的关系,关于a1的输出b1的计算方法如上图所示,如此类推计算b2,b3,b4,合并考虑整体计算公式如下图所示,就是找出Wq,Wk和Wv。

multi-head attention:

transformer:

cross attention:

相关推荐
CoovallyAIHub18 分钟前
线性复杂度破局!Swin Transformer 移位窗口颠覆高分辨率视觉建模
深度学习·算法·计算机视觉
星期天要睡觉42 分钟前
机器学习深度学习 所需数据的清洗实战案例 (结构清晰、万字解析、完整代码)包括机器学习方法预测缺失值的实践
人工智能·深度学习·机器学习·数据挖掘
renhongxia11 小时前
大模型微调RAG、LORA、强化学习
人工智能·深度学习·算法·语言模型
dundunmm1 小时前
【论文阅读】SIMBA: single-cell embedding along with features(1)
论文阅读·深度学习·神经网络·embedding·生物信息·单细胞·多组学
一个天蝎座 白勺 程序猿5 小时前
Apache IoTDB(4):深度解析时序数据库 IoTDB 在Kubernetes 集群中的部署与实践指南
数据库·深度学习·kubernetes·apache·时序数据库·iotdb
抠头专注python环境配置6 小时前
Pytorch GPU版本安装保姆级教程
pytorch·python·深度学习·conda
ccLianLian8 小时前
深度学习·GFSS
深度学习
Ronin-Lotus16 小时前
深度学习篇---卷积核的权重
人工智能·深度学习
敬往事一杯酒哈16 小时前
第7节 神经网络
人工智能·深度学习·神经网络
若天明17 小时前
深度学习-计算机视觉-微调 Fine-tune
人工智能·python·深度学习·机器学习·计算机视觉·ai·cnn