self-attention、transformer、bert理解

参考李宏毅老师的视频 https://www.bilibili.com/video/BV1LP411b7zS?p=2\&spm_id_from=pageDriver\&vd_source=c67a2725ac3ca01c38eb3916d221e708

一个输入,一个输出,未考虑输入之间的关系!!!

self-attention考虑输入之间的关系,关于a1的输出b1的计算方法如上图所示,如此类推计算b2,b3,b4,合并考虑整体计算公式如下图所示,就是找出Wq,Wk和Wv。

multi-head attention:

transformer:

cross attention:

相关推荐
Jackilina_Stone3 小时前
【DL】浅谈深度学习中的知识蒸馏 | 输出层知识蒸馏
人工智能·深度学习·机器学习·蒸馏
代码猪猪傻瓜coding5 小时前
关于 形状信息提取的说明
人工智能·python·深度学习
Kai HVZ6 小时前
《深度学习》——自然语言处理(NLP)
人工智能·深度学习·自然语言处理
C#Thread6 小时前
机器视觉--索贝尔滤波
人工智能·深度学习·计算机视觉
Zhouqi_Hua8 小时前
LLM论文笔记 12: Teaching Arithmetic to Small Transformers
论文阅读·人工智能·深度学习·神经网络·语言模型
wyg_0311138 小时前
用deepseek学大模型08-循环神经网络
人工智能·rnn·深度学习
Dymc8 小时前
【深度学习在图像配准中的应用与挑战】
人工智能·深度学习·图像配准
E_Magic_Cube8 小时前
AI工具篇:利用DeepSeek+Kimi 辅助生成综述汇报PPT
人工智能·深度学习·效率·ai工具·deepseek
North_D9 小时前
ML.NET库学习008:使用ML.NET进行心脏疾病预测模型开发
人工智能·深度学习·神经网络·目标检测·机器学习·自然语言处理·数据挖掘
空空转念9 小时前
目前(2025年2月)计算机视觉(CV)领域一些表现优异的深度学习模型
人工智能·深度学习·计算机视觉