self-attention、transformer、bert理解

参考李宏毅老师的视频 https://www.bilibili.com/video/BV1LP411b7zS?p=2\&spm_id_from=pageDriver\&vd_source=c67a2725ac3ca01c38eb3916d221e708

一个输入,一个输出,未考虑输入之间的关系!!!

self-attention考虑输入之间的关系,关于a1的输出b1的计算方法如上图所示,如此类推计算b2,b3,b4,合并考虑整体计算公式如下图所示,就是找出Wq,Wk和Wv。

multi-head attention:

transformer:

cross attention:

相关推荐
行如流水15 小时前
BLIP和BLIP2解析
深度学习
cskywit16 小时前
MobileMamba中的小波分析
人工智能·深度学习
HyperAI超神经16 小时前
【vLLM 学习】Prithvi Geospatial Mae
人工智能·python·深度学习·学习·大语言模型·gpu·vllm
L.fountain20 小时前
图像自回归生成(Auto-regressive image generation)实战学习(一)
人工智能·深度学习·学习·计算机视觉·图像自回归
لا معنى له21 小时前
学习笔记:卷积神经网络(CNN)
人工智能·笔记·深度学习·神经网络·学习·cnn
资源补给站21 小时前
论文13 | Nature: 数据驱动的地球系统科学的深度学习和过程理解
人工智能·深度学习
金融小师妹21 小时前
非农数据LSTM时序建模强化未来降息预期,GVX-GARCH驱动金价4300点位多空博弈
大数据·人工智能·深度学习
weixin_3954489121 小时前
迁移后的主要升级点(TDA4 相对 TDA2)
人工智能·深度学习·机器学习
光锥智能1 天前
罗福莉首秀,雷军的AI新战事
人工智能·深度学习·机器学习
心疼你的一切1 天前
使用Transformer构建文本分类器
人工智能·深度学习·神经网络·机器学习·transformer