self-attention、transformer、bert理解

参考李宏毅老师的视频 https://www.bilibili.com/video/BV1LP411b7zS?p=2\&spm_id_from=pageDriver\&vd_source=c67a2725ac3ca01c38eb3916d221e708

一个输入,一个输出,未考虑输入之间的关系!!!

self-attention考虑输入之间的关系,关于a1的输出b1的计算方法如上图所示,如此类推计算b2,b3,b4,合并考虑整体计算公式如下图所示,就是找出Wq,Wk和Wv。

multi-head attention:

transformer:

cross attention:

相关推荐
LHZSMASH!2 分钟前
神经流形:大脑功能几何基础的革命性视角
人工智能·深度学习·神经网络·机器学习
忙碌5443 分钟前
智能应用开发指南:深度学习、大数据与微服务的融合之道
大数据·深度学习·微服务
Dfreedom.16 分钟前
Softmax 函数:深度学习中的概率大师
人工智能·深度学习·神经网络·softmax·激活函数
大明者省36 分钟前
图像卷积操值超过了255怎么处理
深度学习·神经网络·机器学习
跳跳糖炒酸奶1 小时前
第十章、GPT1:Improving Language Understanding by Generative Pre-Training(代码部分)
人工智能·自然语言处理·大模型·transformer·gpt1
中杯可乐多加冰1 小时前
基于网易CodeWave智能开发平台构建宝可梦图鉴
深度学习·低代码·ai·数据分析·数据采集·无代码·网易codewave征文
小白狮ww1 小时前
模型不再是一整块!Hunyuan3D-Part 实现可控组件式 3D 生成
人工智能·深度学习·机器学习·教程·3d模型·hunyuan3d·3d创作
高洁012 小时前
面向强化学习的状态空间建模:RSSM的介绍和PyTorch实现(3)
人工智能·python·深度学习·神经网络·transformer
apocalypsx3 小时前
深度学习-深度卷积神经网络AlexNet
人工智能·深度学习·cnn
无风听海4 小时前
神经网络之特征值与特征向量
人工智能·深度学习·神经网络