self-attention、transformer、bert理解

参考李宏毅老师的视频 https://www.bilibili.com/video/BV1LP411b7zS?p=2\&spm_id_from=pageDriver\&vd_source=c67a2725ac3ca01c38eb3916d221e708

一个输入,一个输出,未考虑输入之间的关系!!!

self-attention考虑输入之间的关系,关于a1的输出b1的计算方法如上图所示,如此类推计算b2,b3,b4,合并考虑整体计算公式如下图所示,就是找出Wq,Wk和Wv。

multi-head attention:

transformer:

cross attention:

相关推荐
JicasdC123asd1 小时前
【深度学习实战】基于Mask-RCNN和HRNetV2P的腰果智能分级系统_1
人工智能·深度学习
陈天伟教授1 小时前
人工智能应用- 语言理解:07.大语言模型
人工智能·深度学习·语言模型
花月mmc1 小时前
CanMV K230 波形识别——整体部署(4)
人工智能·python·嵌入式硬件·深度学习·信号处理
小徐xxx2 小时前
Softmax回归(分类问题)学习记录
深度学习·分类·回归·softmax·学习记录
Rorsion2 小时前
机器学习过程(从机器学习到深度学习)
人工智能·深度学习·机器学习
咚咚王者2 小时前
人工智能之核心技术 深度学习 第十章 模型部署基础
人工智能·深度学习
ydl11282 小时前
深度学习优化器详解:指数加权平均EWA、动量梯度下降Momentum、均方根传递RMSprop、Adam 从原理到实操
人工智能·深度学习
学电子她就能回来吗2 小时前
深度学习速成:完整的模型验证(测试,demo)套路
人工智能·深度学习
CelestialYuxin2 小时前
【微论文】机器人第一性原理:技术演进的本构逻辑与实现路径
深度学习·机器人·硬件架构
阿杰学AI3 小时前
AI核心知识86——大语言模型之 Superalignment(简洁且通俗易懂版)
人工智能·深度学习·ai·语言模型·超级对齐·superalignment·#ai安全