self-attention、transformer、bert理解

ruyingcai6666662023-10-04 14:52

参考李宏毅老师的视频 https://www.bilibili.com/video/BV1LP411b7zS?p=2\&spm_id_from=pageDriver\&vd_source=c67a2725ac3ca01c38eb3916d221e708

一个输入，一个输出，未考虑输入之间的关系！！！

self-attention考虑输入之间的关系，关于a1的输出b1的计算方法如上图所示，如此类推计算b2，b3，b4，合并考虑整体计算公式如下图所示，就是找出Wq，Wk和Wv。

multi-head attention：

transformer：

cross attention：

上一篇：Linux内存管理 | 一、内存管理的由来及思想

下一篇：Java基础学习

热门推荐

01BongoCat - 跨平台键盘猫动画工具 02GitHub 镜像站点 03UV安装并设置国内源 04两千字总结：Codex 国内如何安装和使用的教程，以及如何设置中文回答 05Linux下V2Ray安装配置指南 06KGG转MP3工具|非KGM文件|解密音频 07荣耀手机2025年10月发布的新品Magic8比起Magic7，在硬件、性能、价格等上有什么区别，有什么优势 08GitLab 零基础入门指南：从安装到项目管理全流程 09windows找不到gpedit.msc（本地组策略编辑器）102025软件测试面试八股文（含答案+文档）