Transformer以及BERT阅读参考博文

mumukehao2025-02-14 13:56

Transformer以及BERT阅读参考博文

Transformer学习：

已有博主的讲解特别好了：

个人杂想：

Q K T ∗ V QK^{T}*V QKT∗V中， Q K T QK^T QKT其实可以理解为相似性矩阵S，那么 S ∗ V S*V S∗V其实就相当于相似性矩阵对原始的嵌入加权求和。这感觉就是GAT的一个思想源泉。
残差连接和concat挺重要的

BERT

上一篇：时尚搭配助手，深度解析用Keras构建智能穿搭推荐系统

下一篇：DeepSeek从入门到精通：提示词设计的系统化指南

热门推荐

01GitHub 镜像站点 02BongoCat - 跨平台键盘猫动画工具 03UV安装并设置国内源 04Linux下V2Ray安装配置指南 05jdk21下载、安装（Windows、Linux、macOS）06安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）07GitLab 零基础入门指南：从安装到项目管理全流程 08NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 09在VSCode配置Java开发环境的保姆级教程（适配各类AI编程IDE）10Overleaf编译超时，超出免费计划编译时限（已解决）