技术栈
Transformer以及BERT阅读参考博文
mumukehao
2025-02-14 13:56
Transformer以及BERT阅读参考博文
Transformer学习:
已有博主的讲解特别好了:
李沐:
Transformer论文逐段精读【论文精读】_哔哩哔哩_bilibili
知乎:
Transformer模型详解(图解最完整版) - 知乎
个人杂想:
Q K T ∗ V QK^{T}*V QKT∗V中, Q K T QK^T QKT其实可以理解为相似性矩阵S,那么 S ∗ V S*V S∗V其实就相当于相似性矩阵对原始的嵌入加权求和。这感觉就是GAT的一个思想源泉。
残差连接和concat挺重要的
BERT
BERT模型架构详解 - 知乎
李沐:
BERT 论文逐段精读【论文精读】_哔哩哔哩_bilibili
文本属性图
上一篇:
时尚搭配助手,深度解析用Keras构建智能穿搭推荐系统
下一篇:
DeepSeek从入门到精通:提示词设计的系统化指南
相关推荐
mumukehao
1 年前
Pretraining Language Models with Text-Attributed Heterogeneous Graphs
文本属性图
热门推荐
01
2026年4月技术前沿:AI大模型爆发、智能体革命与量子安全新纪元
02
GitHub 镜像站点
03
2026 年 AI 编程助手全面对比评测:Cursor vs Copilot vs Claude Code vs GitHub Copilot Free
04
Claude Code Windows 兼容性问题:指定版本 2.1.112 可解决
05
AI Weekly | 2026年4月第二周 · GitHub热门项目与AI发展趋势深度解析
06
UBUNTU Claude Code 报错 claude native binary not installed
07
GPT-6发布日深度解析-Symphony架构200万Token实战
08
从零部署 Hermes Agent:一只"会成长的 AI 马"保姆级安装教程
09
从限购到畅通:GLM-5.1 Coding Plan接入攻略
10
零成本!Ollama本地部署国产大模型全指南(支持Kimi-K2.5/GLM-5/Qwen,新手秒上手)