技术栈
Transformer以及BERT阅读参考博文
mumukehao
2025-02-14 13:56
Transformer以及BERT阅读参考博文
Transformer学习:
已有博主的讲解特别好了:
李沐:
Transformer论文逐段精读【论文精读】_哔哩哔哩_bilibili
知乎:
Transformer模型详解(图解最完整版) - 知乎
个人杂想:
Q K T ∗ V QK^{T}*V QKT∗V中, Q K T QK^T QKT其实可以理解为相似性矩阵S,那么 S ∗ V S*V S∗V其实就相当于相似性矩阵对原始的嵌入加权求和。这感觉就是GAT的一个思想源泉。
残差连接和concat挺重要的
BERT
BERT模型架构详解 - 知乎
李沐:
BERT 论文逐段精读【论文精读】_哔哩哔哩_bilibili
文本属性图
上一篇:
时尚搭配助手,深度解析用Keras构建智能穿搭推荐系统
下一篇:
DeepSeek从入门到精通:提示词设计的系统化指南
相关推荐
mumukehao
3 个月前
Pretraining Language Models with Text-Attributed Heterogeneous Graphs
文本属性图
热门推荐
01
KGG转MP3工具|非KGM文件|解密音频
02
YOLOv8入门 | 重要性能衡量指标、训练结果评价及分析及影响mAP的因素【发论文关注的指标】
03
从零安装 LLaMA-Factory 微调 Qwen 大模型成功及所有的坑
04
【SpeedAI科研小助手】2分钟极速解决知网维普重复率、AIGC率过高,一键全文降!文件格式不变,公式都保留的!
05
YOLOv5改进 | 添加CA注意力机制 + 增加预测层 + 更换损失函数之GIoU
06
Coze扣子平台完整体验和实践(附国内和国际版对比)
07
Ubuntu24.04安装中文输入法
08
DeepSeek各版本说明与优缺点分析
09
苍穹外卖面试总结
10
组基轨迹建模 GBTM的介绍与实现(Stata 或 R)