技术栈
单头注意力
boss-dog
2 天前
单头注意力
单头注意力(Single-Head Attention)
单头注意力计算目的:计算一句话里的每个词,让每个词去"问"所有其他词"你跟我有多相关?",然后根据相关度,把其他词的信息加权汇总到自己身上。
hudawei996
6 个月前
矩阵
·
transformer
·
梯度下降
·
多头注意力
·
单头注意力
W_q,W_k,W_v矩阵是怎么确定的?
在 Transformer 模型(以及注意力机制)中,W_q(查询矩阵)、W_k(键矩阵)、W_v(值矩阵) 是核心可学习参数,其确定方式本质是「模型通过数据驱动的反向传播优化得到」,但需结合初始化、网络结构设计和训练过程综合理解。以下从「底层原理→确定流程→关键细节」三个维度,用结构化方式拆解,同时结合代码示例辅助理解:
我是有底线的