深度学习进阶:自然语言处理|3.2.3 QA|word2vec 中为什么输入和输出权重都可以表示单词

word2vec 中 W_in、h、W_out 的作用

例子:

text 复制代码
词表大小 V = 7
隐藏维度 H = 3
输入词:you
目标词:say

1. W_in 做什么?

W_in 是输入侧矩阵。

text 复制代码
you_one_hot · W_in = h

形状:
1×7 · 7×3 = 1×3

因为 you_one_hot 只有 you 的位置是 1,所以乘 W_in 等于取出 W_inyou 这一行。

所以:

text 复制代码
W_in[you] = you 作为输入词时的向量 = h

形状:
W_in[you] 是 1×3
h 也是 1×3

它表示:看到 you 后,模型带着什么信息去预测周围词。

2. h 长什么样?

h 是一个普通数字向量,形状是 1×3

text 复制代码
h = [0.21, -0.43, 0.88]

它不是 one-hot,也不是概率。

在这个例子里:

text 复制代码
h = W_in[you]

所以 h 就是 you 的输入侧词向量。

3. h 用来干什么?

h 用来和 W_out 的每一列做点积,给每个候选输出词打分:

text 复制代码
scores = h · W_out

形状:
1×3 · 3×7 = 1×7

展开看就是:

text 复制代码
score(you) = h · W_out[:, you]
score(say) = h · W_out[:, say]
score(.)   = h · W_out[:, .]

如果:

text 复制代码
h · W_out[:, say]

最大,那么模型就倾向于预测 say

4. W_out 做什么?

W_out 是输出侧矩阵。

text 复制代码
W_out[:, say] = say 作为输出词时的向量

形状:
W_out[:, say] 是 3×1

它表示:什么样的 h 应该把 say 预测出来。

5. 最短总结

text 复制代码
x(1×7) · W_in(7×3) = h(1×3)
h(1×3) · W_out(3×7) = scores(1×7)
text 复制代码
W_in:把输入词 you 变成隐藏向量 h。
h:拿去和每个候选输出词做匹配。
W_out:存放每个候选输出词的向量,用来打分。

所以:

text 复制代码
W_in 的行:词作为输入时的向量。
W_out 的列:词作为输出时的向量。
相关推荐
饼干哥哥4 天前
开源Skills|搭建亚马逊动态关键词库系统,每天抓SSS级机会词
人工智能·深度学习·数据分析
武子康6 天前
调查研究-191 SenseVoice 不只是 ASR:把语音从“转文字“升级成“理解状态“
人工智能·深度学习·openai
武子康7 天前
调查研究-189 Kronos 调研:金融 K 线基础模型,是真突破,还是量化圈的新玩具?
人工智能·深度学习·openai
xiao5kou4chang6kai413 天前
MATLAB机器学习、深度学习--从数据预处理到模型训练
深度学习·机器学习·matlab·数据预处理
renhongxia113 天前
世界模型作为AGI落地底层底座的作用
人工智能·深度学习·生成对抗网络·自然语言处理·知识图谱·agi
计算机科研狗@OUC13 天前
(cvpr26) AIMDepth: Asymmetric Image-Event Mamba for Monocular Depth Estimation
人工智能·深度学习·计算机视觉
β添砖java13 天前
深度学习(22)网络中的网络NiN
人工智能·深度学习
Kobebryant-Manba13 天前
深度学习时候d2l报错和使用问题
人工智能·深度学习
zhangfeng113313 天前
deepspeed zero3 结合 llamafactory 微调 ,save_only_model: true 导致保存时候出错
开发语言·python·深度学习
大模型最新论文速读13 天前
06-16 · LLM 最新论文速览
论文阅读·人工智能·深度学习·机器学习·自然语言处理