深度学习进阶:自然语言处理|3.2.3 QA|word2vec 中为什么输入和输出权重都可以表示单词

word2vec 中 W_in、h、W_out 的作用

例子:

text 复制代码
词表大小 V = 7
隐藏维度 H = 3
输入词:you
目标词:say

1. W_in 做什么?

W_in 是输入侧矩阵。

text 复制代码
you_one_hot · W_in = h

形状:
1×7 · 7×3 = 1×3

因为 you_one_hot 只有 you 的位置是 1,所以乘 W_in 等于取出 W_inyou 这一行。

所以:

text 复制代码
W_in[you] = you 作为输入词时的向量 = h

形状:
W_in[you] 是 1×3
h 也是 1×3

它表示:看到 you 后,模型带着什么信息去预测周围词。

2. h 长什么样?

h 是一个普通数字向量,形状是 1×3

text 复制代码
h = [0.21, -0.43, 0.88]

它不是 one-hot,也不是概率。

在这个例子里:

text 复制代码
h = W_in[you]

所以 h 就是 you 的输入侧词向量。

3. h 用来干什么?

h 用来和 W_out 的每一列做点积,给每个候选输出词打分:

text 复制代码
scores = h · W_out

形状:
1×3 · 3×7 = 1×7

展开看就是:

text 复制代码
score(you) = h · W_out[:, you]
score(say) = h · W_out[:, say]
score(.)   = h · W_out[:, .]

如果:

text 复制代码
h · W_out[:, say]

最大,那么模型就倾向于预测 say

4. W_out 做什么?

W_out 是输出侧矩阵。

text 复制代码
W_out[:, say] = say 作为输出词时的向量

形状:
W_out[:, say] 是 3×1

它表示:什么样的 h 应该把 say 预测出来。

5. 最短总结

text 复制代码
x(1×7) · W_in(7×3) = h(1×3)
h(1×3) · W_out(3×7) = scores(1×7)
text 复制代码
W_in:把输入词 you 变成隐藏向量 h。
h:拿去和每个候选输出词做匹配。
W_out:存放每个候选输出词的向量,用来打分。

所以:

text 复制代码
W_in 的行:词作为输入时的向量。
W_out 的列:词作为输出时的向量。
相关推荐
金融小师妹9 小时前
基于AI宏观因子识别系统的贵金属波动分析:美元回落提振黄金反弹,能源飙升压制上行空间的机制分析
大数据·深度学习·逻辑回归·线性回归
山屿落星辰9 小时前
ascend-transformer-boost (ATB) - Transformer推理加速实战
人工智能·深度学习·transformer
凌波粒9 小时前
深度学习入门(鱼书)第1章笔记——Python 基础
笔记·python·深度学习
bryant_meng9 小时前
【GAN】Generative Adversarial Network
人工智能·深度学习·神经网络·生成对抗网络·gan
财经资讯数据_灵砚智能9 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年5月19日
大数据·人工智能·python·信息可视化·自然语言处理·灵砚智能
大模型最新论文速读9 小时前
05-18 · LLM 最新论文速览
论文阅读·人工智能·深度学习·机器学习·自然语言处理
kishu_iOS&AI9 小时前
NLP —— Transformer底层源码剖析(框架使用)
人工智能·自然语言处理·transformer
byzh_rc9 小时前
[自然语言处理-入门] 语音识别
人工智能·自然语言处理·语音识别
甄心爱学习9 小时前
【自然语言处理】词汇与表征
人工智能·自然语言处理