深度学习进阶:自然语言处理|3.2.3 QA|word2vec 中为什么输入和输出权重都可以表示单词

word2vec 中 W_in、h、W_out 的作用

例子:

text 复制代码
词表大小 V = 7
隐藏维度 H = 3
输入词:you
目标词:say

1. W_in 做什么?

W_in 是输入侧矩阵。

text 复制代码
you_one_hot · W_in = h

形状:
1×7 · 7×3 = 1×3

因为 you_one_hot 只有 you 的位置是 1,所以乘 W_in 等于取出 W_inyou 这一行。

所以:

text 复制代码
W_in[you] = you 作为输入词时的向量 = h

形状:
W_in[you] 是 1×3
h 也是 1×3

它表示:看到 you 后,模型带着什么信息去预测周围词。

2. h 长什么样?

h 是一个普通数字向量,形状是 1×3

text 复制代码
h = [0.21, -0.43, 0.88]

它不是 one-hot,也不是概率。

在这个例子里:

text 复制代码
h = W_in[you]

所以 h 就是 you 的输入侧词向量。

3. h 用来干什么?

h 用来和 W_out 的每一列做点积,给每个候选输出词打分:

text 复制代码
scores = h · W_out

形状:
1×3 · 3×7 = 1×7

展开看就是:

text 复制代码
score(you) = h · W_out[:, you]
score(say) = h · W_out[:, say]
score(.)   = h · W_out[:, .]

如果:

text 复制代码
h · W_out[:, say]

最大,那么模型就倾向于预测 say

4. W_out 做什么?

W_out 是输出侧矩阵。

text 复制代码
W_out[:, say] = say 作为输出词时的向量

形状:
W_out[:, say] 是 3×1

它表示:什么样的 h 应该把 say 预测出来。

5. 最短总结

text 复制代码
x(1×7) · W_in(7×3) = h(1×3)
h(1×3) · W_out(3×7) = scores(1×7)
text 复制代码
W_in:把输入词 you 变成隐藏向量 h。
h:拿去和每个候选输出词做匹配。
W_out:存放每个候选输出词的向量,用来打分。

所以:

text 复制代码
W_in 的行:词作为输入时的向量。
W_out 的列:词作为输出时的向量。
相关推荐
不当菜鸡的程序媛12 小时前
Policy model
深度学习
chlorine513 小时前
【神经网络】——卷积层、池化层、线性层
深度学习·神经网络·cnn
Sirius Wu13 小时前
Agentic端到端&分离式RL技术建设
人工智能·深度学习·机器学习·caffe
Unity官方开发者社区15 小时前
团结引擎动画系统|Event Graph CodeGen:一键编译图逻辑,提升运行时性能
深度学习
湘美书院--湘美谈教育15 小时前
湘美谈教育AI经验集锦:有些东西,它们很难蒸馏
大数据·人工智能·深度学习·机器学习
xixixi7777715 小时前
空天地通信、高速光模块、AI 智能体攻击、同态加密芯片四大事件解读:AI 算力底座攻防与全域通信同步升级
大数据·人工智能·深度学习·ai·大模型·光模块·智能体
快乐得小萝卜15 小时前
论文:π0.5
笔记·深度学习
路人甲32616 小时前
SONIC: Supersizing Motion Tracking for Natural Humanoid Whole-Body Control
人工智能·深度学习·计算机视觉·机器人·具身智能
湘美书院--湘美谈教育16 小时前
湘美谈教育AI经验集锦:细分领域的标准定义者
大数据·人工智能·深度学习
keykey6.16 小时前
迁移学习实战:用预训练模型做图像分类
开发语言·人工智能·深度学习·机器学习