CS224N-Lecture01-Word Vectors

JXL18602025-10-26 4:03

WordNet

对比项	普通字典	WordNet
建立方式	人类写作者为读者编写	语言学家为计算机编写
内容结构	每个词独立定义、例句	每个词义（Synset）之间有网络关系
主要用途	查含义、拼写	计算机进行语义推理、相似度计算
数据形式	文本	图结构（词义节点 + 语义边）

Problems with WordNet

One-hot

Problem of similarity

WordNet 方式失败，因此要"学习向量"而非人工列举。

Distributional semantics:

word vector

word vector=word embedding =word representation

"分布式"意思是------词义被分布在多个维度上，不是集中在某一个维度。

每一维都反映一部分语义（可能与语法、语境、主题有关）。
例如，"banking"的第 7 维可能反映"金融性"，第 19 维可能反映"机构性"，等等。

因此，语义信息是**分布式编码（distributed encoding）**的。

Word2vec

核心概念

Word2Vec 是 Mikolov 等人在 2013 年提出的一个框架，用来从大量文本中学习词向量（word vectors） 。

它的目标是：

让语义相似的单词拥有相似的向量表示。

主要思想（Idea）

We have a large corpus of text

→ 我们有一个巨大的文本语料库（corpus），比如所有维基百科文章。

这就是模型的训练数据。
Every word is represented by a vector

→ 语料库中每个词都有一个可学习的向量（embedding）。

这些向量最开始是随机的，模型训练后会逐渐学到语义信息。
Go through each position t in the text

→ 在语料的每个位置 t，取出当前的中心词（center word）记为 c = w(t)，

并找出它前后一定范围内的上下文词（context words） o = w(t±1), w(t±2)...。

这称为滑动窗口（context window）。

Use similarity to calculate probability

→ 模型计算"在给定中心词 c 的情况下，上下文词 o 出现的概率"，

用到的就是它们的词向量相似度（通常用点积）。

数学上写成： P(o∣c)=euoTvc∑w∈VeuwTvcP(o|c) = \frac{e^{u_o^T v_c}}{\sum_{w \in V} e^{u_w^T v_c}} P(o∣c)=∑w∈VeuwTvceuoTvc

（softmax 形式）
Keep adjusting word vectors to maximize this probability

→ 不断调整这些词向量，使得真实上下文词出现的概率最大。

换句话说，模型学习到：
- "banking" 的上下文常出现 "finance, loan, money"；
- "apple" 的上下文常出现 "fruit, tree, eat"；
  
  因此它们的向量就会靠近这些语义邻居。

右侧图解释

右边的图展示的是 Skip-gram 模型结构（Word2Vec 的两种形式之一）：

输入层：当前中心词 w(t)（例如 "banking"）。
投影层（projection）：把输入词映射成向量表示（embedding）。
输出层：预测它周围的上下文词 w(t−2)、w(t−1)、w(t+1)、w(t+2)。

也就是说，Skip-gram 的任务是：

给定中心词 → 预测上下文。

另一种相反的模型叫 CBOW（Continuous Bag of Words），是：

给定上下文 → 预测中心词。

Word2vec:objective function

下标

在 Word2Vec 中：

下标在 v 上的词是中心词；
下标在 u 上的词是上下文词。

换句话说：

vcv_cvc→ "谁在预测别人"，
uou_ouo → "谁被预测出来"。

预测函数

在 Word2Vec 的上下文里，这个 xix_ixi 其实具体对应的是每个词的相似度分数（score）

max" 表示会放大最大值的影响；

"soft" 表示仍然给较小的值留一点概率

Optimize value of parameters to minimize loss

在 Word2Vec 里，参数 θ 就是所有词的中心向量和上下文向量的集合。

Gradient descent

Stochastic Gradient Descent

在 Batch GD 中，偏导数是全体样本平均梯度。
在 SGD 中，偏导数是单一样本的梯度，因此每次都能更新参数

上一篇：深度学习打卡第TR5周：Transformer实战：文本分类

下一篇：Dify从入门到精通第27天在Dify中构建天气查询机器人

热门推荐

012026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 02GitHub 镜像站点 03如何新建文件夹？电脑新建文件夹的4种方法 04AI科技热点日报 | 2026年07月01日 05幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 082026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？092026 年 AI 大模型 & AI 编程工具实战全总结 10微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新