神经网络之窗口大小对词语义向量的影响

在基于上下文学习的模型（例如 Word2Vec 的 Skip-gram 或 CBOW）中，
窗口大小 （通常记为 w ）定义为模型在学习目标词（target word）时所考虑的上下文词的范围。

例如，假设句子是：

"猫坐在垫子上"

当窗口大小 = 2 时，

目标词 "在" 的上下文词是 "猫", "坐", "垫子", "上"。

即考虑"前两个词"和"后两个词"。

窗口大小直接影响模型捕捉的语义类型（semantic type）：

窗口大小	模型更关注的语义类型	类比	举例
小窗口（2~3）	句法语义（syntactic / functional similarity）	注重语法、搭配	"run" ~ "running"、"eat" ~ "eating"
大窗口（5~10 甚至 15）	主题语义（semantic / topical similarity）	注重语义、主题关联	"doctor" ~ "hospital"、"cat" ~ "dog"

小窗口时，模型主要学到：

"run" 经常和 "fast"、"quickly" 等功能性搭配在一起，

所以它的向量与"go"、"move"更接近。
大窗口时，模型看到"run"常出现在"competition"、"athlete"、"track"上下文中，

所以它学到"run"与"sport"、"game"更接近。

窗口越大：

窗口越小：

👉 这与语言学中的"共现假设（distributional hypothesis）"一致：

"语义相似的词往往出现在相似的上下文中。"

而窗口大小决定了这个"上下文"的粒度（granularity）。

我们可以用二维语义空间来可视化：

小窗口模型的空间 中，"go", "goes", "went" 会形成一个紧密簇。

它们的向量几乎重合，因为在句法层面上高度相似。
大窗口模型的空间 中，"go" 与 "travel", "journey", "trip" 距离更近，

因为这些词在相似的语义场景（"出行"主题）中出现。

简而言之：

🧩 小窗口 → 局部结构（语法功能）

🌐 大窗口 → 全局语义（概念关联）

Skip-gram 模型最大化：
∑t=1T∑−w≤j≤w,j≠0log⁡P(wt+j∣wt) \sum_{t=1}^{T}\sum_{-w\leq j\leq w, j\neq 0} \log P(w_{t+j} | w_t) t=1∑T−w≤j≤w,j=0∑logP(wt+j∣wt)

其中 (w)(w)(w) 就是窗口大小。

当 (w)(w)(w) 增大：

想象你学习"银行（bank）"的含义：

如果你只看它前后两个词：
- "bank account" → 金融意义；
- "river bank " → 河岸意义；
  → 小窗口帮助模型分辨词义（词义消歧）。
如果你看它周围十个词：
- "money, deposit, loan, credit, finance..."
  → 你学到的是"bank"在金融语境下的主题语义。