🧩 一、什么是"窗口大小"(window size)
在基于上下文学习的模型(例如 Word2Vec 的 Skip-gram 或 CBOW)中,
窗口大小 (通常记为 w )定义为模型在学习目标词(target word)时所考虑的上下文词的范围。
例如,假设句子是:
"猫 坐 在 垫子 上"
当窗口大小 = 2 时,
目标词 "在" 的上下文词是 "猫", "坐", "垫子", "上"。
即考虑"前两个词"和"后两个词"。
🧠 二、窗口大小与"语义类型"的关系
窗口大小直接影响模型捕捉的语义类型(semantic type):
| 窗口大小 | 模型更关注的语义类型 | 类比 | 举例 |
|---|---|---|---|
| 小窗口(2~3) | 句法语义(syntactic / functional similarity) | 注重语法、搭配 | "run" ~ "running"、"eat" ~ "eating" |
| 大窗口(5~10 甚至 15) | 主题语义(semantic / topical similarity) | 注重语义、主题关联 | "doctor" ~ "hospital"、"cat" ~ "dog" |
📌 举例说明
-
小窗口时,模型主要学到:
"run" 经常和 "fast"、"quickly" 等功能性搭配在一起,
所以它的向量与"go"、"move"更接近。
-
大窗口时,模型看到"run"常出现在"competition"、"athlete"、"track"上下文中,
所以它学到"run"与"sport"、"game"更接近。
📈 三、从共现统计角度看(GloVe 或 Word2Vec 的统计意义)
窗口越大:
- 统计到的共现矩阵更密集(更多词对有共现关系)。
- 共现频率更能体现语义共现(而非句法位置依赖)。
窗口越小:
- 共现矩阵更稀疏。
- 关系更局限于语法邻接、搭配等。
👉 这与语言学中的"共现假设(distributional hypothesis)"一致:
"语义相似的词往往出现在相似的上下文中。"
而窗口大小决定了这个"上下文"的粒度(granularity)。
🔭 四、几何直观:在语义空间中的体现
我们可以用二维语义空间来可视化:
-
小窗口模型的空间 中,"go", "goes", "went" 会形成一个紧密簇。
它们的向量几乎重合,因为在句法层面上高度相似。
-
大窗口模型的空间 中,"go" 与 "travel", "journey", "trip" 距离更近,
因为这些词在相似的语义场景("出行"主题)中出现。
简而言之:
🧩 小窗口 → 局部结构(语法功能)
🌐 大窗口 → 全局语义(概念关联)
🧮 五、数学直觉:Word2Vec Skip-gram 视角
Skip-gram 模型最大化:
∑t=1T∑−w≤j≤w,j≠0logP(wt+j∣wt) \sum_{t=1}^{T}\sum_{-w\leq j\leq w, j\neq 0} \log P(w_{t+j} | w_t) t=1∑T−w≤j≤w,j=0∑logP(wt+j∣wt)
其中 (w)(w)(w) 就是窗口大小。
当 (w)(w)(w) 增大:
- 每个目标词 (wt)(w_t)(wt) 关联的上下文词更多;
- 梯度更新更多样,语义空间更"平滑"、概念更泛化;
- 但句法约束(如词序信息)被稀释。
⚖️ 六、实际建模时的取舍
| 应用场景 | 推荐窗口大小 | 理由 |
|---|---|---|
| 句法分析(POS tagging、依存句法) | 2--3 | 注重词法和局部依赖 |
| 信息检索、主题建模 | 5--10 | 注重语义场景、主题关联 |
| 类比推理(king - man + woman ≈ queen) | 5--10 | 需要更广义的语义表示 |
| 语言模型(预测下一个词) | 动态窗口或 Transformer 自适应 | 模型自动学习依赖范围 |
🧭 七、类比理解
想象你学习"银行(bank)"的含义:
-
如果你只看它前后两个词:
- "bank account" → 金融意义;
- "river bank " → 河岸意义;
→ 小窗口帮助模型分辨词义(词义消歧)。
-
如果你看它周围十个词:
- "money, deposit, loan, credit, finance..."
→ 你学到的是"bank"在金融语境下的主题语义。
- "money, deposit, loan, credit, finance..."
🎯 总结
| 维度 | 小窗口 | 大窗口 |
|---|---|---|
| 语义类型 | 句法、搭配 | 概念、主题 |
| 表示倾向 | 精细、局部 | 抽象、全局 |
| 共现范围 | 邻近词 | 语义场 |
| 向量关系 | 功能相似 | 语义相似 |
| 应用优势 | 语法任务 | 语义推理任务 |