Word2Vec：核心思想

要理解这个假设，得先搞懂它解决了什么问题 ------在 Word2Vec 出现前，NLP 里词的表示是 One-Hot Encoding（独热编码），这个方法有两个致命缺陷：

而 分布式表示假设 就是为了破解这个困境，它的核心一句话就能说透：

"A word is characterized by the company it keeps."

（词的含义，由它周围的词决定）

举个例子：

"苹果""香蕉""鱼干"的上下文都有"爱吃"，所以它们的词向量会比较接近；而"苹果"和"手机"的上下文完全不同（比如"苹果手机"的上下文是"买""用"），词向量就会相差很远。

Word2Vec 做的事，就是把每个词映射成一个低维、稠密的实数向量（比如 100 维） ，这个向量就叫词嵌入（Word Embedding），向量的维度可以自己设定。向量之间的距离（比如余弦相似度）就代表了词的语义相似度------这是它最核心的价值。

Word2Vec 本质是一个浅层神经网络 ，两种范式的区别，就是训练任务的输入输出反过来了 。我们用同一个简单句子举例：【我爱吃苹果】，设定窗口大小=2（即每个词的上下文是左右各 2 个词，边界不足则补全）。

核心逻辑 ：用中心词的向量，预测它的上下文词
输入：中心词的向量。比如中心词是"吃"，输入就是"吃"的词向量。
输出：上下文词的概率分布 → 模型输出多个概率分布（对应上下文的每个位置），预测哪些词会出现在中心词周围。
训练目标：让预测的上下文词概率尽可能接近真实值。
特点：
- 训练速度慢：要预测多个上下文词，计算量比 CBOW 大。
- 对高频词 和生僻词的表示更精准：不会像 CBOW 那样"平均"掉上下文的细节，能学到更细的语义差异。比如能区分"苹果（水果）"和"苹果（手机）"的不同上下文。

下游 NLP 任务的预训练词嵌入：这是最核心的用途。比如在做文本分类、命名实体识别、机器翻译时，先用 Word2Vec 预训练词向量，再喂给 RNN/LSTM 等模型，比随机初始化词向量效果好得多。
词相似度计算 & 同义词检索：比如搜索引擎里，输入"汽车"，能推荐"轿车""车辆"等近义词。
类比推理 & 语义聚类：比如教育领域的词汇分类（把"苹果、香蕉"归为水果类），或者知识图谱的实体关系挖掘。
简单的文本相似度计算：比如比较两个句子的相似度，可以把句子里的词向量平均，再计算余弦相似度。