词向量（Word Embedding）

词向量（Word Embedding）是一种将自然语言中的单词映射到连续的向量空间的技术，使得语义相似的单词在向量空间中彼此接近。这种技术是现代自然语言处理（NLP）任务的基础之一，广泛应用于文本分类、机器翻译、问答系统等。

传统的自然语言处理方法通常使用离散表示（如one-hot编码）来表示单词。然而，这种方法存在以下问题：

词向量通过将单词映射到低维的连续向量空间来解决这些问题。在这样的向量空间中，语义相近的单词具有相似的向量表示。

词向量的核心思想基于分布假说，即"一个词的含义可以通过其上下文来定义"。也就是说，如果两个单词在相同的上下文中频繁出现，那么它们可能具有相似的意义。

Word2Vec 是由 Google 提出的一种高效生成词向量的方法，主要包括两种架构：

**CBOW（Continuous Bag of Words）**：根据上下文预测当前单词。例如，给定 "the cat sits on the"，模型需要预测 "mat"。
**Skip-Gram**：根据当前单词预测上下文单词。例如，给定 "mat"，模型需要预测 "the cat sits on the" 中的其他单词。

**特点**：

GloVe 是一种基于全局统计信息生成词向量的方法。它通过对整个语料库中的共现矩阵进行分解来生成词向量。

**特点**：

FastText 是 Facebook 提出的一种改进版本的 Word2Vec，主要特点是将每个单词表示为其子词（n-gram）的组合。例如，"apple"可以表示为 `<a> <ap> <app> <appl> <apple> <pple> <ple> <le> <e>`。

**特点**：

ELMo 是一种基于深度双向语言模型生成上下文相关的词向量的方法。它使用 LSTM 或 Transformer 架构来建模语言序列，并为每个单词生成动态的上下文相关向量。

**特点**：

BERT 是 Google 提出的一种基于 Transformer 的双向预训练模型。它通过 Masked Language Modeling 和 Next Sentence Prediction 两个任务来进行预训练。

**特点**：

| --- | --- | --- | --- | --- |

词向量的发展经历了从简单的分布式表示（如 Word2Vec 和 GloVe）到复杂的上下文感知表示（如 ELMo 和 BERT）的过程。随着深度学习技术的进步，词向量不仅能够捕捉静态的语义信息，还能生成动态的上下文相关表示，极大地提高了自然语言处理任务的性能。

选择合适的词向量模型取决于具体的应用场景和需求。对于简单的文本分类或情感分析任务，Word2Vec 或 GloVe 可能已经足够；而对于更复杂的任务，如机器翻译或问答系统，上下文敏感的模型（如 ELMo 和 BERT）则更为适用。