神经网络之向量降维

语义向量（如词向量、句向量）通常位于高维空间中。高维表示虽然能捕捉细微差别，但也带来几个问题：

数据冗余（Redundancy）
- 语言中的许多特征是相关的。
  例如，"国王（king）"与"王后（queen）"在大多数语境中共现模式相似，它们的高维特征往往线性相关。
- 这意味着空间中存在大量冗余维度，许多特征维度传递的是相似信息。
噪声干扰（Noise）
- 高维数据中包含许多"偶然共现"或局部统计噪声，例如某个词偶然出现在不相关的语境中。
- 这些随机因素会让语义空间变得稀疏且复杂，掩盖真正稳定的语义规律。
计算与存储成本高
- 高维向量不仅占用更大的存储空间，也使得相似度计算、聚类、可视化等操作更加困难。

因此，我们希望通过向量降维（Dimensionality Reduction）：

降维的关键思想是：

数据虽然位于高维空间中，但真正有意义的变化往往集中在少数几个方向上。

像 PCA 或 SVD 这样的线性降维方法，会通过数学手段找到这些方向------

也就是数据方差最大的主方向（principal directions）。

方差表示数据在某个方向上的"变化程度"。
若方差大，说明数据在该方向上分布得最开，能揭示出全局的规律性变化。
在语义空间中，这些方向往往对应于稳定的语义模式，例如：
- 性别（man--woman）
- 地位（king--servant）
- 地理（Paris--Tokyo）
- 语法类别（noun--verb）

降维后，词向量虽然变成低维的，但它们在这些主方向上的相对位置关系（距离、方向）依然保持一致。

换句话说：

这就是为什么降维能在压缩数据的同时，保留语义分布规律与几何结构。

我们进行向量降维，是为了去冗余、降噪声、提取主要语义模式。

而之所以能保留语义结构，是因为降维方法抓住了数据中方差最大、最稳定的变化方向 ，

这些方向恰好对应于语言的主要语义规律。