神经网络之向量降维

一、为什么要进行向量降维

语义向量(如词向量、句向量)通常位于高维空间中。高维表示虽然能捕捉细微差别,但也带来几个问题:

  1. 数据冗余(Redundancy)

    • 语言中的许多特征是相关的。
      例如,"国王(king)"与"王后(queen)"在大多数语境中共现模式相似,它们的高维特征往往线性相关。
    • 这意味着空间中存在大量冗余维度,许多特征维度传递的是相似信息。
  2. 噪声干扰(Noise)

    • 高维数据中包含许多"偶然共现"或局部统计噪声,例如某个词偶然出现在不相关的语境中。
    • 这些随机因素会让语义空间变得稀疏且复杂,掩盖真正稳定的语义规律。
  3. 计算与存储成本高

    • 高维向量不仅占用更大的存储空间,也使得相似度计算、聚类、可视化等操作更加困难。

因此,我们希望通过向量降维(Dimensionality Reduction)

  • 去除冗余与噪声;
  • 压缩信息以便计算;
  • 同时保留语义结构的核心规律。

二、为什么降维后仍能保留数据的分布规律

降维的关键思想是:

数据虽然位于高维空间中,但真正有意义的变化往往集中在少数几个方向上。

PCASVD 这样的线性降维方法,会通过数学手段找到这些方向------

也就是数据方差最大的主方向(principal directions)

1. 方差大的方向代表主要结构

  • 方差表示数据在某个方向上的"变化程度"。

  • 若方差大,说明数据在该方向上分布得最开,能揭示出全局的规律性变化。

  • 在语义空间中,这些方向往往对应于稳定的语义模式,例如:

    • 性别(man--woman)
    • 地位(king--servant)
    • 地理(Paris--Tokyo)
    • 语法类别(noun--verb)

2. 方差小的方向多为噪声

  • 若在某个方向上,词向量几乎重叠(方差小),说明该方向不能区分词语间差异;
  • 这些微弱波动往往源于偶然共现或数据偏差;
  • 因此降维会压缩掉这些噪声维度

3. 保留主要方差方向 = 保留语义结构

降维后,词向量虽然变成低维的,但它们在这些主方向上的相对位置关系(距离、方向)依然保持一致。

换句话说:

  • 语义相近的词依然彼此靠近;
  • 语义变化(如 king → queen)依然沿着相同的方向变化。

这就是为什么降维能在压缩数据的同时,保留语义分布规律与几何结构


✅ 总结一句话

我们进行向量降维,是为了去冗余、降噪声、提取主要语义模式。

而之所以能保留语义结构,是因为降维方法抓住了数据中方差最大、最稳定的变化方向

这些方向恰好对应于语言的主要语义规律。

相关推荐
政安晨1 小时前
政安晨【零基础玩转开源AI项目】- AutoGPT:全球首个自主AI Agent从入门到实战(致敬OpenClaw的小回顾)
人工智能·ai·autogpt·全球首个agent框架·致敬openclaw之作·参考价值·ai开源agent框架
Shawn_Shawn6 小时前
mcp学习笔记(一)-mcp核心概念梳理
人工智能·llm·mcp
33三 三like8 小时前
《基于知识图谱和智能推荐的养老志愿服务系统》开发日志
人工智能·知识图谱
芝士爱知识a8 小时前
【工具推荐】2026公考App横向评测:粉笔、华图与智蛙面试App功能对比
人工智能·软件推荐·ai教育·结构化面试·公考app·智蛙面试app·公考上岸
腾讯云开发者9 小时前
港科大熊辉|AI时代的职场新坐标——为什么你应该去“数据稀疏“的地方?
人工智能
工程师老罗9 小时前
YoloV1数据集格式转换,VOC XML→YOLOv1张量
xml·人工智能·yolo
Coder_Boy_9 小时前
技术让开发更轻松的底层矛盾
java·大数据·数据库·人工智能·深度学习
啊森要自信10 小时前
CANN ops-cv:面向计算机视觉的 AI 硬件端高效算子库核心架构与开发逻辑
人工智能·计算机视觉·架构·cann
2401_8362358610 小时前
中安未来SDK15:以AI之眼,解锁企业档案的数字化基因
人工智能·科技·深度学习·ocr·生活