机器学习线性代数--(13)小结:从线性代数到机器学习

在之前的系列中,我们从几何直觉出发,一步步构建了线性代数的核心概念。这些概念不仅是数学抽象,更是现代机器学习算法的基石。下面,我们将逐一回顾这些知识点,并揭示它们在机器学习中的具体应用。


13.1 向量与数据表示

知识点 :向量是空间中的箭头,也是数字的有序列表。
ML应用:在机器学习中,每个样本通常表示为一个特征向量。例如,一张图片可以展开为像素值向量,一个用户可表示为年龄、收入等特征的向量。所有样本构成数据集矩阵,行代表样本,列代表特征。


13.2 基变换与数据降维

知识点 :基变换是在不同坐标系之间切换,同一向量在不同基下有不同的坐标表示。
ML应用主成分分析(PCA) 的核心就是寻找一组新基(主成分),使得数据在新基下的坐标方差最大,从而实现降维。这相当于将原始数据投影到最重要的方向上,丢弃次要维度。


13.3 矩阵与线性变换

知识点 :矩阵的每一列是变换后的基向量,矩阵乘以向量实现线性变换。
ML应用 :神经网络中的全连接层 本质就是一个仿射变换: \\vec{y} = W\\vec{x} + \\vec{b} 。权重矩阵 W W W 对输入向量进行线性变换,偏置 b ⃗ \vec{b} b 完成平移。多层堆叠可以逼近任意复杂函数。


13.4 行列式与概率变换

知识点 :行列式衡量线性变换对面积的缩放比例,可正可负,零表示压缩。
ML应用 :在概率模型中,当对随机变量进行线性变换 \\vec{y} = A\\vec{x} 时,概率密度函数需要乘以 ∣ det ⁡ ( A ) ∣ − 1 |\det(A)|^{-1} ∣det(A)∣−1 来保持概率守恒。这在变分自编码器(VAE) 的正态分布变换、标准化流(Normalizing Flows)中至关重要。


13.5 逆矩阵与求解线性系统

知识点 :逆矩阵用于撤销变换,解线性方程组 A x ⃗ = b ⃗ A\vec{x} = \vec{b} Ax =b 。
ML应用 :线性回归的正规方程 β ^ = ( X T X ) − 1 X T y ⃗ \hat{\beta} = (X^TX)^{-1}X^T\vec{y} β^=(XTX)−1XTy 直接利用逆矩阵求解最优参数。尽管实际中常使用数值方法,但逆矩阵的概念提供了理论解。


13.6 列空间、秩与数据维度

知识点 :列空间是所有可能输出的集合,秩是列空间的维度,反映变换后的有效维度。
ML应用

  • 可用于衡量特征矩阵的冗余性。低秩矩阵意味着特征间高度相关,可通过低秩近似(如矩阵分解)进行压缩和去噪。
  • 推荐系统中的协同过滤常将用户-物品评分矩阵分解为两个低秩矩阵的乘积,这正是利用列空间的思想。

13.7 零空间与模型的不变性

知识点 :零空间是被映射到零向量的向量集合,反映变换丢失的信息。
ML应用 :在深度学习中,网络的某些层可能存在零空间(如ReLU激活导致的信息丢失)。理解零空间有助于分析模型的不变性:输入在零空间中的变化不会影响输出,这可用于解释对抗样本或设计鲁棒模型。


13.8 点积与相似性度量

知识点 :点积衡量两个向量的对齐程度,等于投影长度乘以另一向量的长度。
ML应用

  • 余弦相似度 :归一化的点积 u ⃗ ⋅ v ⃗ ∥ u ⃗ ∥ ∥ v ⃗ ∥ \frac{\vec{u}\cdot\vec{v}}{\|\vec{u}\|\|\vec{v}\|} ∥u ∥∥v ∥u ⋅v 广泛用于文本、图像的特征匹配。
  • 注意力机制(Transformer)的核心就是查询与键的点积,用于计算序列中不同位置的关联权重。
  • 核方法中的线性核直接就是点积。

13.9 特征向量与特征值

知识点 :特征向量是变换后方向不变的向量,特征值是缩放倍数。
ML应用

  • PCA 的本质是求解数据协方差矩阵的特征向量(主成分)和特征值(方差大小)。
  • 谱聚类 利用拉普拉斯矩阵的特征分解进行聚类。
  • 图神经网络 中的图卷积常基于图拉普拉斯算子的特征分解。
  • 特征值还用于分析优化问题的收敛性(如梯度下降的海森矩阵特征值)。

13.10 抽象向量空间与核方法

知识点 :向量空间可以推广到函数、多项式等抽象对象,只要满足加法和数乘规则。
ML应用

  • 核技巧(Kernel Trick)正是将数据映射到高维(甚至无限维)抽象向量空间(再生核希尔伯特空间),在该空间中计算内积,而无需显式映射。这使得支持向量机(SVM)等算法能够处理非线性问题。
  • 函数空间中的线性模型(如高斯过程回归)将函数视为向量,利用协方差函数(核)定义相似性。

13.11 对偶性

知识点 :点积与线性变换的一一对应关系(每个向量对应一个将空间压缩到一维的线性变换)。
ML应用 :对偶性在优化问题中频繁出现,如支持向量机的对偶形式将原始问题转化为对偶变量(拉格朗日乘子)的优化,这些对偶变量本质上对应样本的权重,揭示了支持向量的作用。


13.12 基变换与模型解释

知识点 :相似矩阵 P − 1 A P P^{-1}AP P−1AP 表示同一变换在不同基下的表示。
ML应用 :在模型解释中,我们常希望找到一组"可解释的基",例如将神经网络的特征表示变换到人类可理解的概念空间。基变换也为迁移学习中特征适配提供了理论基础。


13.13 总结

线性代数为机器学习提供了统一的语言和工具:

  • 数据 用向量和张量表示。
  • 模型 用线性变换(权重矩阵)和激活函数(非线性)构建。
  • 学习 涉及求解线性系统、优化特征方向。
  • 理解 通过秩、特征值、零空间等概念洞察模型行为。

从基础向量到抽象空间,这些概念共同构成了机器学习的数学骨架。掌握它们,不仅能让你看懂算法公式,更能培养深刻的几何直觉,助你在数据科学领域走得更远。

上一章 机器学习线性代数--(12)抽象向量空间:超越箭头的世界

相关推荐
十铭忘4 小时前
局部重绘3——FLUX-Fill的Lora训练
人工智能·深度学习·机器学习
千寻girling5 小时前
机器学习 | 线性回归 | 尚硅谷学习
学习·机器学习·线性回归
刘~浪地球6 小时前
AI幻觉正在“吃掉“信任:一次保险购买引发的血案
人工智能·深度学习·机器学习
FluxMelodySun7 小时前
机器学习(三十三) 概率图模型与隐马尔可夫模型
人工智能·机器学习
V搜xhliang02467 小时前
OpenClaw、AI大模型赋能数据分析与学术科研 学习
人工智能·深度学习·学习·机器学习·数据挖掘·数据分析
Luca_kill7 小时前
实战指南:用 Python + NLP 搭建一套轻量级 AI 舆情监控系统
人工智能·python·机器学习·nlp·舆情监控
自由的风.8 小时前
【无标题】
人工智能·机器学习·自然语言处理
云和数据.ChenGuang9 小时前
机器学习之超参数是什么?
人工智能·深度学习·神经网络·目标检测·机器学习·自然语言处理·语音识别
曦樂~9 小时前
【机器学习】分类Classification
人工智能·机器学习·分类
liuyukuan9 小时前
集成学习有哪些框架
人工智能·机器学习·集成学习