机器学习线性代数--(13)小结:从线性代数到机器学习

在之前的系列中,我们从几何直觉出发,一步步构建了线性代数的核心概念。这些概念不仅是数学抽象,更是现代机器学习算法的基石。下面,我们将逐一回顾这些知识点,并揭示它们在机器学习中的具体应用。


13.1 向量与数据表示

知识点 :向量是空间中的箭头,也是数字的有序列表。
ML应用:在机器学习中,每个样本通常表示为一个特征向量。例如,一张图片可以展开为像素值向量,一个用户可表示为年龄、收入等特征的向量。所有样本构成数据集矩阵,行代表样本,列代表特征。


13.2 基变换与数据降维

知识点 :基变换是在不同坐标系之间切换,同一向量在不同基下有不同的坐标表示。
ML应用主成分分析(PCA) 的核心就是寻找一组新基(主成分),使得数据在新基下的坐标方差最大,从而实现降维。这相当于将原始数据投影到最重要的方向上,丢弃次要维度。


13.3 矩阵与线性变换

知识点 :矩阵的每一列是变换后的基向量,矩阵乘以向量实现线性变换。
ML应用 :神经网络中的全连接层 本质就是一个仿射变换: \\vec{y} = W\\vec{x} + \\vec{b} 。权重矩阵 W W W 对输入向量进行线性变换,偏置 b ⃗ \vec{b} b 完成平移。多层堆叠可以逼近任意复杂函数。


13.4 行列式与概率变换

知识点 :行列式衡量线性变换对面积的缩放比例,可正可负,零表示压缩。
ML应用 :在概率模型中,当对随机变量进行线性变换 \\vec{y} = A\\vec{x} 时,概率密度函数需要乘以 ∣ det ⁡ ( A ) ∣ − 1 |\det(A)|^{-1} ∣det(A)∣−1 来保持概率守恒。这在变分自编码器(VAE) 的正态分布变换、标准化流(Normalizing Flows)中至关重要。


13.5 逆矩阵与求解线性系统

知识点 :逆矩阵用于撤销变换,解线性方程组 A x ⃗ = b ⃗ A\vec{x} = \vec{b} Ax =b 。
ML应用 :线性回归的正规方程 β ^ = ( X T X ) − 1 X T y ⃗ \hat{\beta} = (X^TX)^{-1}X^T\vec{y} β^=(XTX)−1XTy 直接利用逆矩阵求解最优参数。尽管实际中常使用数值方法,但逆矩阵的概念提供了理论解。


13.6 列空间、秩与数据维度

知识点 :列空间是所有可能输出的集合,秩是列空间的维度,反映变换后的有效维度。
ML应用

  • 可用于衡量特征矩阵的冗余性。低秩矩阵意味着特征间高度相关,可通过低秩近似(如矩阵分解)进行压缩和去噪。
  • 推荐系统中的协同过滤常将用户-物品评分矩阵分解为两个低秩矩阵的乘积,这正是利用列空间的思想。

13.7 零空间与模型的不变性

知识点 :零空间是被映射到零向量的向量集合,反映变换丢失的信息。
ML应用 :在深度学习中,网络的某些层可能存在零空间(如ReLU激活导致的信息丢失)。理解零空间有助于分析模型的不变性:输入在零空间中的变化不会影响输出,这可用于解释对抗样本或设计鲁棒模型。


13.8 点积与相似性度量

知识点 :点积衡量两个向量的对齐程度,等于投影长度乘以另一向量的长度。
ML应用

  • 余弦相似度 :归一化的点积 u ⃗ ⋅ v ⃗ ∥ u ⃗ ∥ ∥ v ⃗ ∥ \frac{\vec{u}\cdot\vec{v}}{\|\vec{u}\|\|\vec{v}\|} ∥u ∥∥v ∥u ⋅v 广泛用于文本、图像的特征匹配。
  • 注意力机制(Transformer)的核心就是查询与键的点积,用于计算序列中不同位置的关联权重。
  • 核方法中的线性核直接就是点积。

13.9 特征向量与特征值

知识点 :特征向量是变换后方向不变的向量,特征值是缩放倍数。
ML应用

  • PCA 的本质是求解数据协方差矩阵的特征向量(主成分)和特征值(方差大小)。
  • 谱聚类 利用拉普拉斯矩阵的特征分解进行聚类。
  • 图神经网络 中的图卷积常基于图拉普拉斯算子的特征分解。
  • 特征值还用于分析优化问题的收敛性(如梯度下降的海森矩阵特征值)。

13.10 抽象向量空间与核方法

知识点 :向量空间可以推广到函数、多项式等抽象对象,只要满足加法和数乘规则。
ML应用

  • 核技巧(Kernel Trick)正是将数据映射到高维(甚至无限维)抽象向量空间(再生核希尔伯特空间),在该空间中计算内积,而无需显式映射。这使得支持向量机(SVM)等算法能够处理非线性问题。
  • 函数空间中的线性模型(如高斯过程回归)将函数视为向量,利用协方差函数(核)定义相似性。

13.11 对偶性

知识点 :点积与线性变换的一一对应关系(每个向量对应一个将空间压缩到一维的线性变换)。
ML应用 :对偶性在优化问题中频繁出现,如支持向量机的对偶形式将原始问题转化为对偶变量(拉格朗日乘子)的优化,这些对偶变量本质上对应样本的权重,揭示了支持向量的作用。


13.12 基变换与模型解释

知识点 :相似矩阵 P − 1 A P P^{-1}AP P−1AP 表示同一变换在不同基下的表示。
ML应用 :在模型解释中,我们常希望找到一组"可解释的基",例如将神经网络的特征表示变换到人类可理解的概念空间。基变换也为迁移学习中特征适配提供了理论基础。


13.13 总结

线性代数为机器学习提供了统一的语言和工具:

  • 数据 用向量和张量表示。
  • 模型 用线性变换(权重矩阵)和激活函数(非线性)构建。
  • 学习 涉及求解线性系统、优化特征方向。
  • 理解 通过秩、特征值、零空间等概念洞察模型行为。

从基础向量到抽象空间,这些概念共同构成了机器学习的数学骨架。掌握它们,不仅能让你看懂算法公式,更能培养深刻的几何直觉,助你在数据科学领域走得更远。

上一章 机器学习线性代数--(12)抽象向量空间:超越箭头的世界

相关推荐
superior tigre1 小时前
240 搜索二维矩阵
线性代数·矩阵
人邮异步社区2 小时前
大一学生如何入门机器学习,深度学习,学习顺序如何?
深度学习·学习·机器学习
MicroTech20252 小时前
微算法科技(NASDAQ: MLGO)使用机器学习保障量子安全下区块链高效可用
科技·算法·机器学习
智算菩萨2 小时前
音频处理基础理论:从物理声波到数字信号完整知识体系
算法·机器学习·电脑·音视频
绒绒毛毛雨3 小时前
On the Plasticity and Stability for Post-Training Large Language Models
人工智能·机器学习·语言模型
散峰而望3 小时前
【基础算法】剪枝与记忆化搜索:算法优化的双刃剑,效率倍增的实战指南
算法·机器学习·剪枝
温九味闻醉12 小时前
关于腾讯广告算法大赛2025项目分析1 - dataset.py
人工智能·算法·机器学习
alex180115 小时前
pytorch LSTM类解析
pytorch·机器学习·lstm