矩阵和向量的双重视角

矩阵和向量的双重视角 w⃗=Av⃗\vec{w} = A \vec{v}w =Av

总结

线性代数并非一堆孤立的计算规则,而是一套描述空间、变换与数据的统一语言。其核心在于理解两个相辅相成的视角:

  1. 矩阵作为函数(主动变换) :矩阵是一个机器,对空间中的物体(向量)进行旋转、缩放等操作。
  2. 向量作为坐标(被动变换) :向量是一个点在某坐标系下的地址。改变坐标系,点的"地址"随之改变。

如何理解 w⃗=Av⃗\vec{w} = A \vec{v}w =Av

  • 在标量运算中​:y=k⋅x

    • k 是一个缩放因子。它决定了数 x 被放大或缩小多少倍。
    • 这是一个一维的线性变换。
  • 在线性代数中 ​: w⃗=Av⃗\vec{w} = A \vec{v}w =Av

    • 矩阵 A 是一个变换因子。它决定了一个向量 v 被如何"放大"、"缩小"、"旋转"、"剪切"。
    • 这是一个高维的线性变换。矩阵 A 就像是作用于整个向量上的一个复杂的、多方向的"超级因子"​

视角一:矩阵作为函数(主动变换)

在这个视角下,我们固定一个坐标系(通常为标准直角坐标系),让矩阵对物体本身进行操作。

1. 矩阵是线性变换函数

  • 一个 m×nm \times nm×n 矩阵 AAA 定义了一个从 Rn\mathbb{R}^nRn 到 Rm\mathbb{R}^mRm 的线性映射 (函数):
    w⃗=Av⃗\vec{w} = A \vec{v}w =Av
    • 输入:一个向量 v⃗\vec{v}v (旧点)。
    • 输出:另一个向量 w⃗\vec{w}w (新点)。
  • "线性"意味着 :这个函数满足叠加性 (A(u⃗+v⃗)=Au⃗+Av⃗A(\vec{u}+\vec{v}) = A\vec{u} + A\vec{v}A(u +v )=Au +Av ) 和齐次性 (A(cv⃗)=c(Av⃗)A(c\vec{v}) = c(A\vec{v})A(cv )=c(Av ))。

2. 几何解释:变换空间中的物体

  • 单位矩阵 III :是"恒等函数",w⃗=Iv⃗=v⃗\vec{w} = I \vec{v} = \vec{v}w =Iv =v ,物体保持不变。
  • 缩放矩阵 (s00s)\begin{pmatrix} s & 0 \\ 0 & s \end{pmatrix}(s00s) :将物体均匀缩放 sss 倍。
  • 旋转矩阵 (cos⁡θ−sin⁡θsin⁡θcos⁡θ)\begin{pmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{pmatrix}(cosθsinθ−sinθcosθ) :将物体旋转 θ\thetaθ 角。
  • 剪切矩阵:使物体发生倾斜。

操作流程

  1. 设定一个固定的参考系(通常为标准坐标系)。
  2. 有一个几何体,由其上一系列点 {v⃗1,v⃗2,...}\{ \vec{v}_1, \vec{v}_2, ... \}{v 1,v 2,...} 描述。
  3. 选择一个变换矩阵 AAA,对每一个点 进行运算:v⃗i′=Av⃗i\vec{v}_i' = A \vec{v}_iv i′=Av i。
  4. 所有新点 {v⃗1′,v⃗2′,...}\{ \vec{v}_1', \vec{v}_2', ... \}{v 1′,v 2′,...} 构成了变换后的新几何体。

结论 :在此视角下,坐标系是静止的,物体在动

3. 信息视角:矩阵作为信息处理器

线性变换 w⃗=Av⃗\vec{w} = A \vec{v}w =Av 的输入输出维度关系 (m×n)(m \times n)(m×n),决定了其处理信息的方式:

情况一:m<nm < nm<n (降维,压缩映射)
  • 生动例子 :原始数据是一个人的体重 www 和身高 hhh(2个特征,v⃗∈R2\vec{v} \in \mathbb{R}^2v ∈R2)。使用一个 1×21 \times 21×2 的矩阵 A=[1,−1]A = [1, -1]A=[1,−1] 进行变换:
    w⃗=Av⃗=[1,−1][wh]=w−h\vec{w} = A\vec{v} = [1, -1] \begin{bmatrix} w \\ h \end{bmatrix} = w - hw =Av =[1,−1][wh]=w−h
    结果 w⃗\vec{w}w 是"体重与身高之差"(1个特征)。
  • 信息流向 :从高维空间 Rn\mathbb{R}^nRn 映射到低维空间 Rm\mathbb{R}^mRm。
  • 信息损失信息发生了不可逆的损失 。无数个不同的 (w,h)(w, h)(w,h) 组合经过变换可能得到同一个 w−hw-hw−h 值。无法从结果唯一地反推 出原始的 www 和 hhh。
  • 在后面线性方程组那也是,数据不够,或者信息重复的方程组是没有唯一解的,是不确定的
情况二:m=nm = nm=n 且 AAA 满秩 (可逆变换,双射)
  • 生动例子 :原始数据同样是 (w,h)(w, h)(w,h)(v⃗∈R2\vec{v} \in \mathbb{R}^2v ∈R2)。使用一个满秩的 2×22 \times 22×2 矩阵 A=[1−111]A = \begin{bmatrix} 1 & -1 \\ 1 & 1 \end{bmatrix}A=[11−11] 进行变换:
    w⃗=Av⃗=[1−111][wh]=[w−hw+h]\vec{w} = A\vec{v} = \begin{bmatrix} 1 & -1 \\ 1 & 1 \end{bmatrix} \begin{bmatrix} w \\ h \end{bmatrix} = \begin{bmatrix} w - h \\ w + h \end{bmatrix}w =Av =[11−11][wh]=[w−hw+h]
    结果是由"体重身高差"和"体重身高和"构成的新二维特征。
  • 信息流向 :在同一维度的空间 Rn\mathbb{R}^nRn 内进行变换。
  • 信息保持信息没有丢失,只是被重新编码了 。因为变换是可逆的(存在 A−1A^{-1}A−1),你可以从新特征 (w−h,w+h)(w-h, w+h)(w−h,w+h) 精确地反解 出原始的 (w,h)(w, h)(w,h)。
  • 典型应用坐标变换、解耦。将数据转换到另一个视角或坐标系下进行分析,过程完全可逆(如求解微分方程时的特征分解)。
情况三:m>nm > nm>n (升维,嵌入)
  • 生动例子 :原始数据还是 (w,h)(w, h)(w,h)(v⃗∈R2\vec{v} \in \mathbb{R}^2v ∈R2)。使用一个 3×23 \times 23×2 的矩阵 A=[1−11112]A = \begin{bmatrix} 1 & -1 \\ 1 & 1 \\ 1 & 2 \end{bmatrix}A= 111−112 进行变换:
    w⃗=Av⃗=[1−11112][wh]=[w−hw+hw+2h]\vec{w} = A\vec{v} = \begin{bmatrix} 1 & -1 \\ 1 & 1 \\ 1 & 2 \end{bmatrix} \begin{bmatrix} w \\ h \end{bmatrix} = \begin{bmatrix} w - h \\ w + h \\ w + 2h \end{bmatrix}w =Av = 111−112 [wh]= w−hw+hw+2h
    结果是一个三维向量。
  • 信息流向 :从低维空间 Rn\mathbb{R}^nRn 映射到高维空间 Rm\mathbb{R}^mRm。
  • 信息保持?原始信息没有增加 。新特征全是原始特征的线性组合,并未提供真正独立的新信息。所有输出 w⃗\vec{w}w 都分布在一个嵌入在高维空间中的二维子空间(称为列空间)里。
  • 典型应用特征扩展 。有时在低维中线性不可分的数据,映射到高维会变得线性可分(这构成了核方法 的思想基础)。
    所以呢,出题老师就像这个给定一些信息的人,我们呢就是那个变换矩阵只能从已知的条件推出无数种结论,但是呢这些条件实际是重复的,如果题目问一个这些条件推不出的结论,再怎么牛逼也是推不出来的
核心概念:秩 (Rank)

矩阵的 衡量了变换 AAA 所能产生的独立信息的最大数量(即列空间的维度)。

  • 秩 ≤min⁡(m,n)\leq \min(m, n)≤min(m,n)
  • 秩决定了信息的"真实"维度:在升维映射中,若秩 r<nr < nr<n,则意味着原始数据本身存在冗余。

视角二:向量作为坐标(被动变换)

相当于某个几何世界由三个最基本的,向量组成,这三个向量通过线性变换,得到了这个世界的万事万物,然后来了一股东方的神秘力量,要改变这个基,那么这个世界的所有物体都要发生变形

或者说,这个世界的元素,本质是原子,通过一系列组合,变成了这个世界的万事万物,然后三体人,要改变这个世界的有些元素,那么这个世界的基发生变化了,所有的物体都的变

在这个视角下,物体在空间中的绝对位置是固定的,我们改变的是描述它的坐标系(参考系)。

1. 向量是相对于坐标系的坐标

  • 一个向量 v⃗=(x,y,z)T\vec{v} = (x, y, z)^Tv =(x,y,z)T 并非一个绝对概念,它是一组坐标,表示一个点在某个特定坐标系下的"地址"。
  • 标准坐标系 :由基向量 i^=(1,0,0)T\hat{i} = (1,0,0)^Ti^=(1,0,0)T, j^=(0,1,0)T\hat{j} = (0,1,0)^Tj^=(0,1,0)T, k^=(0,0,1)T\hat{k} = (0,0,1)^Tk^=(0,0,1)T 张成。其基矩阵为单位矩阵 III。

2. 改变坐标系

  • 我们可以选择另一组线性无关的向量 {b⃗1,b⃗2,b⃗3}\{\vec{b}_1, \vec{b}_2, \vec{b}_3\}{b 1,b 2,b 3} 作为新基,定义一个新坐标系。
  • 设矩阵 P=[b⃗1b⃗2b⃗3]P = \begin{bmatrix} \vec{b}_1 & \vec{b}_2 & \vec{b}_3 \end{bmatrix}P=[b 1b 2b 3],其列向量就是新坐标系的基向量。
  • 同一个点 ,如何用新坐标 v⃗new\vec{v}{\text{new}}v new 表示旧坐标 v⃗old\vec{v}{\text{old}}v old?
    • 旧坐标:点在标准坐标系下的坐标 v⃗old\vec{v}_{\text{old}}v old。
    • 新坐标:点在新坐标系 PPP 下的坐标 v⃗new\vec{v}_{\text{new}}v new。
    • 坐标变换公式
      v⃗old=Pv⃗new\vec{v}{\text{old}} = P \vec{v}{\text{new}}v old=Pv new
      v⃗new=P−1v⃗old\vec{v}{\text{new}} = P^{-1} \vec{v}{\text{old}}v new=P−1v old
  • 矩阵 PPP 的几何意义 :PPP 本身也是一个线性变换。Pv⃗newP \vec{v}{\text{new}}Pv new 的含义是:"构造一个点,它在新坐标系下的坐标为 v⃗new\vec{v}{\text{new}}v new,请问它在标准坐标系下的坐标是多少?"

结论 :在此视角下,物体是静止的,坐标系在动。物体的坐标值因其所在坐标系的不同而不同。


视角的统一:两种操作的等价性

这是最精妙的部分。主动变换物体和被动变换坐标系,在数学效果上可以等价。

等价关系

假设你想对物体实施一个变换 AAA(主动变换)。

  • 方法一(主动) :在标准坐标系 下,直接计算 v⃗′=Av⃗\vec{v}' = A \vec{v}v ′=Av ,就是高等数学的配凑和硬算
  • 方法二(被动)不动物体 ,而是将你的整个观察视角(坐标系)进行一个逆变换 。你切换到新坐标系 B=A−1B = A^{-1}B=A−1 下来观察静止的物体。就是高等数学的换元法
    • 在新坐标系 BBB 下,原静止物体的坐标变为 v⃗new=Bv⃗=A−1v⃗\vec{v}_{\text{new}} = B \vec{v} = A^{-1} \vec{v}v new=Bv =A−1v 。
    • 关键点 :此时,如果你在新坐标系 BBB 下"看到"的坐标 v⃗new\vec{v}_{\text{new}}v new,恰好等于 方法一中变换后物体在标准系下的坐标 v⃗′\vec{v}'v ′。

数学表达

"在旧系下用 AAA 变换物体" 等价于 "将坐标系变为 B=A−1B = A^{-1}B=A−1 后去观察静止的物体"。
Av⃗(主动变换的结果)A \vec{v} \quad \text{(主动变换的结果)}Av (主动变换的结果)
v⃗new=A−1v⃗(被动变换后的坐标)\vec{v}_{\text{new}} = A^{-1} \vec{v} \quad \text{(被动变换后的坐标)}v new=A−1v (被动变换后的坐标)
注意:这是两个不同的向量,存在于不同的坐标系中,但它们描述了空间中的同一个点位置。

意义

这种等价性揭示了线性代数的深刻内涵:

  • 矩阵 AAA 具有双重身份
    1. 作为一个变换算子 (主动:AAA)。
    2. 作为一个坐标变换的生成器 (被动:A−1A^{-1}A−1 定义了新系)。
  • 灵活性:为解决一个问题,我们可以自由选择最方便的视角。有时移动物体更容易,有时改变视角更简单。

总结与应用

特性 主动变换 (Active Transformation) 被动变换 (Passive Transformation)
操作对象 物体在空间中的位置和形状 观察物体的坐标系(参考系)
数学操作 v⃗′=Av⃗\vec{v}' = A \vec{v}v ′=Av v⃗new=P−1v⃗old\vec{v}{\text{new}} = P^{-1} \vec{v}{\text{old}}v new=P−1v old
矩阵角色 AAA 是变换算子 PPP 是新坐标系的基矩阵
几何意义 坐标系固定,物体被扭曲、旋转、缩放 物体固定,其坐标表示因坐标系改变而改变
典型应用 计算机图形学(旋转、缩放模型) 物理学(在不同参考系中求解问题)、数据降维(PCA)
相关推荐
阿维的博客日记3 小时前
LeetCode 240: 搜索二维矩阵 II - 算法详解(秒懂系列
算法·leetcode·矩阵
桐果云10 小时前
解锁桐果云零代码数据平台能力矩阵——赋能零售行业数字化转型新动能
大数据·人工智能·矩阵·数据挖掘·数据分析·零售
自信的小螺丝钉12 小时前
Leetcode 240. 搜索二维矩阵 II 矩阵 / 二分
算法·leetcode·矩阵
lytk9914 小时前
矩阵中寻找好子矩阵
线性代数·算法·矩阵
fFee-ops19 小时前
240. 搜索二维矩阵 II
线性代数·矩阵
fFee-ops1 天前
54. 螺旋矩阵
线性代数·矩阵
hansang_IR2 天前
【线性代数基础 | 那忘算9】基尔霍夫(拉普拉斯)矩阵 & 矩阵—树定理证明 [详细推导]
c++·笔记·线性代数·算法·矩阵·矩阵树定理·基尔霍夫矩阵
KarrySmile2 天前
网格图--Day04--网格图DFS--2684. 矩阵中移动的最大次数,1254. 统计封闭岛屿的数目,130. 被围绕的区域
矩阵·深度优先·dfs·深度优先搜索·灵茶山艾府·网格图·网格图dfs
lingchen19062 天前
MATLAB矩阵及其运算(三)矩阵的创建
算法·matlab·矩阵