矩阵和向量的双重视角

矩阵和向量的双重视角 w⃗=Av⃗\vec{w} = A \vec{v}w =Av

总结

线性代数并非一堆孤立的计算规则,而是一套描述空间、变换与数据的统一语言。其核心在于理解两个相辅相成的视角:

  1. 矩阵作为函数(主动变换) :矩阵是一个机器,对空间中的物体(向量)进行旋转、缩放等操作。
  2. 向量作为坐标(被动变换) :向量是一个点在某坐标系下的地址。改变坐标系,点的"地址"随之改变。

如何理解 w⃗=Av⃗\vec{w} = A \vec{v}w =Av

  • 在标量运算中​:y=k⋅x

    • k 是一个缩放因子。它决定了数 x 被放大或缩小多少倍。
    • 这是一个一维的线性变换。
  • 在线性代数中 ​: w⃗=Av⃗\vec{w} = A \vec{v}w =Av

    • 矩阵 A 是一个变换因子。它决定了一个向量 v 被如何"放大"、"缩小"、"旋转"、"剪切"。
    • 这是一个高维的线性变换。矩阵 A 就像是作用于整个向量上的一个复杂的、多方向的"超级因子"​

视角一:矩阵作为函数(主动变换)

在这个视角下,我们固定一个坐标系(通常为标准直角坐标系),让矩阵对物体本身进行操作。

1. 矩阵是线性变换函数

  • 一个 m×nm \times nm×n 矩阵 AAA 定义了一个从 Rn\mathbb{R}^nRn 到 Rm\mathbb{R}^mRm 的线性映射 (函数):
    w⃗=Av⃗\vec{w} = A \vec{v}w =Av
    • 输入:一个向量 v⃗\vec{v}v (旧点)。
    • 输出:另一个向量 w⃗\vec{w}w (新点)。
  • "线性"意味着 :这个函数满足叠加性 (A(u⃗+v⃗)=Au⃗+Av⃗A(\vec{u}+\vec{v}) = A\vec{u} + A\vec{v}A(u +v )=Au +Av ) 和齐次性 (A(cv⃗)=c(Av⃗)A(c\vec{v}) = c(A\vec{v})A(cv )=c(Av ))。

2. 几何解释:变换空间中的物体

  • 单位矩阵 III :是"恒等函数",w⃗=Iv⃗=v⃗\vec{w} = I \vec{v} = \vec{v}w =Iv =v ,物体保持不变。
  • 缩放矩阵 (s00s)\begin{pmatrix} s & 0 \\ 0 & s \end{pmatrix}(s00s) :将物体均匀缩放 sss 倍。
  • 旋转矩阵 (cos⁡θ−sin⁡θsin⁡θcos⁡θ)\begin{pmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{pmatrix}(cosθsinθ−sinθcosθ) :将物体旋转 θ\thetaθ 角。
  • 剪切矩阵:使物体发生倾斜。

操作流程

  1. 设定一个固定的参考系(通常为标准坐标系)。
  2. 有一个几何体,由其上一系列点 {v⃗1,v⃗2,...}\{ \vec{v}_1, \vec{v}_2, ... \}{v 1,v 2,...} 描述。
  3. 选择一个变换矩阵 AAA,对每一个点 进行运算:v⃗i′=Av⃗i\vec{v}_i' = A \vec{v}_iv i′=Av i。
  4. 所有新点 {v⃗1′,v⃗2′,...}\{ \vec{v}_1', \vec{v}_2', ... \}{v 1′,v 2′,...} 构成了变换后的新几何体。

结论 :在此视角下,坐标系是静止的,物体在动

3. 信息视角:矩阵作为信息处理器

线性变换 w⃗=Av⃗\vec{w} = A \vec{v}w =Av 的输入输出维度关系 (m×n)(m \times n)(m×n),决定了其处理信息的方式:

情况一:m<nm < nm<n (降维,压缩映射)
  • 生动例子 :原始数据是一个人的体重 www 和身高 hhh(2个特征,v⃗∈R2\vec{v} \in \mathbb{R}^2v ∈R2)。使用一个 1×21 \times 21×2 的矩阵 A=[1,−1]A = [1, -1]A=[1,−1] 进行变换:
    w⃗=Av⃗=[1,−1][wh]=w−h\vec{w} = A\vec{v} = [1, -1] \begin{bmatrix} w \\ h \end{bmatrix} = w - hw =Av =[1,−1][wh]=w−h
    结果 w⃗\vec{w}w 是"体重与身高之差"(1个特征)。
  • 信息流向 :从高维空间 Rn\mathbb{R}^nRn 映射到低维空间 Rm\mathbb{R}^mRm。
  • 信息损失信息发生了不可逆的损失 。无数个不同的 (w,h)(w, h)(w,h) 组合经过变换可能得到同一个 w−hw-hw−h 值。无法从结果唯一地反推 出原始的 www 和 hhh。
  • 在后面线性方程组那也是,数据不够,或者信息重复的方程组是没有唯一解的,是不确定的
情况二:m=nm = nm=n 且 AAA 满秩 (可逆变换,双射)
  • 生动例子 :原始数据同样是 (w,h)(w, h)(w,h)(v⃗∈R2\vec{v} \in \mathbb{R}^2v ∈R2)。使用一个满秩的 2×22 \times 22×2 矩阵 A=[1−111]A = \begin{bmatrix} 1 & -1 \\ 1 & 1 \end{bmatrix}A=[11−11] 进行变换:
    w⃗=Av⃗=[1−111][wh]=[w−hw+h]\vec{w} = A\vec{v} = \begin{bmatrix} 1 & -1 \\ 1 & 1 \end{bmatrix} \begin{bmatrix} w \\ h \end{bmatrix} = \begin{bmatrix} w - h \\ w + h \end{bmatrix}w =Av =[11−11][wh]=[w−hw+h]
    结果是由"体重身高差"和"体重身高和"构成的新二维特征。
  • 信息流向 :在同一维度的空间 Rn\mathbb{R}^nRn 内进行变换。
  • 信息保持信息没有丢失,只是被重新编码了 。因为变换是可逆的(存在 A−1A^{-1}A−1),你可以从新特征 (w−h,w+h)(w-h, w+h)(w−h,w+h) 精确地反解 出原始的 (w,h)(w, h)(w,h)。
  • 典型应用坐标变换、解耦。将数据转换到另一个视角或坐标系下进行分析,过程完全可逆(如求解微分方程时的特征分解)。
情况三:m>nm > nm>n (升维,嵌入)
  • 生动例子 :原始数据还是 (w,h)(w, h)(w,h)(v⃗∈R2\vec{v} \in \mathbb{R}^2v ∈R2)。使用一个 3×23 \times 23×2 的矩阵 A=[1−11112]A = \begin{bmatrix} 1 & -1 \\ 1 & 1 \\ 1 & 2 \end{bmatrix}A= 111−112 进行变换:
    w⃗=Av⃗=[1−11112][wh]=[w−hw+hw+2h]\vec{w} = A\vec{v} = \begin{bmatrix} 1 & -1 \\ 1 & 1 \\ 1 & 2 \end{bmatrix} \begin{bmatrix} w \\ h \end{bmatrix} = \begin{bmatrix} w - h \\ w + h \\ w + 2h \end{bmatrix}w =Av = 111−112 [wh]= w−hw+hw+2h
    结果是一个三维向量。
  • 信息流向 :从低维空间 Rn\mathbb{R}^nRn 映射到高维空间 Rm\mathbb{R}^mRm。
  • 信息保持?原始信息没有增加 。新特征全是原始特征的线性组合,并未提供真正独立的新信息。所有输出 w⃗\vec{w}w 都分布在一个嵌入在高维空间中的二维子空间(称为列空间)里。
  • 典型应用特征扩展 。有时在低维中线性不可分的数据,映射到高维会变得线性可分(这构成了核方法 的思想基础)。
    所以呢,出题老师就像这个给定一些信息的人,我们呢就是那个变换矩阵只能从已知的条件推出无数种结论,但是呢这些条件实际是重复的,如果题目问一个这些条件推不出的结论,再怎么牛逼也是推不出来的
核心概念:秩 (Rank)

矩阵的 衡量了变换 AAA 所能产生的独立信息的最大数量(即列空间的维度)。

  • 秩 ≤min⁡(m,n)\leq \min(m, n)≤min(m,n)
  • 秩决定了信息的"真实"维度:在升维映射中,若秩 r<nr < nr<n,则意味着原始数据本身存在冗余。

视角二:向量作为坐标(被动变换)

相当于某个几何世界由三个最基本的,向量组成,这三个向量通过线性变换,得到了这个世界的万事万物,然后来了一股东方的神秘力量,要改变这个基,那么这个世界的所有物体都要发生变形

或者说,这个世界的元素,本质是原子,通过一系列组合,变成了这个世界的万事万物,然后三体人,要改变这个世界的有些元素,那么这个世界的基发生变化了,所有的物体都的变

在这个视角下,物体在空间中的绝对位置是固定的,我们改变的是描述它的坐标系(参考系)。

1. 向量是相对于坐标系的坐标

  • 一个向量 v⃗=(x,y,z)T\vec{v} = (x, y, z)^Tv =(x,y,z)T 并非一个绝对概念,它是一组坐标,表示一个点在某个特定坐标系下的"地址"。
  • 标准坐标系 :由基向量 i^=(1,0,0)T\hat{i} = (1,0,0)^Ti^=(1,0,0)T, j^=(0,1,0)T\hat{j} = (0,1,0)^Tj^=(0,1,0)T, k^=(0,0,1)T\hat{k} = (0,0,1)^Tk^=(0,0,1)T 张成。其基矩阵为单位矩阵 III。

2. 改变坐标系

  • 我们可以选择另一组线性无关的向量 {b⃗1,b⃗2,b⃗3}\{\vec{b}_1, \vec{b}_2, \vec{b}_3\}{b 1,b 2,b 3} 作为新基,定义一个新坐标系。
  • 设矩阵 P=[b⃗1b⃗2b⃗3]P = \begin{bmatrix} \vec{b}_1 & \vec{b}_2 & \vec{b}_3 \end{bmatrix}P=[b 1b 2b 3],其列向量就是新坐标系的基向量。
  • 同一个点 ,如何用新坐标 v⃗new\vec{v}{\text{new}}v new 表示旧坐标 v⃗old\vec{v}{\text{old}}v old?
    • 旧坐标:点在标准坐标系下的坐标 v⃗old\vec{v}_{\text{old}}v old。
    • 新坐标:点在新坐标系 PPP 下的坐标 v⃗new\vec{v}_{\text{new}}v new。
    • 坐标变换公式
      v⃗old=Pv⃗new\vec{v}{\text{old}} = P \vec{v}{\text{new}}v old=Pv new
      v⃗new=P−1v⃗old\vec{v}{\text{new}} = P^{-1} \vec{v}{\text{old}}v new=P−1v old
  • 矩阵 PPP 的几何意义 :PPP 本身也是一个线性变换。Pv⃗newP \vec{v}{\text{new}}Pv new 的含义是:"构造一个点,它在新坐标系下的坐标为 v⃗new\vec{v}{\text{new}}v new,请问它在标准坐标系下的坐标是多少?"

结论 :在此视角下,物体是静止的,坐标系在动。物体的坐标值因其所在坐标系的不同而不同。


视角的统一:两种操作的等价性

这是最精妙的部分。主动变换物体和被动变换坐标系,在数学效果上可以等价。

等价关系

假设你想对物体实施一个变换 AAA(主动变换)。

  • 方法一(主动) :在标准坐标系 下,直接计算 v⃗′=Av⃗\vec{v}' = A \vec{v}v ′=Av ,就是高等数学的配凑和硬算
  • 方法二(被动)不动物体 ,而是将你的整个观察视角(坐标系)进行一个逆变换 。你切换到新坐标系 B=A−1B = A^{-1}B=A−1 下来观察静止的物体。就是高等数学的换元法
    • 在新坐标系 BBB 下,原静止物体的坐标变为 v⃗new=Bv⃗=A−1v⃗\vec{v}_{\text{new}} = B \vec{v} = A^{-1} \vec{v}v new=Bv =A−1v 。
    • 关键点 :此时,如果你在新坐标系 BBB 下"看到"的坐标 v⃗new\vec{v}_{\text{new}}v new,恰好等于 方法一中变换后物体在标准系下的坐标 v⃗′\vec{v}'v ′。

数学表达

"在旧系下用 AAA 变换物体" 等价于 "将坐标系变为 B=A−1B = A^{-1}B=A−1 后去观察静止的物体"。
Av⃗(主动变换的结果)A \vec{v} \quad \text{(主动变换的结果)}Av (主动变换的结果)
v⃗new=A−1v⃗(被动变换后的坐标)\vec{v}_{\text{new}} = A^{-1} \vec{v} \quad \text{(被动变换后的坐标)}v new=A−1v (被动变换后的坐标)
注意:这是两个不同的向量,存在于不同的坐标系中,但它们描述了空间中的同一个点位置。

意义

这种等价性揭示了线性代数的深刻内涵:

  • 矩阵 AAA 具有双重身份
    1. 作为一个变换算子 (主动:AAA)。
    2. 作为一个坐标变换的生成器 (被动:A−1A^{-1}A−1 定义了新系)。
  • 灵活性:为解决一个问题,我们可以自由选择最方便的视角。有时移动物体更容易,有时改变视角更简单。

总结与应用

特性 主动变换 (Active Transformation) 被动变换 (Passive Transformation)
操作对象 物体在空间中的位置和形状 观察物体的坐标系(参考系)
数学操作 v⃗′=Av⃗\vec{v}' = A \vec{v}v ′=Av v⃗new=P−1v⃗old\vec{v}{\text{new}} = P^{-1} \vec{v}{\text{old}}v new=P−1v old
矩阵角色 AAA 是变换算子 PPP 是新坐标系的基矩阵
几何意义 坐标系固定,物体被扭曲、旋转、缩放 物体固定,其坐标表示因坐标系改变而改变
典型应用 计算机图形学(旋转、缩放模型) 物理学(在不同参考系中求解问题)、数据降维(PCA)
相关推荐
你要飞15 小时前
考研线代第三课:向量组
笔记·线性代数·考研·矩阵
aigcapi16 小时前
AI 获客系统哪个好?矩阵系统哪个好?2026 客观测评 TOP4
大数据·人工智能·矩阵
一碗姜汤1 天前
【统计基础】卡尔曼滤波,矩阵对迹求导,Joseph Form,条件数
线性代数·矩阵
sunfove1 天前
麦克斯韦方程组 (Maxwell‘s Equations) 的完整推导
线性代数·算法·矩阵
yyy(十一月限定版)1 天前
matlab矩阵的操作
算法·matlab·矩阵
ComputerInBook1 天前
代数学基本概念理解——幺正矩阵(Unitary matrix)(酉矩阵?)
线性代数·矩阵·正交矩阵·幺正矩阵·酉矩阵
AI科技星2 天前
光速飞行器动力学方程的第一性原理推导、验证与范式革命
数据结构·人工智能·线性代数·算法·机器学习·概率论
一碗姜汤2 天前
【统计基础】从线性代数的直观角度理解SVD奇异值分解
线性代数
好奇龙猫2 天前
【大学院-筆記試験練習:线性代数和数据结构(5)】
数据结构·线性代数
jinmo_C++2 天前
Leetcode矩阵
算法·leetcode·矩阵