写给新人的深度学习扫盲贴：向量与矩阵

一、基本概念与数学定义

1. 向量（Vector）

向量是线性代数中的基本对象，定义为具有 大小（模长） 和方向的一维数组，可视为1阶张量。其数学表示形式为：
v = [ v 1 , v 2 , ... , v n ] \mathbf{v} = [v_1, v_2, \dots, v_n] v=[v1,v2,...,vn]
物理意义 ：向量常用于描述空间中的点、力、速度等具有方向性的量。在计算机中，向量通常以一维数组存储（如NumPy中的np.array([1,2,3])）。

2. 矩阵（Matrix）

矩阵是二维数组，由行（row）和列（column）构成，可视为2阶张量。其数学表示形式为：
A = [ a 11 a 12 ⋯ a 1 n a 21 a 22 ⋯ a 2 n ⋮ ⋮ ⋱ ⋮ a m 1 a m 2 ⋯ a m n ] A = \begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{bmatrix} A= a11a21⋮am1a12a22⋮am2⋯⋯⋱⋯a1na2n⋮amn

物理意义 ：矩阵用于表示线性变换、数据集（如图像像素矩阵）或多变量关系。例如，在Python中，矩阵以二维数组表示（如np.array([[1,2],[3,4]])）。

3. 张量（Tensor）

张量是更高维度的推广：标量（0阶）、向量（1阶）、矩阵（2阶）、三维张量（3阶）等。例如，RGB图像可表示为三维张量（高度×宽度×通道数）。

二、核心区别：维度、运算与几何意义

1. 维度与结构

向量：一维数组，仅含 一个轴（如长度为n的向量为n维向量）。
矩阵：二维数组，含 两个轴（行与列）。
示例：
- 向量：[1,2,3]（形状为(3,)）
- 矩阵：[[1,2],[3,4]]（形状为(2,2)）。

2. 运算差异

向量运算 ：
- 点积（内积）：结果为标量，如 u ⋅ v = ∑ u i v i \mathbf{u} \cdot \mathbf{v} = \sum u_i v_i u⋅v=∑uivi。
- 叉积（外积）：结果为向量，仅适用于三维向量。
矩阵运算 ：
- 矩阵乘法：需满足"前列=后行"维度匹配规则，结果为新矩阵。
- 转置（行列互换）、逆矩阵 （仅方阵可逆）、行列式（标量，描述矩阵缩放因子）。

3. 几何意义

向量：表示空间中的 方向与位移（如箭头），其模长对应大小。
矩阵：表示 线性变换（如旋转、缩放、投影），例如旋转矩阵作用于向量可改变其方向。
示例：二维旋转矩阵
R ( θ ) = [ cos ⁡ θ − sin ⁡ θ sin ⁡ θ cos ⁡ θ ] R(\theta) = \begin{bmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{bmatrix} R(θ)=[cosθsinθ−sinθcosθ]

可将向量绕原点旋转角度 θ \theta θ。

三、核心联系：从线性代数到数据科学

1. 向量是矩阵的特殊形式

行向量 （1×n矩阵）与 列向量（n×1矩阵）可互换，通过转置操作实现。
示例：向量 v = [ 1 , 2 , 3 ] \mathbf{v} = [1,2,3] v=[1,2,3]可表示为行向量或列向量：
$1 2 3 \] 或 \[ 1 2 3 \] \\begin{bmatrix}1 \& 2 \& 3\\end{bmatrix} \\quad \\text{或} \\quad \\begin{bmatrix}1 \\\\ 2 \\\\ 3\\end{bmatrix} \[123\]或 123$
行视角：矩阵的每一行是一个行向量（如数据集中每个样本的特征向量）。
列视角：矩阵的每一列是一个列向量（如数据集中每个特征的多个样本值）。
示例：在图像处理中，一张28×28的灰度图像可展平为784维向量，多个图像组成矩阵（行=图像，列=像素）。

3. 线性变换的数学本质

矩阵乘法 ：矩阵 A A A与向量 v \mathbf{v} v的乘积 A v A\mathbf{v} Av，本质是对 v \mathbf{v} v进行线性组合。
基变换：矩阵可表示不同基向量之间的转换，例如将向量从标准基转换到特征向量基。

4. 特征值与特征向量

定义：若矩阵 A A A满足 A v = λ v A\mathbf{v} = \lambda\mathbf{v} Av=λv，则 λ \lambda λ为特征值， v \mathbf{v} v为特征向量。
应用：
- 主成分分析（PCA）：通过协方差矩阵的特征分解实现数据降维。
- 物理系统稳定性分析：特征值实部符号决定系统是否稳定。

四、线性代数中的应用场景

1. 线性方程组求解

矩阵形式 ：方程组 A x = b A\mathbf{x} = \mathbf{b} Ax=b中， A A A为系数矩阵， x \mathbf{x} x为解向量。
方法：高斯消元法、LU分解、QR分解等。

2. 数据表示与处理

数据集矩阵：行代表样本，列代表特征（如MNIST数据集中的图像矩阵）。
图像压缩：通过矩阵分解（如SVD）保留主成分，减少存储空间。

3. 优化问题

最小二乘法：通过矩阵运算求解超定方程组的最优解。
二次型优化：利用对称矩阵特征值分析函数极值。

五、神经网络中的核心作用

1. 前向传播：矩阵乘法实现线性变换

输入层到隐藏层 ：输入向量 x \mathbf{x} x与权重矩阵 W W W相乘，加偏置 b \mathbf{b} b，再经激活函数输出：
z = W x + b , a = σ ( z ) \mathbf{z} = W\mathbf{x} + \mathbf{b}, \quad \mathbf{a} = \sigma(\mathbf{z}) z=Wx+b,a=σ(z)
示例：全连接层中，若输入为 n n n维向量，隐藏层有 m m m个神经元，则 W W W为 m × n m \times n m×n矩阵。

2. 反向传播：梯度计算与参数更新

链式法则 ：损失函数对权重矩阵的梯度通过矩阵导数计算，如：
∂ L ∂ W = ∂ L ∂ a ⋅ ∂ a ∂ z ⋅ ∂ z ∂ W \frac{\partial L}{\partial W} = \frac{\partial L}{\partial \mathbf{a}} \cdot \frac{\partial \mathbf{a}}{\partial \mathbf{z}} \cdot \frac{\partial \mathbf{z}}{\partial W} ∂W∂L=∂a∂L⋅∂z∂a⋅∂W∂z
参数更新 ：权重矩阵 W W W通过梯度下降迭代优化：
W : = W − η ∂ L ∂ W W := W - \eta \frac{\partial L}{\partial W} W:=W−η∂W∂L
其中 η \eta η为学习率。

3. 卷积神经网络（CNN）中的张量运算

卷积核：可视为三维张量（高度×宽度×通道数），与输入图像张量进行滑动窗口乘积累加。
特征图：卷积结果通过激活函数生成，后续池化操作进一步降维。

4. 注意力机制中的矩阵运算

Query-Key-Value矩阵 ：自注意力机制通过矩阵乘法计算相似度权重，如：
Attention ( Q , K , V ) = softmax ( Q K T d k ) V \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V Attention(Q,K,V)=softmax(dk QKT)V
其中 Q Q Q、 K K K、 V V V均为矩阵。

六、小小总结

1. 核心区别总结

属性	向量	矩阵
维度	一维（单轴）	二维（行与列）
运算	点积、叉积	乘法、转置、逆
几何意义	方向与位移	线性变换（旋转、缩放等）
存储结构	一维数组	二维数组
应用场景	单样本特征、物理量	数据集、图像、参数矩阵

2. 未来研究方向

张量网络：高阶张量在量子计算与图神经网络中的应用。
矩阵分解优化：非负矩阵分解（NMF）在推荐系统与文本分析中的改进。
稀疏矩阵计算：针对大规模数据的高效存储与计算优化。

参考

张量与矩阵的维度定义
线性变换与特征值分解
神经网络中的矩阵运算
数据科学中的矩阵应用