写给新人的深度学习扫盲贴:向量与矩阵

一、基本概念与数学定义

1. 向量(Vector)

向量是线性代数中的基本对象,定义为具有 大小(模长)方向 的一维数组,可视为1阶张量。其数学表示形式为:
v = [ v 1 , v 2 , ... , v n ] \mathbf{v} = [v_1, v_2, \dots, v_n] v=[v1,v2,...,vn]
物理意义 :向量常用于描述空间中的点、力、速度等具有方向性的量。在计算机中,向量通常以一维数组存储(如NumPy中的np.array([1,2,3]))。

2. 矩阵(Matrix)

矩阵是二维数组,由行(row)和列(column)构成,可视为2阶张量。其数学表示形式为:
A = [ a 11 a 12 ⋯ a 1 n a 21 a 22 ⋯ a 2 n ⋮ ⋮ ⋱ ⋮ a m 1 a m 2 ⋯ a m n ] A = \begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{bmatrix} A= a11a21⋮am1a12a22⋮am2⋯⋯⋱⋯a1na2n⋮amn

物理意义 :矩阵用于表示线性变换、数据集(如图像像素矩阵)或多变量关系。例如,在Python中,矩阵以二维数组表示(如np.array([[1,2],[3,4]]))。

3. 张量(Tensor)

张量是更高维度的推广:标量(0阶)、向量(1阶)、矩阵(2阶)、三维张量(3阶)等。例如,RGB图像可表示为三维张量(高度×宽度×通道数)。


二、核心区别:维度、运算与几何意义

1. 维度与结构

  • 向量 :一维数组,仅含 一个轴(如长度为n的向量为n维向量)。
  • 矩阵 :二维数组,含 两个轴(行与列)。
  • 示例
    • 向量:[1,2,3](形状为(3,)
    • 矩阵:[[1,2],[3,4]](形状为(2,2))。

2. 运算差异

  • 向量运算
    • 点积 (内积):结果为标量,如 u ⋅ v = ∑ u i v i \mathbf{u} \cdot \mathbf{v} = \sum u_i v_i u⋅v=∑uivi。
    • 叉积(外积):结果为向量,仅适用于三维向量。
  • 矩阵运算
    • 矩阵乘法:需满足"前列=后行"维度匹配规则,结果为新矩阵。
    • 转置 (行列互换)、逆矩阵 (仅方阵可逆)、行列式(标量,描述矩阵缩放因子)。

3. 几何意义

  • 向量 :表示空间中的 方向与位移(如箭头),其模长对应大小。
  • 矩阵 :表示 线性变换(如旋转、缩放、投影),例如旋转矩阵作用于向量可改变其方向。
  • 示例 :二维旋转矩阵
    R ( θ ) = [ cos ⁡ θ − sin ⁡ θ sin ⁡ θ cos ⁡ θ ] R(\theta) = \begin{bmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{bmatrix} R(θ)=[cosθsinθ−sinθcosθ]

可将向量绕原点旋转角度 θ \theta θ。


三、核心联系:从线性代数到数据科学

1. 向量是矩阵的特殊形式

  • 行向量 (1×n矩阵)与 列向量(n×1矩阵)可互换,通过转置操作实现。

  • 示例 :向量 v = [ 1 , 2 , 3 ] \mathbf{v} = [1,2,3] v=[1,2,3]可表示为行向量或列向量:

    1 2 3 \] 或 \[ 1 2 3 \] \\begin{bmatrix}1 \& 2 \& 3\\end{bmatrix} \\quad \\text{或} \\quad \\begin{bmatrix}1 \\\\ 2 \\\\ 3\\end{bmatrix} \[123\]或 123

  • 行视角:矩阵的每一行是一个行向量(如数据集中每个样本的特征向量)。

  • 列视角:矩阵的每一列是一个列向量(如数据集中每个特征的多个样本值)。

  • 示例:在图像处理中,一张28×28的灰度图像可展平为784维向量,多个图像组成矩阵(行=图像,列=像素)。

3. 线性变换的数学本质

  • 矩阵乘法 :矩阵 A A A与向量 v \mathbf{v} v的乘积 A v A\mathbf{v} Av,本质是对 v \mathbf{v} v进行线性组合。
  • 基变换:矩阵可表示不同基向量之间的转换,例如将向量从标准基转换到特征向量基。

4. 特征值与特征向量

  • 定义 :若矩阵 A A A满足 A v = λ v A\mathbf{v} = \lambda\mathbf{v} Av=λv,则 λ \lambda λ为特征值, v \mathbf{v} v为特征向量。
  • 应用
    • 主成分分析(PCA):通过协方差矩阵的特征分解实现数据降维。
    • 物理系统稳定性分析:特征值实部符号决定系统是否稳定。

四、线性代数中的应用场景

1. 线性方程组求解

  • 矩阵形式 :方程组 A x = b A\mathbf{x} = \mathbf{b} Ax=b中, A A A为系数矩阵, x \mathbf{x} x为解向量。
  • 方法:高斯消元法、LU分解、QR分解等。

2. 数据表示与处理

  • 数据集矩阵:行代表样本,列代表特征(如MNIST数据集中的图像矩阵)。
  • 图像压缩:通过矩阵分解(如SVD)保留主成分,减少存储空间。

3. 优化问题

  • 最小二乘法:通过矩阵运算求解超定方程组的最优解。
  • 二次型优化:利用对称矩阵特征值分析函数极值。

五、神经网络中的核心作用

1. 前向传播:矩阵乘法实现线性变换

  • 输入层到隐藏层 :输入向量 x \mathbf{x} x与权重矩阵 W W W相乘,加偏置 b \mathbf{b} b,再经激活函数输出:
    z = W x + b , a = σ ( z ) \mathbf{z} = W\mathbf{x} + \mathbf{b}, \quad \mathbf{a} = \sigma(\mathbf{z}) z=Wx+b,a=σ(z)
  • 示例 :全连接层中,若输入为 n n n维向量,隐藏层有 m m m个神经元,则 W W W为 m × n m \times n m×n矩阵。

2. 反向传播:梯度计算与参数更新

  • 链式法则 :损失函数对权重矩阵的梯度通过矩阵导数计算,如:
    ∂ L ∂ W = ∂ L ∂ a ⋅ ∂ a ∂ z ⋅ ∂ z ∂ W \frac{\partial L}{\partial W} = \frac{\partial L}{\partial \mathbf{a}} \cdot \frac{\partial \mathbf{a}}{\partial \mathbf{z}} \cdot \frac{\partial \mathbf{z}}{\partial W} ∂W∂L=∂a∂L⋅∂z∂a⋅∂W∂z
  • 参数更新 :权重矩阵 W W W通过梯度下降迭代优化:
    W : = W − η ∂ L ∂ W W := W - \eta \frac{\partial L}{\partial W} W:=W−η∂W∂L
    其中 η \eta η为学习率。

3. 卷积神经网络(CNN)中的张量运算

  • 卷积核:可视为三维张量(高度×宽度×通道数),与输入图像张量进行滑动窗口乘积累加。
  • 特征图:卷积结果通过激活函数生成,后续池化操作进一步降维。

4. 注意力机制中的矩阵运算

  • Query-Key-Value矩阵 :自注意力机制通过矩阵乘法计算相似度权重,如:
    Attention ( Q , K , V ) = softmax ( Q K T d k ) V \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V Attention(Q,K,V)=softmax(dk QKT)V
    其中 Q Q Q、 K K K、 V V V均为矩阵。

六、小小总结

1. 核心区别总结

属性 向量 矩阵
维度 一维(单轴) 二维(行与列)
运算 点积、叉积 乘法、转置、逆
几何意义 方向与位移 线性变换(旋转、缩放等)
存储结构 一维数组 二维数组
应用场景 单样本特征、物理量 数据集、图像、参数矩阵

2. 未来研究方向

  • 张量网络:高阶张量在量子计算与图神经网络中的应用。
  • 矩阵分解优化:非负矩阵分解(NMF)在推荐系统与文本分析中的改进。
  • 稀疏矩阵计算:针对大规模数据的高效存储与计算优化。

参考

  1. 张量与矩阵的维度定义
  2. 线性变换与特征值分解
  3. 神经网络中的矩阵运算
  4. 数据科学中的矩阵应用
相关推荐
阿坡RPA10 小时前
手搓MCP客户端&服务端:从零到实战极速了解MCP是什么?
人工智能·aigc
用户277844910499310 小时前
借助DeepSeek智能生成测试用例:从提示词到Excel表格的全流程实践
人工智能·python
机器之心10 小时前
刚刚,DeepSeek公布推理时Scaling新论文,R2要来了?
人工智能
算AI12 小时前
人工智能+牙科:临床应用中的几个问题
人工智能·算法
凯子坚持 c13 小时前
基于飞桨框架3.0本地DeepSeek-R1蒸馏版部署实战
人工智能·paddlepaddle
你觉得20514 小时前
哈尔滨工业大学DeepSeek公开课:探索大模型原理、技术与应用从GPT到DeepSeek|附视频与讲义下载方法
大数据·人工智能·python·gpt·学习·机器学习·aigc
8K超高清14 小时前
中国8K摄像机:科技赋能文化传承新图景
大数据·人工智能·科技·物联网·智能硬件
hyshhhh14 小时前
【算法岗面试题】深度学习中如何防止过拟合?
网络·人工智能·深度学习·神经网络·算法·计算机视觉
薛定谔的猫-菜鸟程序员14 小时前
零基础玩转深度神经网络大模型:从Hello World到AI炼金术-详解版(含:Conda 全面使用指南)
人工智能·神经网络·dnn
币之互联万物14 小时前
2025 AI智能数字农业研讨会在苏州启幕,科技助农与数据兴业成焦点
人工智能·科技