Hessian 矩阵与函数的凸性

Hessian 矩阵的定义

Hessian 矩阵是一个方形矩阵,用来描述多元函数的二阶偏导数信息。对于一个 n n n 维函数 f ( x 1 , x 2 , ... , x n ) f(x_1, x_2, \dots, x_n) f(x1,x2,...,xn),Hessian 矩阵的定义是:

H = ∂ 2 f ∂ x 1 2 ∂ 2 f ∂ x 1 ∂ x 2 ⋯ ∂ 2 f ∂ x 1 ∂ x n ∂ 2 f ∂ x 2 ∂ x 1 ∂ 2 f ∂ x 2 2 ⋯ ∂ 2 f ∂ x 2 ∂ x n ⋮ ⋮ ⋱ ⋮ ∂ 2 f ∂ x n ∂ x 1 ∂ 2 f ∂ x n ∂ x 2 ⋯ ∂ 2 f ∂ x n 2 . \mathbf{H} = \begin{bmatrix} \frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1 \partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_1 \partial x_n} \\ \frac{\partial^2 f}{\partial x_2 \partial x_1} & \frac{\partial^2 f}{\partial x_2^2} & \cdots & \frac{\partial^2 f}{\partial x_2 \partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^2 f}{\partial x_n \partial x_1} & \frac{\partial^2 f}{\partial x_n \partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_n^2} \end{bmatrix}. H= ∂x12∂2f∂x2∂x1∂2f⋮∂xn∂x1∂2f∂x1∂x2∂2f∂x22∂2f⋮∂xn∂x2∂2f⋯⋯⋱⋯∂x1∂xn∂2f∂x2∂xn∂2f⋮∂xn2∂2f .

Hessian 矩阵是一个对称矩阵(因为二阶偏导数 ∂ 2 f ∂ x i ∂ x j = ∂ 2 f ∂ x j ∂ x i \frac{\partial^2 f}{\partial x_i \partial x_j} = \frac{\partial^2 f}{\partial x_j \partial x_i} ∂xi∂xj∂2f=∂xj∂xi∂2f)。


Hessian 矩阵的求法

  1. 给定函数:

    假设 f ( x 1 , x 2 , ... , x n ) f(x_1, x_2, \dots, x_n) f(x1,x2,...,xn) 是一个二次连续可导的函数。

  2. 求一阶偏导:

    对每个变量 x i x_i xi 求偏导,得到一阶偏导数向量(梯度):
    ∇ f = ∂ f ∂ x 1 ∂ f ∂ x 2 ⋮ ∂ f ∂ x n . \nabla f = \begin{bmatrix} \frac{\partial f}{\partial x_1} \\ \frac{\partial f}{\partial x_2} \\ \vdots \\ \frac{\partial f}{\partial x_n} \end{bmatrix}. ∇f= ∂x1∂f∂x2∂f⋮∂xn∂f .

  3. 求二阶偏导:

    对每个一阶偏导数 ∂ f ∂ x i \frac{\partial f}{\partial x_i} ∂xi∂f 再分别对每个变量 x j x_j xj 求偏导,构造二阶偏导数矩阵(即 Hessian 矩阵)。


例子:

例1:一元函数

对于 f ( x ) = x 3 − 2 x 2 + x f(x) = x^3 - 2x^2 + x f(x)=x3−2x2+x,

  1. 求一阶导数:
    d f d x = 3 x 2 − 4 x + 1. \frac{df}{dx} = 3x^2 - 4x + 1. dxdf=3x2−4x+1.

  2. 求二阶导数:
    d 2 f d x 2 = 6 x − 4. \frac{d^2f}{dx^2} = 6x - 4. dx2d2f=6x−4.

Hessian 矩阵在一维情况下就是 H = 6 x − 4 \mathbf{H} = 6x - 4 H=6x−4(标量)。


例2:多元函数

对于 f ( x 1 , x 2 ) = x 1 2 + 3 x 1 x 2 + x 2 2 f(x_1, x_2) = x_1^2 + 3x_1x_2 + x_2^2 f(x1,x2)=x12+3x1x2+x22,

  1. 求一阶偏导:
    ∂ f ∂ x 1 = 2 x 1 + 3 x 2 , ∂ f ∂ x 2 = 3 x 1 + 2 x 2 . \frac{\partial f}{\partial x_1} = 2x_1 + 3x_2, \quad \frac{\partial f}{\partial x_2} = 3x_1 + 2x_2. ∂x1∂f=2x1+3x2,∂x2∂f=3x1+2x2.

  2. 求二阶偏导,构造 Hessian 矩阵:
    H = ∂ 2 f ∂ x 1 2 ∂ 2 f ∂ x 1 ∂ x 2 ∂ 2 f ∂ x 2 ∂ x 1 ∂ 2 f ∂ x 2 2 = 2 3 3 2 . \mathbf{H} = \begin{bmatrix} \frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1 \partial x_2} \\ \frac{\partial^2 f}{\partial x_2 \partial x_1} & \frac{\partial^2 f}{\partial x_2^2} \end{bmatrix} = \begin{bmatrix} 2 & 3 \\ 3 & 2 \end{bmatrix}. H=∂x12∂2f∂x2∂x1∂2f∂x1∂x2∂2f∂x22∂2f=2332.


Hessian 矩阵与凸性:

  • 如果 Hessian 矩阵的所有特征值均非负,则函数是凸函数;
  • 如果存在负特征值,则函数不是凸函数(某些方向上是凹的)。
相关推荐
Bobolink_9 天前
TikTok矩阵账号如何批量养号?工作室级运营方案分享
矩阵·内容运营·跨境电商·tik tok·账号运营
H178535090969 天前
SolidWorks第四部分_直接实体建模特征9_替换面原理
线性代数·算法·机器学习·3d建模·solidworks
AI_yangxi9 天前
短视频矩阵系统专业公司
大数据·人工智能·矩阵
昇腾CANN9 天前
【cann-samples系列】GroupedMatmul MX量化矩阵乘的深度性能优化实践
线性代数·性能优化·矩阵·昇腾·cann
青山木9 天前
Hot 100 --- 矩阵置零
线性代数·算法·leetcode·矩阵·哈希算法
Jasmine_llq9 天前
《B4264 [GESP202503 四级] 二阶矩阵》
线性代数·算法·矩阵·二维矩阵遍历枚举所有2×2矩阵·交叉乘积等式条件判断·输入输出快读加速·长整型防溢出计数统计
阿泽·黑核10 天前
05 keyflow 扩展设计方案:矩阵键盘/组合键/事件队列/中断驱动
线性代数·矩阵·计算机外设·嵌入式·agent·vibe coding
工头阿乐10 天前
相机坐标系标定与外参矩阵求解
数码相机·线性代数·矩阵
金色熊族11 天前
QTransform使用心得(二)--仿射变换、非仿射变换、矩阵
qt·线性代数·矩阵