线性代数直觉(二):二次型与“正定”

你知道一维空间的二次方程是什么样子的吗?比如ax² + bx + c,x²项使它成为二次方程。

二次型是x²项的多维版本。在二维空间中,它看起来像:

ax² + bxy + cy²

注意,每个项的次数都是 2: (x², xy, y²)。没有像 x 或 y 这样的线性项,也没有常数项。

美妙之处在于:v^T H v 恰好是一个二次型。将其相乘,得到:

v₁²·(∂²f/∂x²) + 2v₁v₂·(∂²f/∂x∂y) + v₂²·(∂²f/∂y²)

每个项的 v 分量的次数都是 2。Hessian 矩阵只是所有这些二次系数的一种简洁写法。

ax² + bxy + cy² :根据a、b和c的值,这可以是一个碗(都是正值),一个倒置的碗(都是负值),或者......一个马鞍形!

"一袋薯片"?没错!这就是广义二次型给你的一袋不同的曲面。碗状、山状、马鞍形,都用同一个紧凑公式描述,只是系数不同。然后, Hessian 矩阵会告诉你,你手里拿着的是哪种薯片!如果 Hessian 矩阵是"正定的",你就得到了一个碗。如果它是"负定的",你就得到了一个倒置的碗。如果两者都不是......你就得到了一个马鞍形。


"正定"(Positive definite),这个术语在优化、理解Hessian矩阵、区分芯片的过程中随处可见。

它的含义是:二次型(或表示它的矩阵)是"正定的",如果无论你选择哪个方向,v^T H v 的值始终为正,始终大于零。从几何学上讲,这意味着:无论你从临界点往哪个方向走,你都在上坡,每个方向都向上弯曲。这是一个碗状,一个局部最小值。

如果是"负定矩阵",那么 v^T H v 在任何方向上都为负,每条路径都向下。那就是山顶,局部最大值。

如果两者都不是......如果某些方向给出正值,而其他方向给出负值,那就是马鞍形。有些路径向上,有些路径向下。

关于"正定",我们知道它在概念上的含义,对于所有方向 v,v^T H v > 0。但我们需要一个实用的方法来验证它。有几种方法可以验证这一点:一种方法涉及"特征值",这是一个精彩的主题;另一种方法涉及研究某些子矩阵及其行列式。

特征值在某些方面更基础。它告诉你"主曲率",曲率的最强方向和最弱方向,这对于理解优化至关重要。但它们也更抽象,需要更多准备。行列式更具体,更具计算性。"计算一下,看看它是否为正。"但它们可能感觉更像是一个处方,而不是一种理解。

相关推荐
OG one.Z3 小时前
07_朴素贝叶斯
人工智能·机器学习
木头左3 小时前
趋势强度识别对ETF止盈触发条件的改进路径
数学建模
flying_13143 小时前
图神经网络分享系列-GAT(GRAPH ATTENTION NETWORKS) (一)
人工智能·神经网络·图神经网络·注意力机制·gnn·gat·图注意力网络
东皇太星3 小时前
机器学习概念,算法原理及应用
算法·机器学习·梯度下降法
姝孟3 小时前
C++学习——类与对象详细知识点总结
c++·笔记·学习
im_AMBER3 小时前
Leetcode 35
笔记·学习·算法·leetcode
Fortunate Chen4 小时前
初识C语言12. 结构体(自定义类型的核心工具)
c语言·开发语言·笔记
大象耶4 小时前
Mamba与UNet融合的创新架构方向
论文阅读·人工智能·深度学习·计算机网络·机器学习
米饭不加菜4 小时前
typora的基本用法
笔记