线性回归与逻辑回归:同为凸函数,为何一个有解析解、一个没有?

1. 核心结论

  • 凸性 只保证存在唯一全局最优解 ,不保证能写出解析解(闭式解)
  • 线性回归有解析解,是因为其目标函数是二次凸函数 ,梯度为 0 得到线性方程组,可直接求逆求解。
  • 逻辑回归虽然也是凸函数,但因引入了 sigmoid 非线性变换 ,梯度为 0 得到非线性方程组,无通用闭式解,只能迭代优化。

2. 线性回归:凸 + 二次 → 有解析解

线性回归使用平方误差损失

J(\\theta) = \\frac{1}{2}\\sum_{i=1}\^n \\left(y\^{(i)} - \\theta\^T x^{(i)}\\right)^2

写成矩阵形式:

J(\\theta) = \\frac{1}{2}\|X\\theta - y\|\^2

(1)凸性证明

对 (\theta) 求二阶导(Hessian 矩阵):

\\nabla\^2 J(\\theta) = X\^T X

(X^T X) 是半正定矩阵 ,因此 (J(\theta)) 是凸函数

(2)为什么有解析解

对 (\theta) 求梯度并令其为 0:

\\nabla_\\theta J(\\theta) = X\^T(X\\theta - y) = 0

得到线性方程组

X\^T X \\theta = X\^T y

当 (X^T X) 可逆时,直接解出:

\\hat{\\theta} = (X\^T X)^{-1}X^T y

这就是正规方程(Normal Equation) ,是典型的解析解


3. 逻辑回归:凸但非线性 → 无解析解

逻辑回归的预测值经过 sigmoid 映射:

h_\\theta(x) = \\sigma(\\theta\^T x) = \\frac{1}{1+e^{-\\theta^T x}}

使用对数似然损失(交叉熵)

J(\\theta) = -\\frac{1}{n}\\sum_{i=1}\^n\\left\[ y\^{(i)}\\log h_\\theta(x\^{(i)}) + (1-y^{(i)})\\log\\left(1-h_\\theta(x^{(i)})\\right) \\right

]

(1)依然是凸函数

可以证明其 Hessian 矩阵半正定 ,因此 (J(\theta)) 是严格凸函数,全局最优唯一。

(2)为什么没有解析解

对 (\theta) 求梯度:

\\nabla_\\theta J(\\theta) = \\frac{1}{n}\\sum_{i=1}\^n \\left( h_\\theta(x\^{(i)}) - y\^{(i)} \\right) x\^{(i)}

令梯度为 0:

\\sum_{i=1}\^n \\left( \\frac{1}{1+e^{-\\theta^T x\^{(i)}}} - y\^{(i)} \\right)x\^{(i)} = 0

这是一个关于 (\theta) 的非线性超越方程组 ,里面包含指数函数与分式结构,无法通过代数变形、求逆等方式消去 (\theta) 得到闭式表达式,因此不存在解析解,只能用梯度下降、牛顿法等迭代方法逼近最优解。


4. 模型有解析解的条件

一个优化问题存在解析解(闭式解),通常满足以下全部条件:

  1. 目标函数是二次凸函数
    形如

    J(\\theta) = \\theta\^T A \\theta + b\^T \\theta + c

  2. 模型是线性预测
    无非线性激活(如 sigmoid、softmax、ReLU 等)。
  3. 梯度为 0 得到线性方程组

    M\\theta = d

  4. 系数矩阵可求逆或伪逆
    即 (M) 满秩或可使用广义逆。

只要引入非线性激活非二次损失,一般就不再存在解析解。


5. 一句话总结

  • 凸函数:保证最优解唯一。
  • 二次 + 线性:才能得到解析解。
  • 非线性激活(sigmoid):方程变非线性 → 无解析解,只能迭代。
相关推荐
JieE21215 小时前
LeetCode 101. 对称二叉树|JS 递归 + 迭代双解法,彻底搞懂镜像判断
javascript·算法
JieE2122 天前
LeetCode 56. 合并区间|超清晰 JS 图解思路,面试高频区间题
javascript·算法·面试
Jack202 天前
HarmonyOS开发中错误处理策略:网络异常统一处理
算法
哥布林学者2 天前
深度学习进阶(三十一)FlashAttention:IO 感知的精确注意力
机器学习·ai
小小杨树2 天前
读懂色彩:拍照调色不再难
算法·计算机视觉·配色
JieE2123 天前
LeetCode 226. 翻转二叉树|JS 递归超详细拆解,二叉树入门经典题
javascript·算法
JieE2123 天前
LeetCode 104. 二叉树的最大深度|递归思路超详细拆解
javascript·算法
vivo互联网技术3 天前
CVPR 2026 | 全新强化学习框架 BeautyGRPO:重塑真实人像
算法·大模型·cvpr·影像
Darling噜啦啦3 天前
列表转树算法深度解析:从 Map 到 Reduce 的两种实现,面试高频考点
数据结构·算法·面试