线性回归与逻辑回归:同为凸函数,为何一个有解析解、一个没有?

1. 核心结论

  • 凸性 只保证存在唯一全局最优解 ,不保证能写出解析解(闭式解)
  • 线性回归有解析解,是因为其目标函数是二次凸函数 ,梯度为 0 得到线性方程组,可直接求逆求解。
  • 逻辑回归虽然也是凸函数,但因引入了 sigmoid 非线性变换 ,梯度为 0 得到非线性方程组,无通用闭式解,只能迭代优化。

2. 线性回归:凸 + 二次 → 有解析解

线性回归使用平方误差损失

J(\\theta) = \\frac{1}{2}\\sum_{i=1}\^n \\left(y\^{(i)} - \\theta\^T x^{(i)}\\right)^2

写成矩阵形式:

J(\\theta) = \\frac{1}{2}\|X\\theta - y\|\^2

(1)凸性证明

对 (\theta) 求二阶导(Hessian 矩阵):

\\nabla\^2 J(\\theta) = X\^T X

(X^T X) 是半正定矩阵 ,因此 (J(\theta)) 是凸函数

(2)为什么有解析解

对 (\theta) 求梯度并令其为 0:

\\nabla_\\theta J(\\theta) = X\^T(X\\theta - y) = 0

得到线性方程组

X\^T X \\theta = X\^T y

当 (X^T X) 可逆时,直接解出:

\\hat{\\theta} = (X\^T X)^{-1}X^T y

这就是正规方程(Normal Equation) ,是典型的解析解


3. 逻辑回归:凸但非线性 → 无解析解

逻辑回归的预测值经过 sigmoid 映射:

h_\\theta(x) = \\sigma(\\theta\^T x) = \\frac{1}{1+e^{-\\theta^T x}}

使用对数似然损失(交叉熵)

J(\\theta) = -\\frac{1}{n}\\sum_{i=1}\^n\\left\[ y\^{(i)}\\log h_\\theta(x\^{(i)}) + (1-y^{(i)})\\log\\left(1-h_\\theta(x^{(i)})\\right) \\right

]

(1)依然是凸函数

可以证明其 Hessian 矩阵半正定 ,因此 (J(\theta)) 是严格凸函数,全局最优唯一。

(2)为什么没有解析解

对 (\theta) 求梯度:

\\nabla_\\theta J(\\theta) = \\frac{1}{n}\\sum_{i=1}\^n \\left( h_\\theta(x\^{(i)}) - y\^{(i)} \\right) x\^{(i)}

令梯度为 0:

\\sum_{i=1}\^n \\left( \\frac{1}{1+e^{-\\theta^T x\^{(i)}}} - y\^{(i)} \\right)x\^{(i)} = 0

这是一个关于 (\theta) 的非线性超越方程组 ,里面包含指数函数与分式结构,无法通过代数变形、求逆等方式消去 (\theta) 得到闭式表达式,因此不存在解析解,只能用梯度下降、牛顿法等迭代方法逼近最优解。


4. 模型有解析解的条件

一个优化问题存在解析解(闭式解),通常满足以下全部条件:

  1. 目标函数是二次凸函数
    形如

    J(\\theta) = \\theta\^T A \\theta + b\^T \\theta + c

  2. 模型是线性预测
    无非线性激活(如 sigmoid、softmax、ReLU 等)。
  3. 梯度为 0 得到线性方程组

    M\\theta = d

  4. 系数矩阵可求逆或伪逆
    即 (M) 满秩或可使用广义逆。

只要引入非线性激活非二次损失,一般就不再存在解析解。


5. 一句话总结

  • 凸函数:保证最优解唯一。
  • 二次 + 线性:才能得到解析解。
  • 非线性激活(sigmoid):方程变非线性 → 无解析解,只能迭代。
相关推荐
披着羊皮不是狼2 小时前
基于CNN的图像检测算法
人工智能·算法·cnn
程序员小崔日记2 小时前
我参加了第十七届蓝桥杯 Java B 组省赛,这套题你能撑到第几题?
java·算法·蓝桥杯大赛
6Hzlia2 小时前
【Hot 100 刷题计划】 LeetCode 1143. 最长公共子序列 | C++ 二维DP 与 哨兵技巧
c++·算法·leetcode
Allen_LVyingbo2 小时前
《狄拉克符号法50讲》习题与解析(下)
算法·决策树·机器学习·健康医疗·量子计算
豆沙糕2 小时前
大模型面试高频题:请详细讲解检索中的BM25算法
人工智能·算法
不才小强2 小时前
查找算法详解:二分查找
数据结构·算法
君义_noip2 小时前
信息学奥赛一本通 4164:【GESP2512七级】学习小组 | 洛谷 P14922 [GESP202512 七级] 学习小组
学习·算法·动态规划·gesp·信息学奥赛
MicroTech20252 小时前
微算法科技(NASDAQ :MLGO)面向区块链的系统的高效反量子晶格盲签名技术
科技·算法·区块链
yuan199973 小时前
OpenCV ViBe 运动检测算法实现
人工智能·opencv·算法