线性回归与逻辑回归:同为凸函数,为何一个有解析解、一个没有?

1. 核心结论

  • 凸性 只保证存在唯一全局最优解 ,不保证能写出解析解(闭式解)
  • 线性回归有解析解,是因为其目标函数是二次凸函数 ,梯度为 0 得到线性方程组,可直接求逆求解。
  • 逻辑回归虽然也是凸函数,但因引入了 sigmoid 非线性变换 ,梯度为 0 得到非线性方程组,无通用闭式解,只能迭代优化。

2. 线性回归:凸 + 二次 → 有解析解

线性回归使用平方误差损失

J(\\theta) = \\frac{1}{2}\\sum_{i=1}\^n \\left(y\^{(i)} - \\theta\^T x^{(i)}\\right)^2

写成矩阵形式:

J(\\theta) = \\frac{1}{2}\|X\\theta - y\|\^2

(1)凸性证明

对 (\theta) 求二阶导(Hessian 矩阵):

\\nabla\^2 J(\\theta) = X\^T X

(X^T X) 是半正定矩阵 ,因此 (J(\theta)) 是凸函数

(2)为什么有解析解

对 (\theta) 求梯度并令其为 0:

\\nabla_\\theta J(\\theta) = X\^T(X\\theta - y) = 0

得到线性方程组

X\^T X \\theta = X\^T y

当 (X^T X) 可逆时,直接解出:

\\hat{\\theta} = (X\^T X)^{-1}X^T y

这就是正规方程(Normal Equation) ,是典型的解析解


3. 逻辑回归:凸但非线性 → 无解析解

逻辑回归的预测值经过 sigmoid 映射:

h_\\theta(x) = \\sigma(\\theta\^T x) = \\frac{1}{1+e^{-\\theta^T x}}

使用对数似然损失(交叉熵)

J(\\theta) = -\\frac{1}{n}\\sum_{i=1}\^n\\left\[ y\^{(i)}\\log h_\\theta(x\^{(i)}) + (1-y^{(i)})\\log\\left(1-h_\\theta(x^{(i)})\\right) \\right

]

(1)依然是凸函数

可以证明其 Hessian 矩阵半正定 ,因此 (J(\theta)) 是严格凸函数,全局最优唯一。

(2)为什么没有解析解

对 (\theta) 求梯度:

\\nabla_\\theta J(\\theta) = \\frac{1}{n}\\sum_{i=1}\^n \\left( h_\\theta(x\^{(i)}) - y\^{(i)} \\right) x\^{(i)}

令梯度为 0:

\\sum_{i=1}\^n \\left( \\frac{1}{1+e^{-\\theta^T x\^{(i)}}} - y\^{(i)} \\right)x\^{(i)} = 0

这是一个关于 (\theta) 的非线性超越方程组 ,里面包含指数函数与分式结构,无法通过代数变形、求逆等方式消去 (\theta) 得到闭式表达式,因此不存在解析解,只能用梯度下降、牛顿法等迭代方法逼近最优解。


4. 模型有解析解的条件

一个优化问题存在解析解(闭式解),通常满足以下全部条件:

  1. 目标函数是二次凸函数
    形如

    J(\\theta) = \\theta\^T A \\theta + b\^T \\theta + c

  2. 模型是线性预测
    无非线性激活(如 sigmoid、softmax、ReLU 等)。
  3. 梯度为 0 得到线性方程组

    M\\theta = d

  4. 系数矩阵可求逆或伪逆
    即 (M) 满秩或可使用广义逆。

只要引入非线性激活非二次损失,一般就不再存在解析解。


5. 一句话总结

  • 凸函数:保证最优解唯一。
  • 二次 + 线性:才能得到解析解。
  • 非线性激活(sigmoid):方程变非线性 → 无解析解,只能迭代。
相关推荐
神仙别闹24 分钟前
基于C# 利用工程活动图 AOE 网设计算法
算法·c#·php
地平线开发者24 分钟前
Linux 性能优化工具
算法·自动驾驶
迁旭1 小时前
claude code 规划模式(Plan Mode)完整指南
人工智能·机器学习·文心一言·知识图谱
地平线开发者1 小时前
征程 6X 之 Memory corruption 问题分析方法
算法·自动驾驶
地平线开发者1 小时前
Sparse4D:从 Dense BEV 到工程可落地的世界建模
算法·自动驾驶
shehuiyuelaiyuehao2 小时前
算法18,二分查找
java·开发语言·算法
沪漂阿龙2 小时前
大模型为什么越来越“听话”?一文讲透强化学习、SFT、DPO
人工智能·机器学习
50万马克的面包2 小时前
三子棋小游戏(C语言详解)
c语言·开发语言·算法
小白小宋2 小时前
从“被砍掉的频谱“到无码间串扰:升余弦滚降滤波器的完全解读
人工智能·算法·机器学习
WL_Aurora2 小时前
【每日一题】差分数组
算法