线性回归与逻辑回归：同为凸函数，为何一个有解析解、一个没有？

线性回归使用平方误差损失 ：

J(\\theta) = \\frac{1}{2}\\sum_{i=1}\^n \\left(y\^{(i)} - \\theta\^T x^{(i)}\\right)^2

写成矩阵形式：

J(\\theta) = \\frac{1}{2}\|X\\theta - y\|\^2

对 (\theta) 求二阶导（Hessian 矩阵）：

\\nabla\^2 J(\\theta) = X\^T X

(X^T X) 是半正定矩阵 ，因此 (J(\theta)) 是凸函数。

对 (\theta) 求梯度并令其为 0：

\\nabla_\\theta J(\\theta) = X\^T(X\\theta - y) = 0

得到线性方程组 ：

X\^T X \\theta = X\^T y

当 (X^T X) 可逆时，直接解出：

\\hat{\\theta} = (X\^T X)^{-1}X^T y

这就是正规方程（Normal Equation） ，是典型的解析解。

逻辑回归的预测值经过 sigmoid 映射：

h_\\theta(x) = \\sigma(\\theta\^T x) = \\frac{1}{1+e^{-\\theta^T x}}

使用对数似然损失（交叉熵） ：

J(\\theta) = -\\frac{1}{n}\\sum_{i=1}\^n\\left\[ y\^{(i)}\\log h_\\theta(x\^{(i)}) + (1-y^{(i)})\\log\\left(1-h_\\theta(x^{(i)})\\right) \\right

]

可以证明其 Hessian 矩阵半正定 ，因此 (J(\theta)) 是严格凸函数，全局最优唯一。

对 (\theta) 求梯度：

\\nabla_\\theta J(\\theta) = \\frac{1}{n}\\sum_{i=1}\^n \\left( h_\\theta(x\^{(i)}) - y\^{(i)} \\right) x\^{(i)}

令梯度为 0：

\\sum_{i=1}\^n \\left( \\frac{1}{1+e^{-\\theta^T x\^{(i)}}} - y\^{(i)} \\right)x\^{(i)} = 0

这是一个关于 (\theta) 的非线性超越方程组 ，里面包含指数函数与分式结构，无法通过代数变形、求逆等方式消去 (\theta) 得到闭式表达式，因此不存在解析解，只能用梯度下降、牛顿法等迭代方法逼近最优解。

一个优化问题存在解析解（闭式解），通常满足以下全部条件：

只要引入非线性激活 或非二次损失，一般就不再存在解析解。