逻辑回归与Softmax的区别
一句话总结核心关系:逻辑回归是 Softmax 回归的二分类特例,Softmax 回归是逻辑回归的多分类推广 。 二者本质都是广义线性模型 ,用于分类任务,核心都是通过线性组合特征 + 激活函数输出概率,区别主要体现在适用场景、输出形式、函数设计上。
一、核心区别对比(最直观)
| 维度 | 逻辑回归 (Logistic Regression) | Softmax 回归 (Softmax Regression) |
|---|---|---|
| 适用任务 | 严格二分类(2 个类别) | 多分类(≥3 个类别) |
| 激活函数 | Sigmoid 函数 | Softmax 函数 |
| 输出结果 | 1 个概率值(0~1) | N 个概率值(N = 类别数,总和 = 1) |
| 概率含义 | 输出 = 正类概率,负类概率 = 1 - 输出 | 每个输出对应一个类别的概率,互斥穷尽 |
| 损失函数 | 二元交叉熵损失 | 多元交叉熵损失 |
| 参数数量 | 1 组权重 + 偏置 | N 组权重 + 偏置(N = 类别数) |
二、逐点详细解释
1. 适用场景:二分类 vs 多分类
-
逻辑回归 :只能分两类,是最基础的分类模型。 例:判断邮件是否为垃圾邮件、患者是否患病、图片是否为猫。
-
Softmax 回归 :可以分任意多类,是多分类的标准模型。 例:手写数字识别(0-9,10 类)、图像分类(猫 / 狗 / 鸟,3 类)、新闻分类(体育 / 娱乐 / 科技 / 财经)。
2. 激活函数:Sigmoid vs Softmax
这是二者最核心的函数区别:
-
Sigmoid(逻辑回归) 把线性输出
z压缩到[0,1],输出单个概率 :仅能表示一个类别的概率,另一类概率用
1-输出推导。 -
Softmax(Softmax 回归) 把多个线性输出 (每个类别对应一个输出)归一化为概率分布,所有类别概率之和 = 1 :
直接输出每个类别的独立概率,且保证互斥(一个样本只能属于一类)。
3. 输出结果
-
逻辑回归:输出 1 个值(如 0.8),代表「正类概率 80%,负类 20%」。
-
Softmax:输出 N 个值(如 [0.1, 0.7, 0.2]),分别对应 3 个类别的概率,总和为 1。
4. 损失函数
-
逻辑回归 :二元交叉熵,仅计算正类的预测损失。
-
Softmax :多元交叉熵,计算所有类别的预测损失,是二元交叉熵的推广。
5. 参数数量
-
逻辑回归 :只需要1 组参数(权重 w + 偏置 b),划分两个类别的决策边界。
-
Softmax :需要N 组参数(N = 类别数),每个类别对应一组参数。
三、关键联系:Softmax 退化为逻辑回归
当 Softmax 的类别数 N=2 时,它会完全等价于逻辑回归:
-
Softmax 的两个概率化简后,就是 Sigmoid 函数的输出;
-
多元交叉熵损失会退化为二元交叉熵损失;
-
两组参数会合并为一组,和逻辑回归参数完全对应。
简单说:逻辑回归 = 2 分类的 Softmax 回归。
四、通俗举例
-
逻辑回归 任务:判断一张图片「是猫」还是「不是猫」 输出:
0\.9→ 90% 是猫,10% 不是猫 -
Softmax 回归 任务:判断一张图片「是猫 / 狗 / 鸟」 输出:
\[0\.85, 0\.1, 0\.05\]→ 85% 猫,10% 狗,5% 鸟
总结
-
核心关系 :逻辑回归是 Softmax 的二分类特例 ,Softmax 是逻辑回归的多分类扩展;
-
使用选择:二分类用逻辑回归,多分类用 Softmax;
-
本质共性:都是基于概率的线性分类模型,核心都是输出类别概率做预测。