机器学习之逻辑回归

1.什么是逻辑回归

逻辑回归不是回归，而是一种分类。 逻辑回归（Logistic Regression）广泛应用在二分类问题中。虽然有"回归"二字，但实际上是一种线性模型，它用于预测一个事件发生的概率，核心是将线性回归的输出通过一个特定的函数（称为逻辑函数或Sigmoid函数）映射到0和1之间，从而进行分类。

逻辑回归是一种比较简单的算法，在机器学习中，效果差不多的情况下，尽量选择简单的算法，越复杂的算法，过拟合风险越高。这也是为什么逻辑回归更加流行，而神经网络难以应用的原因。

同时逻辑回归的决策边界也可以是非线性的，如下图的黑色线。

2.与线性回归的区别和联系

线性回归最终得到一个数，而逻辑回归最终得到两个结果 。举个简单的例子：房价与房屋面积、朝向、地址等特征变量存在相关性，例如房屋面积越大，房价就越高。这种特征变量和目标变量之间的内在规律，就可以用线性回归算法来表达。

但如果"房价"不再给出具体的数值，而是按照划分标准给出"高档房屋""普通房屋"这种分类，我们又该如何让机器去预测房子属于哪一种房屋呢？

线性回归算出来的"房价"是一个数值(-∞,+∞)。而现在给出的"房价"已经不再是具体数值了，而是分类数据"普通房屋"和"高档房屋"。这个分类数据标准化处理后可以表达为0和1，其中0表示"普通房屋"，1表示"高档房屋"。

这意味着我们需要把f(x)的取值范围从(-∞,+∞)变为(0,1)，我们就要改造线性回归算法将其函数值压缩为0～1。而sigmoid函数恰好提供了这样的功能。也就是我们将线性回归算法中得到的最终值映射在sigmoid函数上，这时候就讲究概率了，如果它大于0.5，就认为更可能属于1"高档房屋",小于0.5就认为更可能属于0"普通房屋"。