逻辑回归知识点

一、逻辑回归概念

逻辑回归(Logistic Regression)是一种广泛应用于分类问题的统计方法，尤其适用于二分类问题。

注意: 尽管名称中有"回归"二字，但它实际上是一种分类算法。

解决二分类的问题。

API：sklearn.linear_model.LogisticRegression

Sigmoid函数：

其中，w是权重向量，x是特征向量，b是偏置项。

1.原理：（核心思想）逻辑回归通过将线性回归的输出映射到(0,1)区间，使用Sigmoid函数将连续值转换为概率值，然后根据概率值进行分类预测。

2.优化手段：极大似然估计和最小化交叉熵。

极大似然估计：（MLE,即 Maximum Likelihood Estimation）

是一种统计方法，用于从观测数据中估计概率分布的参数。核心思想是"在已知观测数据的情况下，选择使得这些数据出现概率最大的参数值。"

二分类公式：

其中表示第i个样本的真实标签，取值为0或1（1表示成功，0表示失败），是模型预测的"成功"概率（即），是带估计的参数。

最小化交叉熵：交叉熵损失函数（Cross-Entropy Loss），也称为对数损失（Log Loss）

交叉熵是衡量两个概率分布（真实分布 y和预测分布 p）差异的指标

二分类公式：

其中表示第i个样本的真实标签，通常取值0或1（二分类问题），表示模型预测的第i个样本属于类别1的概率（即）

关系：先用伯努利分布的似然函数,然后对其取负对数，直接得到交叉熵损失,然后不断的梯度下降迭代更新找到最优参数!（把最大化问题将其变为最小化问题，把连乘问题将其变为连加问题）

1.概念

混淆矩阵是机器学习中用于评估分类模型性能的表格。它展示了模型的预测结果与实际标签的对比情况。

2.图解

3.作用

直观显示模型的分类错误类型（如误诊、漏检），计算关键指标：准确率（Accuracy）、精确率（Precision）、召回率（Recall）、F1分数等。

准确率 = 预测正确的样本数 / 总样本数其中预测正确指的是预测结果 = 真实结果（包含正例以及反例）

精确率是真实结果中正例的个数除以预测结果中正例的个数

召回率是预测结果中真实的正例的个数除以真实结果中所有的正例的个数

对模型的精确率和召回率都有要求，希望知道模型在这两个评估方向的综合预测能力

概念：ROC曲线以模型的真正率为纵轴，假正率为横轴，它将模型在不同阈值下的表现以曲线的形式展现出来。

真正率: 正样本中被预测为正样本的概率TPR （True Positive Rate）

假正率: 负样本中被预测为正样本的概率FPR （False Positive Rate）

ROC曲线下方的面积，AUC越大，代表分类器越好