分类任务的基础学习

Fairy要carry2024-05-09 11:17

当样本量逐渐变大 的时候，准确率会下降 ------>因为线性回归曲线距离我们的原点越远 ，预测就会开始不准确，因为 x前面的倍数就会越来越小 ，这就导致了样本量变大 ，但是那些原来靠近原点的点的结果就会可能发生改变；

**和线性回归的区别就是：**方程不一样。

**效果：**能够很好地拟合数据，完成分类任务。
目的：根据数据特征和属性，计算归属于某一类别的概率P(x)，根据其概率数值判断其所属类别（应用场景为二分类问题）

将x=-10和x=100带入P(x)sigmod 方程，根据是否大于0.5进行具体判断

分类任务 需要考虑两个最重要的大点，第一点是概率分布函数，第二点是g(x)这个关系函数

1.首先明确最小损失函数：

我们首先不再使用线性回归方程的损失函数，因为它需要连续的方程而非离散的点，故求不出极小值点，也就是求不出参数

2.整体样本的损失函数J如下所示：

min(J(θ))

而寻找θ等参数的极值本质还是梯度下降法：
本质：pi+1=pi-αf(pi)对pi求导
迁移：tempθj=θj-αJ(θj)对θj求导

LogisticRegression：（逻辑回归模型）

正确样本数量/总样本数量