【小白学机器学习26】极大似然估计，K2检验，logit逻辑回归（对数回归）（未完成----）

[1 先从一个例题出来，预期值和现实值的差异怎么评价？](#1 先从一个例题出来，预期值和现实值的差异怎么评价？)

[1.1 这样一个问题](#1.1 这样一个问题)

[1.2 我们的一般分析](#1.2 我们的一般分析)

[1.3 用到的关键点1](#1.3 用到的关键点1)

[1.4 但是差距多远，算是远呢？](#1.4 但是差距多远，算是远呢？)

[2 极大似然估计](#2 极大似然估计)

[2.1 极大似然估计的目的](#2.1 极大似然估计的目的)

[2.1.1 极大似然估计要解决什么问题？](#2.1.1 极大似然估计要解决什么问题？)

[2.1.2 极大似然估计的原则：](#2.1.2 极大似然估计的原则：)

[2.2 什么是极大似然估计？](#2.2 什么是极大似然估计？)

[2.2.1 定义](#2.2.1 定义)

[2.2.2 似然率，likehood](#2.2.2 似然率，likehood)

[2.3 如何理解](#2.3 如何理解)

[2.4 如何落地？具体用什么来验证极大似然估计？ K2检验](#2.4 如何落地？具体用什么来验证极大似然估计？ K2检验)

[3 K2检验 (K^2检验，K^2显著度检验)](#3 K2检验 (K^2检验，K2显著度检验))

[3.1 K2检验](#3.1 K2检验)

[3.2 K2值de公式](#3.2 K2值de公式)

[3.3 K2值de判断逻辑](#3.3 K2值de判断逻辑)

[3.4 具体步骤](#3.4 具体步骤)

[3.5 K2值表](#3.5 K2值表)

[3.5.1 K2分布表](#3.5.1 K2分布表)

[3.5.2 特点](#3.5.2 特点)

[3.6 K2分布的曲线](#3.6 K2分布的曲线)

[3.6.1 曲线图形](#3.6.1 曲线图形)

[3.6.2 特点](#3.6.2 特点)

[3.7 K2检验有2个要素](#3.7 K2检验有2个要素)

[3.8 K2检验的过程](#3.8 K2检验的过程)

[3.8.1 K2值独立检验](#3.8.1 K2值独立检验)

[4 对数回归](#4 对数回归)

[4.1 什么叫对数回归 logit regression](#4.1 什么叫对数回归 logit regression)

[4.1.1 似然率，likehood](#4.1.1 似然率，likehood)

[4.1.2 从概率到→发生率](#4.1.2 从概率到→发生率)

[4.1.3 发生率的对然对数回归](#4.1.3 发生率的对然对数回归)

[5 为什么要用对数回归？](#5 为什么要用对数回归？)

[5.1 线性回归的局限性](#5.1 线性回归的局限性)

[5.1.1 具体举个例子](#5.1.1 具体举个例子)

[5.2 什么原因引起的？](#5.2 什么原因引起的？)

[5.3 怎么解决？](#5.3 怎么解决？)

[5.3.1 解决办法](#5.3.1 解决办法)

[5.3.2 对数回归的方法 logit regression](#5.3.2 对数回归的方法 logit regression)

[5.3.3 概率转化为发生率后，发生率的变化不对称](#5.3.3 概率转化为发生率后，发生率的变化不对称)

[6 和机器学习的sigmoid函数（也叫逻辑函数）的关系（待完善）](#6 和机器学习的sigmoid函数（也叫逻辑函数）的关系（待完善）)

1 先从一个例题出来，预期值和现实值的差异怎么评价？

1.1 这样一个问题

SPSS，还有戏说统计那本数上都有

一个关于员工其实的数据例子，其中假设有这么一些数据

整体员工里，黑人和白人的比例，60：40

经理员工里，黑人和白人的比例，4：20

那么我们简单一看，就知道这两者比例不一样，那么这两者差距够大吗？是否可以作为黑人被歧视的证据之一呢？

1.2 我们的一般分析

第1：我们先有现在的这个现实数据了，但是我们不知道是否合理
第2：我们假设每个人都是平等的有成为经理的可能性。
先假设前提55开，也就是每个黑人和白人都是50%可能成为经理
那么假设员工人数里，就是合理现状，往下推论

现实的世界：SUM=24, 经理的现状4/20
按50%推测世界：(60*0.5=30) / (20*0.5=10)=3:1 ,SUM里应该分布是18/6

实际的和我们推测的数据差异很大，从而说明有问题，应然和实然差距太远

1.3 用到的关键点1

现实值，和预期值的差异，就是关键！

现实值VS预期值，对比
现实的世界 / 实然的世界：
按50%推测世界/ 应然的世界：

1.4 但是差距多远，算是远呢？

这就需要用到假设检验了
假设检验的方法就是，一般设定原假设，两者没差异H0。
然后给定一个我们能接受的显著度比如5%，双边检验。如果我们检验出来的值对应的概率，大于5%，我们就接受原接受。
如果对应的概率小于我们设定的显著度，那我们认为：在H0的假设下，现实已经发生的是小概率事件，不应该发生，从而拒绝原假设。

2 极大似然估计

2.1 极大似然估计的目的

上面引出的问题：预期值和现实值的差异怎么评价，就是极大似然估计要解决的问题

2.1.1 极大似然估计要解决什么问题？

极大似然估计要解决什么问题？：是用来判断预期值和现实值之前的差距，从而去推测过去应该是什么样子！

2.1.2 极大似然估计的原则：

极大似然估计的原则：现实一定是对应过去发生最大的概率的分支！
如果按照H0假设，推测发现已经存在的现实，并不是最大概率（小于显著度），那么就拒绝原假设！

2.2 什么是极大似然估计？

2.2.1 定义

定义：在现实已经发生的基础上，去回溯到过去，推测过去的某个时刻，自然量和因变量是什么样的关系时，现实的发生概率最大？这个推测过程，就是极大似然估计

简单定义：

过去最大概率对应的那个分支，极有可能就是现实！
现实就是，过去发生的各种可能里概率最大的那种情况！

2.2.2 似然率，likehood

现在的可能性---针对是未来，概率，probility
过去的可能性---针对是过去，似然率，likehood

2.3 如何理解

可以认为是一个类似坐上时光机去回溯，或者就是思想试验的东西

这个思想试验，是一个模型，就是认为现在往回去倒推，过去自变量和因变量的关系，现实应该是其中发生概率最大的可能对应的那个事件。如果推导不是这也，那就错了。这个就是极大似然估计。

2.4 如何落地？具体用什么来验证极大似然估计？ K2检验

见下面

3 K2检验 (K^2检验，K^2显著度检验)

3.1 K2检验

chi-square test of independence
K2检验和自由度高度相关
K2就是chi-square，也就是 " chi 的平方值 "

3.2 K2值de公式

K2=Σ(观察值-预期值)^2/预期值
K2=(O1-E1)^2/E1+(O2-E2)^2/E2+.....+ (On-En)^2/En

3.3 K2值de判断逻辑

需要查表，根据当前的df+概率值的二维交叉表，可以查到当前的K2值，在指定的df下，其发生的概率大多是多大，如果是小概率的事件，就拒绝。因为极大概率不会发生！
这也就是极大似然估计的逻辑。

3.4 具体步骤

K2值是作为一个查表数值
去一个 df*概率的二维交叉表里去差K2数值在那一列！(df决定了行，df和K2共同决定了列！)
这样反查概率。
用概率率来判断，如果概率很小，证明是小概率事件，发生可能性很小，拒绝H0假设！

3.5 K2值表

3.5.1 K2分布表

横轴，行：自由度，DF
纵轴，列：概率
表中的值，K2值

3.5.2 特点

自由度df越大，自由的单元格就更多，表里同样概率对应的K2值就会更大
反过来说，也就是出现较大K2值的概率就越大

3.6 K2分布的曲线

3.6.1 曲线图形

横轴表示K2值,x
纵轴表示概率值,f(x)
不同的曲线表示不同df对应的 K2-概率曲线--也就是图上的K参数

看经典的K2的曲线。
自由度比较小的时候，单调下降
自由度比较大之后就开始接近正态分布的钟形曲线了，超过20接近正态

T值检验T值也和自由度有关系，但关系比较松散不用太关心。

因为T检验一般检验连续变量，连续变量自由度很容易超过20，一般不考虑这个限制。

但是K2分布，一定要看自由度DF

一般自由度越大的K2曲线，K2的值，均值都会更大。

3.6.2 特点

可以看到变化

1 前面k=1 k=2的事后，是个完全单调下降的曲线，从df=3开始就开始接近正态分布，
2 自由度越大，越接近于正态分布
3 在自由度比较大时，比如df大于8，大于20，都可以比较多条曲线，就是同样的K2值（平行于纵轴的竖线）与对应的不同曲线的相交点，DF越大的曲线对应的概率越大**。**
反过来说，就是比较不同的自由度，自由度越大的曲线，对应同样的K2值，其对应的纵轴的概率会越大！

3.7 K2检验有2个要素

自由度
K2值

3.8 K2检验的过程

3.8.1 K2值独立检验

先检验，算出来了确定的K2值的结果下，来判断，
如果自由度小，K2一般越大，越表示发生的概率小。
因而根据最大似然估计，推测现在不可能是小概率发生，从而用K2检验拒绝了原来的假设。
极大似然估计认为，现在一定是在过去那个事件点发生的概率最大！

4 对数回归

4.1 什么叫对数回归 logit regression

对数回归，即发生率的自然对数回归.
是以过去的可能性/概率为因变量(/结果)的回归分析

这里面有很多子概念，下面逐个拆解

过去的可能性/概率probility=似然率 likehood
发生率
发生率的对然对数回归
为什么要用对数回归

4.1.1 似然率，likehood

现在的可能性---针对是未来，概率，probility
过去的可能性---针对是过去，似然率，likehood

4.1.2 从概率到→发生率

我们这里不直接衡量，过去事情的发生率α，而是衡量其发生率
发生率=某个事件发生的概率/此事件不发生的概率
α/(1-α)

4.1.3 发生率的对然对数回归

发生率的对然对数回归
Ln(α/(1-α))
这个才是对数回归中，概率的测量单位: 发生率的自然对数。

5 为什么要用对数回归？

因为线性回归经常会遇到问题

5.1 线性回归的局限性

有时候用线性回归会出现负数系数，负数截距等，而这是逻辑上不可能的情况

比如上学年数是收入的负相关系数，截距也为负等等
还会出现概率超过1情况
等等逻辑上很怪异的情况

5.1.1 具体举个例子

比如现实中的成绩只有合格，不合格两档次，而且又没有具体的分数，我们需要分析人们及格的概率，需要怎么做呢？如果我们这么设计

5.2 什么原因引起的？

线性回归遇到问题的原因

原因1：如果纯都是定量数据就没问题，但是一旦里面混入了定性/定类数据，就有了问题
比如分析模型里有，年龄，成绩，这种定比数据，还有男女，是否经理这种定类数据都作为自变量时就有可能出现这样的情况
原因2：本身变量之间的关系就很复杂，不适合用线性关系来描述
原因3：其他

5.3 怎么解决？

5.3.1 解决办法

1 对数回归是方法之一：用对数函数处理后，结果还可以用线性表示

2 其他方法

5.3.2 对数回归的方法 logit regression

其实还是用的线性回归，只是用对数函数做了中转。
因为必须改成曲线回归
如何做曲线回归，很难
而用对数，可以变换成其他直线回归

5.3.3 概率转化为发生率后，发生率的变化不对称

概率转化为发生率后，发生率的变化不对称。但是发生率的自然对数。Log of it =p/(1-p) 却是对称的，正是利用了对数函数的这一效果。

概率，转化为发生率后，发生率的变化不对称。

发生率不对称，因为是比率，分母分子变化不对等

0.9/0.1=9 变化大，发生率变化小

0.99/0.01=99

0.999/0.001=999

0.9999/0.0001=9999 微量变化小，反而发生率变化很大。

转化为发生率的自然对数。

Log of it =ln(p/(1-p))

e=2.718

所以用自然对数，变成稳定的-4.5~4.5之间了

6 和机器学习的sigmoid函数（也叫逻辑函数）的关系（待完善）

【机器学习】逻辑回归原理（极大似然估计，逻辑函数Sigmod函数模型详解！！！）-腾讯云开发者社区-腾讯云在KNN算法中直接可以得出预测结果，但是如果想输出预测结果，还要输出预测结果的概率，这时候就需要使用逻辑回归解决问题。https://cloud.tencent.com/developer/article/2450449 https://zhuanlan.zhihu.com/p/696212659https://zhuanlan.zhihu.com/p/696212659

【小白学机器学习26】 极大似然估计，K2检验，logit逻辑回归（对数回归）（未完成----）