【小白学机器学习20】单变量分析 / 0因子分析 (只分析1个变量本身的数据)

[1 什么是单变量分析（就是只分析数据本身）](#1 什么是单变量分析（就是只分析数据本身）)

[1.1 不同的名字](#1.1 不同的名字)

[1.2 《戏说统计》这本书里很多概念和一般的书不一样](#1.2 《戏说统计》这本书里很多概念和一般的书不一样)

[1.3 具体来说，各种概率分布都属于单变量分析](#1.3 具体来说，各种概率分布都属于单变量分析)

[2 一维的数据分析的几个层次](#2 一维的数据分析的几个层次)

[2.1 数据分析的层次](#2.1 数据分析的层次)

[2.2 一维的数据为什么可以画成二维，但不是二维的？](#2.2 一维的数据为什么可以画成二维，但不是二维的？)

[2.2.1 什么是一维数据，什么是二维的数据？](#2.2.1 什么是一维数据，什么是二维的数据？)

[2.2.2 具体](#2.2.2 具体)

[3 多维数据分析](#3 多维数据分析)

[3.1 一维的数据分析](#3.1 一维的数据分析)

[3.2 二维的数据分析](#3.2 二维的数据分析)

[3.3 3维的面](#3.3 3维的面)

[4 典型的单变量分析](#4 典型的单变量分析)

[4.1 正态分布](#4.1 正态分布)

[5 多变量分析](#5 多变量分析)

[5.1 分析方法分类](#5.1 分析方法分类)

[5.2 自变量的个数](#5.2 自变量的个数)

[5.3 为什么又了单因素分析，还需要多因素分析呢？](#5.3 为什么又了单因素分析，还需要多因素分析呢？)

1 什么是单变量分析（就是只分析1个变量数据本身）

本质：就是只分析1个变量数据本身
就是只分析一个变量的数据，就是单变量分析。
如果非要，统一说成是那种回归模型/因果分析模型/相关分析的话，这个就算是0因子分析。

1.1 不同的名字

单变量分析：模型里只有1个变量，只分析这一个变量的数据
纯单个变量分析
0因子分析：如果一定要把所有分析都看成是因果分析，那么单变量分析，就是没有因子的因变量分析，或者是0因子的单个因变量分布

1.2 《戏说统计》这本书里很多概念和一般的书不一样

书里说的（和一般的说法不一样，但是可以对应起来）

单变量分析，由点到线-------→一般书里没有这个说法
双变量分析，由线到面 ------→单变量回归
多变量分析，由面到体-------→多变量回归

1.3 具体来说，各种概率分布都属于单变量分析

因为这些概率分布，只分析这个概率序列的内部情况，和其他因素无关。

0-1分布
几何分布
二项分布
超几何分布
正态分布
泊松分布等

2 一维的数据分析的几个层次

2.1 数据分析的层次

层次1：看到一群数据，散点堆在一起，注意到数据有不同差异

完全散在一群，但是堆起来并不好看

层次2：看到一群数据，注意到这些数据的数值是不同的，可分类的

有序的整理起来，比如每个数值的堆在一起可以数数量，分堆分类，生活里常见，

层次3：定类：进行分类：

对数据进行分类，具体相同特征的在一起分堆。
本质上，这个类别只有数据本身序列的话，这个分类一定是不同数值/数值区间出现的次数，就是频度。
（而频度本质就是概率）

层次4：定类且组合图形为1维：

为了连续性，分类数据，类别全部首位相接，就是统计和机器学习里，都有的数据条
有序的排起来，比如动动脑筋，把这些首尾相接起来，这就是一条直线，且按区间划分，且区间也是按从小到大排列的
一根线，数据分类条，每个类别的长度代表频度，全部首位相接，可以比较了
定距数据。可比较互相的长度。

层次5：把一维的数据，展开为2维进行展示

把频度展开为直方图：把一维的数据，展开为2维进行展示。
注意，因为只有一种数据，还是一维的，
是看起来形式展开像2维一样。
更巧妙的是把这一根直线，切分，切成多根直线，并着放. 这个是什么呢？不是正态分布啊，至少不一定是.，这个其实更通用的说是频度图
频度图，算是分布图吗？现在看起来就很像整体分布曲线了，看起来像也不一定就是，如果能代表概率，才是概率分布曲线（频度约等于权重，概率）
横轴，值的区间划分
纵轴，不同值的频度（频度就是概率）

2.2 一维的数据为什么可以画成二维，但不是二维的？

2.2.1 什么是一维数据，什么是二维的数据？

一维数据图：图上无论是画成1条轴，或者2条轴，实际只有1个变量的数据

二维数据图：有2条轴，且实际确实有2个变量！

2.2.2 具体

一维的线，也是可以画出2个维度的轴，比如一个变量的数据

前面的数据分类条，从一根线变成一个二维表现形式的坐标轴
**横轴，**不同的数据值（可以是离散的点，或者离散区间段，甚至连续的点组成的线）
纵轴，每个数据值的发生次数/出现次数=频度
频度的这个二维坐标，可以想象就是把一根线的数据分类条，分别截断后，按左右的顺序摆在一起，且下面因为是地面，地面相当于一根起点相同的轴，X轴。

3 多维数据分析

3.1 一维的数据分析

模型中只有一个变量
单变量分析-----可以认为是0因素分析，只分析因变量本身，没有自变量。
就是个体数据，扩展到样本数据，从1个到多个。但都还是属于同一个变量！

3.2 二维的数据分析

2维的线，直接是2个明确的轴，轴1，轴2，两个轴都有实际意义

横轴：一般是自变量
纵轴：一般是因变量Y

3.3 3维的面

横轴：自变量1
纵轴：自变量2
Z轴：因变量

4 典型的单变量分析

4.1 正态分布

1 第1层次，元素数据按频度展开，展示自然分布
2 多次抽样的平均值符合
3 正态分布，标准化后就是概率图，并且是100% 无限逼近两边的

5 多变量分析

就是至少包含了2个变量的分析

5.1 分析方法分类

可能是相关性分析，不分因果
可能是回归分析，有前因后果，有1个因子，2个因子等等。

5.2 自变量的个数

也就是只分析1因1果，多因1果，而不直接分析1果多因的情况
自变量1，因变量1
自变量N，因变量1
自变量1，因变量N---错误！

实际上，1果多因不符合函数

实际上，集合和函数的映射关系，也是这个规律

单设，满射都满足才是双射

而不能是一因多果，这也函数都不是，也不能有得因，果，缺乏映射关系。

5.3 为什么又了单因素分析，还需要多因素分析呢？

自变量N，因变量1
自变量1，因变量1
已经有了自变量1，因变量1这种单变量分析了，理论上，即使有多个因素都可以拆成，多个：1个自变量--对应因变量，这样的关系，分别去分析，为什么还要搞多因素分析呢？
因为虽然自变量1，因变量1，这种线性回归，有截距，斜率, 也可以列出函数表达式/方程。但是这个是单个的。
单因素分析（双变量分析），得出的公式只是一个变量的。这个无法预测结果。因为预测结果，大多数情况下是多因素的，我们已知多因素都影响因变量。所以，只知道一个因素的影响，不足于列出完整方程/建模来预测。
只有多变量分析，才能出一个多自变量的综合方程，可以体现多变量一起变化的影响。虽然每个自变量系数，都是在假设其他变量不变时求出来的（也只能这么求出来），然后获得统一的包含多因子在场的表达式，这也才能求总公式