目录
[1 什么是单变量分析(就是只分析数据本身)](#1 什么是单变量分析(就是只分析数据本身))
[1.1 不同的名字](#1.1 不同的名字)
[1.2 《戏说统计》这本书里很多概念和一般的书不一样](#1.2 《戏说统计》这本书里很多概念和一般的书不一样)
[1.3 具体来说,各种概率分布都属于单变量分析](#1.3 具体来说,各种概率分布都属于单变量分析)
[2 一维的数据分析的几个层次](#2 一维的数据分析的几个层次)
[2.1 数据分析的层次](#2.1 数据分析的层次)
[2.2 一维的数据为什么可以画成二维,但不是二维的?](#2.2 一维的数据为什么可以画成二维,但不是二维的?)
[2.2.1 什么是一维数据,什么是二维的数据?](#2.2.1 什么是一维数据,什么是二维的数据?)
[2.2.2 具体](#2.2.2 具体)
[3 多维数据分析](#3 多维数据分析)
[3.1 一维的数据分析](#3.1 一维的数据分析)
[3.2 二维的数据分析](#3.2 二维的数据分析)
[3.3 3维的面](#3.3 3维的面)
[4 典型的单变量分析](#4 典型的单变量分析)
[4.1 正态分布](#4.1 正态分布)
[5 多变量分析](#5 多变量分析)
[5.1 分析方法分类](#5.1 分析方法分类)
[5.2 自变量的个数](#5.2 自变量的个数)
[5.3 为什么又了单因素分析,还需要多因素分析呢?](#5.3 为什么又了单因素分析,还需要多因素分析呢?)
1 什么是单变量分析(就是只分析1个变量数据本身)
- 本质:就是只分析1个变量数据本身
- 就是只分析一个变量的数据,就是单变量分析。
- 如果非要,统一说成是那种回归模型/因果分析模型/相关分析的话,这个就算是0因子分析。
1.1 不同的名字
- 单变量分析:模型里只有1个变量,只分析这一个变量的数据
- 纯单个变量分析
- 0因子分析 :如果一定要把所有分析都看成是因果分析,那么单变量分析,就是没有因子的因变量分析,或者是0因子的单个因变量分布
1.2 《戏说统计》这本书里很多概念和一般的书不一样
书里说的(和一般的说法不一样,但是可以对应起来)
- 单变量分析,由点到线-------→一般书里没有这个说法
- 双变量分析,由线到面 ------→单变量回归
- 多变量分析,由面到体-------→多变量回归
1.3 具体来说,各种概率分布都属于单变量分析
因为这些概率分布,只分析这个概率序列的内部情况,和其他因素无关。
- 0-1分布
- 几何分布
- 二项分布
- 超几何分布
- 正态分布
- 泊松分布等
2 一维的数据分析的几个层次
2.1 数据分析的层次
- 层次1:看到一群数据,散点堆在一起,注意到数据有不同差异
- 完全散在一群,但是堆起来并不好看
- 层次2:看到一群数据,注意到这些数据的数值是不同的,可分类的
- 有序的整理起来,比如每个数值的堆在一起可以数数量,分堆分类,生活里常见,
- 层次3:定类:进行分类:
- 对数据进行分类,具体相同特征的在一起分堆。
- 本质上,这个类别只有数据本身序列的话,这个分类一定是不同数值/数值区间出现的次数,就是频度。
- (而频度本质就是概率)
- 层次4:定类且组合图形为1维:
- 为了连续性,分类数据,类别全部首位相接,就是统计和机器学习里,都有的数据条
- 有序的排起来,比如动动脑筋,把这些首尾相接起来,这就是一条直线,且按区间划分,且区间也是按从小到大排列的
- 一根线,数据分类条,每个类别的长度代表频度,全部首位相接,可以比较了
- 定距数据。可比较互相的长度。
- 层次5:把一维的数据,展开为2维进行展示
- 把频度展开为直方图:把一维的数据,展开为2维进行展示。
- 注意,因为只有一种数据,还是一维的,
- 是看起来形式展开像2维一样。
- 更巧妙的是把这一根直线,切分,切成多根直线,并着放. 这个是什么呢?不是正态分布啊,至少不一定是.,这个其实更通用的说是频度图
- 频度图,算是分布图吗?现在看起来就很像整体分布曲线了,看起来像也不一定就是,如果能代表概率,才是概率分布曲线(频度约等于权重,概率)
- 横轴,值的区间划分
- 纵轴,不同值的频度(频度就是概率)
2.2 一维的数据为什么可以画成二维,但不是二维的?
2.2.1 什么是一维数据,什么是二维的数据?
一维数据图:图上无论是画成1条轴,或者2条轴,实际只有1个变量的数据
二维数据图:有2条轴,且实际确实有2个变量!
2.2.2 具体
一维的线,也是可以画出2个维度的轴,比如一个变量的数据
- 前面的数据分类条,从一根线变成一个二维表现形式的坐标轴
- **横轴,**不同的数据值(可以是离散的点,或者离散区间段,甚至连续的点组成的线)
- 纵轴,每个数据值的发生次数/出现次数=频度
- 频度的这个二维坐标,可以想象就是把 一根线的数据分类条,分别截断后,按左右的顺序摆在一起,且下面因为是地面,地面相当于一根起点相同的轴,X轴。
3 多维数据分析
3.1 一维的数据分析
- 模型中只有一个变量
- 单变量分析-----可以认为是0因素分析,只分析因变量本身,没有自变量。
- 就是个体数据,扩展到样本数据,从1个到多个。但都还是属于同一个变量!
3.2 二维的数据分析
2维的线,直接是2个明确的轴,轴1,轴2,两个轴都有实际意义
- 横轴:一般是自变量
- 纵轴:一般是因变量Y
3.3 3维的面
- 横轴:自变量1
- 纵轴:自变量2
- Z轴:因变量
4 典型的单变量分析
4.1 正态分布
- 1 第1层次,元素数据按频度展开,展示自然分布
- 2 多次抽样的平均值符合
- 3 正态分布,标准化后就是概率图,并且是100% 无限逼近两边的
5 多变量分析
就是至少包含了2个变量的分析
5.1 分析方法分类
- 可能是相关性分析,不分因果
- 可能是回归分析,有前因后果,有1个因子,2个因子等等。
5.2 自变量的个数
- 也就是只分析1因1果,多因1果,而不直接分析1果多因的情况
- 自变量1,因变量1
- 自变量N,因变量1
- 自变量1,因变量N---错误!
- 实际上,1果多因不符合函数
- 实际上,集合和函数的映射关系,也是这个规律
- 单设,满射都满足才是双射
- 而不能是一因多果,这也函数都不是,也不能有得因,果,缺乏映射关系。
5.3 为什么又了单因素分析,还需要多因素分析呢?
- 自变量N,因变量1
- 自变量1,因变量1
- 已经有了自变量1,因变量1这种单变量分析了,理论上,即使有多个因素都可以拆成,多个:1个自变量--对应因变量,这样的关系,分别去分析,为什么还要搞多因素分析呢?
- 因为虽然自变量1,因变量1,这种线性回归,有截距,斜率, 也可以列出函数表达式/方程。 但是这个是单个的。
- 单因素分析(双变量分析),得出的公式只是一个变量的。这个无法预测结果。因为预测结果,大多数情况下是多因素的,我们已知多因素都影响因变量。所以,只知道一个因素的影响,不足于列出完整方程/建模来预测。
- 只有多变量分析,才能出一个多自变量的综合方程,可以体现多变量一起变化的影响。虽然每个自变量系数,都是在假设其他变量不变时求出来的(也只能这么求出来),然后获得统一的包含多因子在场的表达式,这也才能求总公式