技术学习|CDA level I 描述性统计分析（统计学概述）

统计学是一门收集、处理、分析、解释数据，并从中得出结论的科学。

研究思路：收集数据------>处理数据------>分析数据------>解释数据

收集数据是数据分析的前提，传统的数据收集方法包括两个来源：直接来源和间接来源，这里的直接和间接强调的是数据是否一手收集，一手收集的数据称为直接来源的数据，二手收集的数据称为间接来源的数据。故直接来源的数据也称一手数据，间接来源的数据也称二手数据。数据的直接来源常有调查和实验两种方式(调查在社会科学中应用较多，实验在自然科学中应用较多；调查强调的是不对数据对象进行干扰，任其自然发展，收集发展过程中的数据，实验强调的是有目的地对数据对象进行因素干扰，从而验证这些因素对数据对象是否产生影响，以及产生何种影响)。
数据处理环节包括将收集的数据进行数据编码、数据库搭建、数据录入、数据审核（包括数据的完整性、准确性、实效性、适用性等），进而按照研究问题的需要进行数据筛选、数据分组、数据分割、数据合并、数据变形、数据转换等，并进行一些数据质量评估、数据特征分析、数据可视化分析等探索性分析）
分析数据是数据分析师的核心工作。统计学的数据分析方法分为基础的数据分析方法和复杂的数据分析方法。
- 基础的数据分析方法
  - 描述性统计分析方法：结合数据，对实际问题进行分布特征的描述，也称数据分布特征的描述性分析方法。
  - 推断性统计分析方法：根据掌握的样本数据对总体进行评估或检验，侧重于总体特征的估计或检验推断，即包括参数估计、假设检验两种主要方法。参数估计指的是当总体信息未知时，需要抽取样本来估计总体信息；假设检验指的是知晓总体某个信息，但无法确认信息是否正确，因此需要抽取样本对信息进行假设检验。
- 复杂的数据分析方法：以基本的数据分析方法为基础，长结合某类具体问题、某类特殊数据、某类特定对象等，融合描述性统计分析方法、推断性统计分析方法而得到的复杂的统计分析方法。（如，相关分析是为了解决不同变量之间相关关系问题，融合了相关关系的描述、相关系数的估计和检验而得到的复杂的统计分析方法；时间序列分析是针对时间序列数据这类特殊数据，融合了时间序列的描述性分析、时间序列模型估计和检验、预测等推断性统计方法而得到的复杂的统计分析方法；生存分析是针对医学、生物、产品等有生存时间长短问题的特定对象，融合了生存率描述、估计，以及生存模型的检验和预测等方法而得到的复杂的统计分析方法。
解释数据是统计学的最后环节，是连接分析数据与解决实际问题的重要桥梁，根据数据分析方法，对分析结果进行解释，从而解决实际问题。不同的数据分析方法有不同的解释角度，（如相关分析是解决变量间的重要方法，故在解释时应围绕变量间的关系是否存在及程度强弱来解释；主成分分析解决变量间存在高度重复信息、变量需要综合成无关主成分的问题，故在解释时应围绕变量如何综合成无关主成分、各主成分与各变量的具体关系等角度来解释）。

二、统计学的基本概念

总体：指我们所研究的所有元素的集合，其中每个元素称为个体。

样本：从总体中抽取的一部分个体的集合。样本中个体的数量称为样本容量。

并不是所有研究必须要有样本，需要抽取样本来推断总体的前提是总体的个体很难一个个地研究。

大数据的研究仍然需要抽取样本。一方面，因为大数据在某种意义上仍然只是样本数据，不是总体数据，实际中很多数据并未记录到大数据中，即这些大数据并不能完全代表我们研究的总体；另一方面，即便我们把总体限定在已有数据的所有个体范围内，在实际计算中，如果每次计算都应用数据量巨大的大数据，对数据系统和计算机计算能力都是非常大的考验，会带来计算效率低下的问题。

参数是指总体的某个特征，而统计量是指样本的某个特征。参数和统计量两个概念分别对应总体和样本。（说到参数均是指总体的，说到统计量均是指样本的，即总体没有统计量，而样本没有参数。）

常见的特征有比例、均值、方差（标准差）3个，这3个特征是数据的重要特征，也是能反映数据主要信息的特征。与此同时，还有一些次要的特征，如个体数量（容量）、彼岸准差系数等。

因样本的目的是推断总体，故总体有总体比例、总体均值、总体方差（标准差）、总体容量等特征，与之对应的是，样本有样本比例、样本均值、样本方差（标准差）、样本容量等特征。

总体参数	符号	样本统计量	符号
总体比例	π	样本比例	p
总体均值	μ	样本均值	X̅
总体方差（标准差）	σ2(σ)	样本方差（标准差）	s2(s)
总体容量	N	样本容量	n

变量：：用来描述个体特征的概念。不同的变量有不同的取值，其取值我们称为数据，数据是统计学研究的对象，也是数据分析师工作的对象。

数据分类：

数据按照表达形式来划分，可以分为定性数据和定量数据。定性数据是刻画个体性质的数据。定性数据从形式上来看，常表现为文字形式，而用数字来表现的数据则称为定量数据。
- 在实际应用中，定性数据分为两种情况：分类数据和顺序数据。分类数据只是事物分类的结果，而顺序数据则是可以排序的分类结果（高中低）。
- 定量数据根据数据中"0"是否表示没有"没有"，分为定距数据和定比数据。定距数据的0不表示没有，而定比数据的0表示没有。常用的定距数据如温度、年份；常用的定比数据如收入。
- 常将分类数据称为最低级，顺序数据级别稍高，数值数据是最高级数据。低级数据的方法，高级数据可以用；但高级数据的方法，低级数据不可以用（与数据转换有关系）。
数据按照收集方式划分，可分为调查数据和实验数据。调查数据是指通过观察、调查等方式获取得到的数据，在社会科学的研究中使用较多；实验数据是指通过实验方式获取得到的数据，在自然科学的研究中使用较多。区分调查数据和实验数据，常可以通过是否对数据对象进行干预来判断（调查数据是不干预数据对象，只是收集数据对象的状态、过程数据，而实验数据会对数据对象施加一些实验因素，从而观察这些实验因素对实验对象的影响，以判断这些实验因素是否起到作用）。
数据按照与时间的关系不同来划分，可以分为横截面数据、时间序列数据、混合横截面数据和面板数据。
- 时间序列数据是指同一对象在不同时间（通常是一个连续的固有频率的时间序列）上相继观测到的数据(如某超市2001-2020年连续20年的年利润数据)。时间序列数据集由一个或几个变量在不同时间的观测值构成的数据集。
- 横截面数据是指在相同或相近时间点观测的不同对象的数据(如2020年我国50个重要城市的GDP数据)。横截面数据集指给定时点对个人、家庭、企业、国家或其他单位的一个或多个变量采集的样本所构成的数据集。这里定义的时间点，但应该忽略细小的时间差别。具体判断的原则应为时间上的差别不应该或不足以改变所获取变量的性质。
- 面板数据是指不同对象在同一序列时间上收集到的数据。对于这类数据，如果把同一个时间的所有数据抽取出来就是一个横截面数据；如果把某个个体不同时间的数据抽取出来就是一个时间序列数据，即可以把这种数据看做是横截面数据和时间序列数据的混合，故也有人称这种数据为混合数据。
- 混合横截面数据，即有横截面数据的特点也有时间序列数据的特点，但每一时间点的样本不同。