1.数据
数据(data) 是为了描述和解释所搜集、分析、汇总的事实和数字。
将用于特定研究而搜集的所有数据称为研究的数据集 (dataset)。
1.1 个体、变量和观测值
个体 (elemenl) 是指搜集数据的实体。(数据矩阵的行)
变量 (variable) 是个体中所感兴趣的那些特征。(数据矩阵的列)
在一项研究中,对每个个体的每一变量收集测量值,从而得到数据。对某一特定个体得到的测量值集介称为一个观测值 (observation)。
1.2 测量尺度
搜集数据需要按下列几种测量尺度之一来度量:名义尺度、顺序尺度 、间隔尺度和比率尺度。测量尺度决定了数据中蕴涵的信息量,并表明最适合的数据汇总和统计分析方法。
1.名义尺度 (nominal scale),变量的数据包含了用来识别个体属性的标记或名称。例如,为了便于数据搜集,并做好将数据录人计算机数据库的准备,对 WT0 身份变量我们可以使用数值代码:用 1 代表世界贸易组织的成员国;用2 代表观测员国。即使数据是数值型的,测量尺度仍是名义的。
2.顺序尺度(ordinal scale) ,数据具有名义数据的性质,并且数据的顺序或等级的意义明确。比如字母评级,比如考试排名。
3.间隔尺度 (interval scale),数据具有顺序数据的所有性质,并且可以按某一固定度量单位表示数值间的间隔。间隔数据永远是数值型的,而且差值总是有意义的。
4.比率尺度(ratio scale),数据具有间隔数据的所有性质,并且两个数值之比是有意义的。比较成本为 30 000 美元的汽车与成本为 15 000 美元的汽车,比率值 30 000/15 000 =2, 表示第一辆汽车的成本是第二辆汽车成本的 2 倍。
1.3 分类型数据和数量型数据
归属于某一类别的数据称为分类型数据 (categorical data) ,分类型数据既可以用名义尺度度量,也可以用顺序尺度度量。用于表示大小或多少的数值称为数量型数据 (qualitative data) 。数值型数据既可以用间隔尺度度量,也可以用比率尺度度量。
分类变量 (categorical variable) 是用分类型数据表示的变量,数量变量 ( quantitative variable) 是用数量型数据表示的变量。
如果变量是分类变量,则统计分析方法极其有限。即使分类型数据用数值代码表示,对其进行加、减、乘和除等数学运算也是没有意义的。另一方面,对数量变量进行数学运算,可以得到有意义的结果。
1.4 截面数据和时间序列数据
截面数据 (cross-sectional dala) 是在相同或近似相同的同一时点上搜集的数据。
时间序列数据 (time series data) 是在几个时期内搜集的数据。
2.数据来源
1.现有来源:在某些情况下,为某一特定应用所需要的数据已经存在。
- 从专门从事搜集和保存数据的机构获得
- 从各类行业协会和专门营利的机构中获得
- 互联网
- 政府机构
2.观测性研究:在一个特定情况下,观测性研究是我们仅观测发生了什么,记录一个或多个感兴趣变量的数据,并对结果数据进行统计分析。
3.实验:实验是在控制条件下进行的。因此,从设计好的实验中得到的数据通常比从现有来源或进行观测性研究得到的数据,包含更多的信息。
此外,要注意考虑时间与成本,以及数据采集中的误差。
3.描述统计,总体与样本 ,逻辑分析
将数据以表格、图形或数值形式汇总的统计方法被称为描述统计(descriptive statistics) 。除了表格和图形表示方式以外,数值型描述统计也用于汇总数据。最常用的数值型描述统计是平均数或均
值。
在特定研究中,**总体 (population)**总体是在一个特定研究中所有感兴趣的个体组成的集合。**样本(sample)**是总体的一个子集。
搜集总体全部数据的调查过程称为普查 (census) ,集样本数据的调查过程称为抽样调查 ( sample survey) 。统计学的一个主要贡献就是利用样本数据对总体特征进行估计和假设检验,这一过程被称为统计推断( statistical inference)
**逻辑分析方法(analytics)**是把 数据转化为做出好决策见解的科学过程。逻辑分析方法利用数据驱动或事实基础做出决策,在做决策时它通常被认为比其他方法更为客观。
描述性分析(descriptive analytics) 包含描述过去发生状况的分析技术集合。这类技术的例子是数据查询、报告、描述统计、数据可视化、数据仪表板和基本的"如果......,则......" 型电子表格模型。
预测性分析(predictive analytics) 包含利用过去数据建立的模型来预测未来或评估一个变量对另一个变量的影响的分析技术。
规范性分析(prescriptive analytics) 是产生一个最佳行动过程的分析技术集合。在一组约束条件下产生最大或最小目标的解决方案的优化模型属于规范性模型。
4.大数据和数据挖掘
更大和更为复杂的数据集通常被称为大数据(big data)。许多数据分析家将大数据定义为3V 数据:容量(volume) 、速度(velocity) 和种类(variety)。容量指可利用的数据量(现在用于测量的典型单位是1TB, 它等于 10口个字节);速度指获得和处理数据的速度;种类指数据类型的多样性。
**数据挖掘(data mining)**问题是研究从非常大的数据库中开发有用的决策信息的方法。