数据分析流程
总体分为四层:需求层、数据层、分析层和结论层
一、统计学问题
1、贝叶斯公式复述并解释应用场景
-
公式:P(A|B)= P(B|A)*P(A) / P(B)
-
应用场景:如搜索query纠错,设A为正确的词,B为输入的词,那么: a. P(A|B)表示输入词B实际为A的概率
b. P(B|A)表示词A错输为B的概率,可以根据AB的相似度计算(如编辑距离)
c. P(A)是词A出现的频率,统计获得
d. P(B)对于所有候选的A都一样,所以可以省去
-
朴素贝叶斯是在已知一些先验概率的情况下,由果索因的一种方法。朴素的意思是假设了事件相互独立。
2、参数估计
参数估计是指根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。它是统计推断的一种基本形式,是数理统计学的一个重要分支,分为点估计和区间估计两部分。
- 点估计:依据样本估计总体分布中所含的未知参数或未知参数的函数。
- 区间估计(置信区间估计):依据抽取的样本,根据一定的正确度与精确度要求,构造出适当的区间,作为总体分布的未知参数或参数的函数的真值所在范围的估计。例如人们常说的由百分之多少的把握保证某值在某个范围内,即用区间估计的最简单的应用。
3、极大似然估计
极大似然估计是利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。
4、假设检验
参数估计和假设检验是统计推断的两个组成部分,它们都是利用样本对总体进行某种推断,但推断的角度不同。
- 参数估计讨论的是用样本估计总体参数的方法,总体参数μ在估计前是未知的。
- 假设检验,是先对μ的值提出一个假设额,然后利用样本信息去检验这个假设是否成立。
5、P值是什么?
P值是用来判定假设检验结果的一个参数,也可以根据不同的分布使用分布的拒绝域进行比较。
P值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明原假设情况的发生的概率很凶啊,而如果出现了,根据小概率原理,我们就有理由拒绝原假设。P值越小,我们拒绝原假设的理由越充分。总之,P值越小,表明结果越显著。但是检验的结果究竟时"显著的""中度显著的"还是"高度显著的"需要我们自己根据P值的大小和实际问题来解决。
6、置信度和置信区间
- 置信区间:我们所计算出的变量存在范围
- 置信度:就是我们对于这个数值存在于我们计算出的这个范围的可信程度。
- 举例:①有95%的把握,真正的数值在我们所计算的范围里。95%是置信水平,而计算出的范围,就是置信区间。②如果置信度为95%,则抽取100个样本来估计总体的均值,由100个样本所构造的100个区间中,约有95个区间包含总体均值。
7、协方差和相关系数的区别和联系
- 协方差:协方差表示的是两个变量的总体误差,这与只表示一个变量误差的方差不同。如果两个变量的变化趋势一致,也就是说如果其中一个大于自身期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值,如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
- 相关系数:研究变量之间线性相关程度的量,取值范围是[-1,1],相关系数也可以看成协方差--一种剔除了两个变量量纲影响、标准化后的特殊协方差。
8、中心极限定理
- 定义:①任何一个样本的平均值将会约等于其所在总体的平均值;②不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的平均值周围,并且呈正态分布。
- 作用:①在没有办法得到总体全部数据的情况下,我们可以用样本来估计总体;②根据总体的平均值和标准差,判断某个样本是否属于总体。
二、概率问题
1、54张扑克牌,分成2份,求着2份都有2张A的概率。
M表示这两个牌堆各有2个A的情况:M=4(25!25!)
N表示两个牌堆完全随机的情况:N=27!27!
概率为:M/N=926/53*17
2、男生点击率增加,女生点击率增加,总体为何减少?
因为男女的点击率可能有较大的差异,同时低点击率的群体的占比增大。
如原来男性20人,点击1人;女性100人,点击99人,总点击率100/120
现在男性100人,点击6人;女性20人,点击20人,总点击率26/120
三、数据库
1、什么是数据库,数据库管理系统,数据库系统,数据库管理员?
- 数据库:数据库DataBase就是信息的集合或者说数据库是由数据库管理系统管理的数据的集合。
- 数据库管理系统:数据库管理系统是一种操纵和管理数据库的大型软件,通常用于建立、使用和维护数据库。
- 数据库系统:数据库系统通常由软件、数据库和数据库管理员组成。
- 数据库管理员:数据库管理员负责全面管理和控制数据库系统。
2、什么是元组、码、候选码、主码、外码、主属性、非主属性
- 元组:元组是关系数据库中的基本概念,关系是一张表,表中的每行(即数据库中的每条记录)就是一个元组,每列是一个属性,在二维表中,元组也称为行。
- 码:码就是能唯一识别实体的属性,对应表中的列。
- 候选码:若关系中的某一属性或属性组的值能唯一识别一个元组,而其任何子集都不能再表示,则称该属性组为候选码。在学生实体中,"学号"是能唯一的区分学生实体的,同时又假设"姓名"、"班级"的属性组合足以区分学生实体,那么{学号}和{姓名,班级}都是候选码。
- 主码:主码也叫主键,主码是从候选码中选出来的,一个实体集中只能有一个主码,但可以有多个候选码。
- 外码:外码也叫外键,如果关系中的一个属性是另外一个关系的主码,则这个属性是外码。
- 主属性:候选码中出现过的属性称为主属性,比如工人(工号,身份证号,姓名,性别,部门)。显然工号和身份证号都能够唯一标示这个关系,所以都是候选码。工号、身份证号这两个属性就是主属性。如果主码是一个属性组,那么属性组中的属性都是主属性。
- 非主属性:不包含在任何一个候选码中的属性称为非主属性。比如在关系------学生(学号,姓名,年龄,性别,班级)中,主码是"学号",那么其他的"姓名"、"年龄"、"性别"、"班级"就都可以称为非主属性。
3、主键和外键有什么区别?
- 主键:主键用于唯一表示一个元组,不能有重复,不允许有空,一个表只能有一个主键。
- 外键:外键用来和其他表建立联系用,外键是另一表的主键,外键是可以有重复的,可以是空值,一个表可以有多个外键。
4、数据库的范式
- 第一范式(1NF):属性(回应表中的字段)不能再被分割,也就是这个字段只能是一个值,不能再被分为多个其他字段了(原子性)。1NF是所有关系型数据库的最基本要求,也就是说关系型数据库中创建的表一定满足第一范式。
- 第二范式(2NF):2NF在1NF的基础之上,消除了非主属性对码的部分函数依赖。第二范式在第一范式的基础上增加了一个列,这个列称为主键,非主属性都依赖于主键。
- 第三范式(3NF):3NF在2NF的基础之上,消除了非主属性对码的传递依赖。解决了数据冗余过大,插入异常,修改异常,删除异常的问题。比如在关系R(学号 ,姓名, 系名,系主任)中,学号 → 系名,系名 → 系主任,所以存在非主属性系主任对于学号的传递函数依赖,所以该表的设计,不符合3NF的要求。
- 总结:1NF:属性不可再分。2NF:1NF的基础之上,消除了非主属性对于码的部分函数依赖。3NF:3NF在2NF的基础之上,消除了非主属性对于码的传递函数依赖 。
5、什么是函数依赖?部分函数依赖?完全函数依赖?传递函数依赖?
- 函数依赖(functional dependency): 若在一张表中,在属性(属性组)X的值确定的情况下,必定能确定属性Y的值,那么就可以说Y函数依赖于X,写作X → Y。
- 部分函数依赖:如果X → Y,并且存在X的一个真子集X0,使得X0→ Y,则称Y对X部分函数依赖。比如学生基本信息表R中(学号,身份证号,姓名)当然学号属性取值是唯一的,在R关系中,(学号,身份证号)->(姓名),(学号)->(姓名),(身份证号)->(姓名);所以姓名部分函数依赖与(学号,身份证号)。
- 完全函数依赖(Full functional dependency) :在一个关系中,若某个非主属性数据依赖于全部关键字称之为完全函数依赖。比如学生基本信息表R(学号,班级,姓名)假设不同的班级学号有相同的,班级内学号不能相同,在R关系中,(学号,班级)->(姓名),但是(学号)->(姓名)不成立,(班级)->(姓名)不成立,所以姓名完全函数依赖于(学号,班级)。
- 传递函数依赖(transitive functional dependency) :在关系模式R(U)中,设X,Y,Z是U的不同的属性子集,如果X确定Y、Y确定Z,且有X不包含Y,Y不确定X,(X∪Y)∩Z=空集合,则称Z传递函数依赖于X。传递函数依赖会导致数据冗余和异常。传递函数依赖的Y和Z子集往往同属于某一个事物,因此可将其合并放到一个表中。比如在关系R(学号 ,姓名, 系名,系主任)中,学号 → 系名,系名 → 系主任,所以存在非主属性系主任对于学号的传递函数依赖。(跟男朋友出去玩咯~晚点接着写