CDA-LevelⅡ【考题整理-带答案】

关于相关分析中应注意的问题，下面说法错误的是：B 如果两变量间的相关系数为0，则说明二者独立。解释：只能说明两者不存在线性相关关系
现通过参数估计得到一个一元线性回归模型为y=3x+4，在回归系数检验中下列说法错误的是： B 原假设B1= 3 。解释：应该是0
关于一元线性回归的求解过程说法正确的是： A 一元线性回归只需要求解出两个系数即可
1. 回归模型知识根据已有数据总结出了其中包含的线性关系，然后对于新样本进行预测，但是预测值与真实值之间是可能存在差异的
2. 一元线性回归模型的基本形式一般是包含常数项的
3. 回归模型中的估计系数是对应真实系数的无偏差估计
根据最小二乘法拟合直线回归方程是使：B 离差平方和最小的参数。解释：离差就是真实值与预测值的偏差
在给定的显著性水平下，某一特性的X水平上，总体Y分布的离散度越大，则： A 预测区间越宽，精度越低
关于单因素方差分析，下列说法不正确的是： A 组间平方和只包含随机误差。解释：组件误差包括间差异和随机误差。
为了比较两个总体方差，我们通常可以检验两个总体的： B 方差比。解释：通常采用检验两个总体方差比的F检验；
方差分析中：组内误差平方和+组件误差平方和= 总误差平方和；组内自由度+组间自由度= 总自由度；f值= 组间均方误/组内均方误
方差分析是统计学中常用知识，下列关于方差分析的说法不正确的是： A 方差分析是一种检验若干个正太分布的均值和方差是否相等的一种统计方法；解释：方差分析是一种检验若干个独立正态总体均值是否相等的一种统计方法，不能用于检测方差是否相等。
在假设检验问题中，原假设为H0，给定显著水平为a，则正确的是 C： p(拒绝H0|H0正确) = a 。解释：显著水平就是标识原假设为真时，拒绝原假设的概率
在样本量给定的条件下，假设检验中当第一类错误减小时，第二类错误怎么变化？ A 必然增大。
在列联表分析中，下列不能用卡方检验的是： C 多个均值的比较。解释：卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度，在分类资料推断中的应用，包括：两个率或两个构成比比较的卡方检验；多个率或多个构成比较的卡方检验。两个及两个以上样本均值的比较是用方差分析。
在假设检验问题中，原假设为H0，给定显著水平为a，则关于假设检验的原理说法正确的是 B 小概率事件。解释：假设检验的基本思想：假设样本是从原总体中抽取的，在此假设下构造一个小概率事件。若假设成立，则小概率事件一般是不会发生的，但在一次抽样中，如果小概率事件发生了，则拒绝接收这个假设。
置信区间是统计学中常用的概念，一个95%的置信区间的含义是： D 在用同样方法构造的总体参数的多个区间中，有95%的区间包含该总体参数。
一个手机电池制造商声称，其生产的电池一次充电后正常条件下使用时长为20小时，对一个由15个电池组成的随机样本做了实验，测得平均值使用时长服从正太分布，则检验该电池与厂商声称的标准是否相符，我们应该选择： A 双侧t检验。解释：这是一个假设检验的问题。电池使用时长服从正态分布，待检验的原因假设H0；m=20，说明是双向检测问题；又由于总体方差s是未知的，故采用t检测。
抽样是统计分析中常用的技术手段，现有一抽样的描述："将总体的所有单位（抽样单位）按照一定顺序排列，在规定的范围i内随机抽取一个单位，这种抽样的方法称为"：D 系统抽样。
X为服从正太分布的随机变量N（2，9），如果P(X>c) = P(X<c)，则c的值为 B 2.解释：正态分布密度曲线关于均值m对称，m是正态分布的中心，也就是说：均值两侧发生的概率相等。
若x1、x2、x3取自某总体的样本，当期望a已知，方差c未知时，则以下不是统计量的是： D (x1+x2+x3)/c 解释：统计量是不含任何未知参数的
ABtest是运维人员、产品经历等经常使用的工具，下面关于AB实验中最小样本量的描述正确的是：A 在其他条件一定时，预期提升比例越大，最小样本量越小。解释：AB实验室为了检验某方案是否有效，即检验方案实施后的总体B是否相对实施前的总体A有显著提升。预期提升比例越大越说明B比A有显著差异，则只需越少的样本就能得出显著的结论。
用户画像室互联网企业常用的技术手段，通过对用户进行画像实现精准营销等商业活动，下面关于用户画像的说法错误的是：C 用户标签必须描述客观的事实。解释：用户画像本质上是将用户的数据标签化。用户画像是具有动态性和时效性的，同一个用户不同的阶段、不同的时间标签是不一样的。比如是否购买过某商品的标签会因为用户消费行为产生变化。有些用户标签是基于业务经验打上的，有很强的主观性，不一定是客观事实。
RFM是很传统的数据分析模型，下面关于RFM模型的描述错误的是：C 数据中只需含有用户ID、消费金额、消费日期三个字段即可使用RFM模型进行用户分层，无需考虑用户ID是否统一。
数据标签化是企业数据分析的基础工作，关于企业对数据进行标签化的目的错误的是：D 减少数据占用的存储空间。解释：企业数据标签化主要是为了后期业务系统能快速的应用数据，例如在精细化运营、用户画像分析（用户分析）、精准营销等方面，而不是为了减少数据占用的存储空间。
数据分析师在工作中常常会遇到两个概念：标签、指标，下列关于标签与指标的描述正确的是：A 指标通常可以量化，但是标签一般是不可量化的。解释：指标与标签概念不同，指标是用来定义、评价和描述特定事务的一种标准或方法；比如，新增用户数、累计用户数、用户活跃率等是衡量用户发展情况的指标。
标签系统又许多分类，从实现规则上可以为三类：基于统计类的、基于规则类的、基于挖掘技术类的，下面对于标签的分类错误的是：A APP的使用时长属于基于规则的标签。g
1. 基于统计类的标签：这类标签是可以从用户注册、用户访问、消费类数据中统计得出，是最为基础的标签类型。例如：性别、城市、App使用时长、周均启用次数、月均消费金额等
2. 基于规则类的标签：该类标签基于用户行为及确定的规则产生，在实际开发标签过程中，该类标签的规则由运营人员和数据人员共同协商确定；
3. 基于挖掘类的标签：该类标签为概率模型，概率介于0-1之间的数值，需要通过算法挖掘产生。
企业数据仓库里面的数据一般是由业务数据经过ETL技术处理后来的，以下关于ETL的说法错误的是：A ETL过程中主要环节是数据抽取、数据转换和加工、数据流转
下面关于第三范式关系必然符合的条件，说法错误的是：C 其他关系的属性需要依赖于主键
企业数据分为：元数据、主数据、参考数据等分类，下面属于参考数据的是： A 客户等级分为A，B，C 。解释：A、B、C是数据取值的范围，属于参考数据
业务系统往往因为系统故障、设备故障、人为失误等原因导致数据中存在异常数据，下列哪一项方法对于发现异常值有帮助 A 计算均值加减三倍标准差的范围
业务数据中因为某些原因可能存在异常值，先要通过可视化的方式查找某些字段数据中的异常值，优先使用： A 箱型图