阿里云大数据ACA及ACP复习题（121~140)

121.数据清洗(Data Cleaning)是用于检测和纠正（或删除）记录集，表或数据库中的不准确或损坏的记录。下列选项中，对数据清洗描述正确的是(ABC)

A:数据清洗可以检测表中的不准确或损坏的记录

B:数据清洗可以识别不正确，不完整，不相关，不准确或其他有问题("脏")的数据

C:数据清洗时检测出不正确的数据可以替换，修改或删除

D:数据清洗不可以纠正脏数据

解析：数据清洗或数据清理是从记录集、表或数据库中检测和纠正损坏或记录不准确的数据的过程。广义地说，数据清洗包括识别和替换不完整、不准确、不相关或有问题的数据和记录。

122.Flink在大数据处理与分析中的作用不包含（B）？

A:实时推荐

B:实时存储

C:实时反作弊

D:实时IOT数据分析

解析：Flink的功能有：实时数仓、实时ETL、实时反作弊、实时监测、实施推荐、实时IoT数据分析，Flink是实时处理引擎，不进行数据存储

123.数据采集是指使用技术手段进行（A）？

A:数据收集

B:数据存储

C:数据分析

D:数据挖掘

解析：数据采集是指对目标领域、场景的特定原始数据进行采集的过程。

124.Hadoop在底层维护多个数据副本，使应用运行稳定运作。这是Hadoop的©特点。

A:安全性

B:易扩展

C:高可靠

D:高效率

解析："使应用运行稳定运作"体现了高可靠的特点

125.以下属于分布式文件系统的是哪个文件系统？（B）

A:FAT32

B:GFS

C:NTFS

D:EXT6

解析：GFS（Google File System）是Google公司专为满足公司需求而开发的基于Linux的可扩展的分布式文件系统，用于大型的、分布式的、对大数据进行访问和应用，成本低，应用于廉价的普通硬件上。

126.大数据的5V特征及其与《大数据时代》一书中提出的"4V"特征的区别（D）

A:Volume规模性

B:Velocity高速性

C:Variety多样性

D:Veracity准确性

E:Value价值性

解析：大数据的 5v 特征包括容量（Volume）、速率（Velocity）、多样性（Variety）和真实性（Veracity）以及价值（Value），区别于4V（容量，速率，多样性，价值），多了一项（Veracity）准确性。

127.HDFS主要采用主从结构模型，主节点负责数据请求与元数据的保存，以下选项中哪个节点负责数据存储？（C）

A:NameNode

B:Jobtracker

C:DataNode

D:SecondaryNameNode

解析：DataNode 负责存储数据的，提供真实文件数据的存储服务。

128.下列选项中属于阿里云数据可视化产品是？（AB）

A:Quick BI

B:DataV

C:DataX

D:Data Integration

解析：数据可视化DataV是阿里云一款数据可视化应用搭建工具； Quick BI通过智能的数据分析和可视化能力帮助企业构建数据分析系统数据集成（Data Integration） DataX是异构数据源离线同步的工具

129.数据采集的技术有许多种，下列选项中不是采集技术的是（D）

A:Sqoop采集技术

B:Flume采集技术

C:网络爬虫技术

D:MapReduce处理技术

解析：大数据的并行处理利器------MapReduce

130.随着时代的发展，业务中需要保存的数据量成倍增长，传统的文件系统已不能满足业务发展的需要，而分布式文件系统的出现可以解决以下哪个向题?（A）

A:存储扩展

B:数据压缩

C:文件查找

D:文件命名

解析：存储扩展

131.案例:当用户在国外某地进行一笔5万块的线上交易，从风控模型库中读取相应的风控模型集合中对用户的额度和交易地点进行判断，从风控数据库中拿到的用户征信信息中，用户的额度为10万，但是上次交易发生在1个小时前，且地点为国内，那么额度判断PASS，交易地点判断FAIL，那么此次交易有盗刷或者欺诈嫌疑，系统则判定此次交易失败。该案例体现了大数据在( C ）领域的应用。

A:电商

B:人工智能

C:金融风险管控

D:政府决策

解析：体现了在金融风险管控的应用

132.在数据预处理过程中，数据集成的方法有三种，以下正确的是(ACD)

A:联邦数据库

B:数据删除

C:中介者

D:数据仓库

解析：数据集成的一般方法可以概括为联邦式、中间件式、数据仓库模式等。

133.关于HDFS的特性，下列说法错误的是?（D）

A:数据分布式存储

B:强大的跨平台兼容性

C:兼客廉价的硬件设备

D:多次写入、多次读取

解析：HDFS的模式是一次写入多次读取

134.数据分析与数据挖掘的概念是容易被混淆。下列选项中，正确描述数据分析与数据挖掘之间的关系的是？（ABC）

A:数据分析强调结果，数据挖掘强调过程

B:数据分析目标明确，根据目标做出假设，得出结论。数据挖掘是寻找数据末知的模式与规律

C:数据分析常采用数学分析的方法，如对比分析、回归分析、交叉分析等。数据挖掘主要采用统计学、机器学习等常用方法挖掘数据

D:数据分析是输出模型或规则，根据模型应用。数据挖掘是得到己知的指标预测值，根据预测值跟业务结合，发挥数据价值

解析：数据分析一般都是得到一个指标统计量结果，如总和、平均值等，这些指标数据都需要与业务结合进行解读，才能发挥出数据的价值与作用。数据挖掘输出模型或规则，并且可相应得到模型得分或标签数据分析目标明确，根据目标做出假设，得出结论。数据挖掘是寻找数据未知的模式与规律数据分析常采用数学分析的方法，如对比分析、回归分析、交叉分析等。数据挖掘主要采用统计学、机器学习等常用方法挖掘数据

135.网络爬虫由控制节点、爬虫结点、资源库构成，以下关于网络爬虫特性的描述正确的有（ABD）。

A:网络爬虫中可以有多个控制节点

B:每个控制节点下可以有多个爬虫节点

C:多个控制节点间不允许相互通信

D:多个爬虫节点间可以进行互相通信

解析：网络爬虫中可以有多个控制节点；每个控制节点下可以有多个爬虫节点，控制节点之间可以互相通信；控制节点和其下的各爬虫节点之间也可以进行互相通信，属于同一个控制节点下的各爬虫节点间，亦可以互相通信。

136.MapReduce是一个分布式运算程序的编程框架，下面对MapReduce描述正确的是（ABD）。

A:MapReduce的核心为Map函数和Reduce函数

B:MapReduce用于大规模数据集的并行运算

C:MapReduce不需要应用开发者编写程序来实现功能

D:MapReduce设计理念就是"计算向数据靠拢"

解析：MapReduce 主要是依靠开发者通过编程来实现功能的

137.使用QuickBl进行数据可视化开发的过程中，需要了解Quick Bl的操作流程，下面哪一项属于Quick Bl正确的操作流程?（C）

A:准备工作-数据建模一连接数据源一数据可视化分析一发布共享

B:准备工作一连接数据源一数据可视化分析一数据建模一发布共享

C:准备工作一连接数据源-数据建模一数据可视化分析一发布共享

D:准备工作一数据可视化分析-连接数据源-数据建模一发布共享

解析：

https://help.aliyun.com/document_detail/161417.html?spm=a2c4g.33813.0.i5

步骤一：连接数据源

步骤二：数据建模

步骤三：数据可视化分析

步骤四：发布共享

138.在进行数据预处理时，经常会遇到异常值，下列选项中处理异常值的方法有（ABC）

A:删除含有异常值的记录

B:将异常值视为缺失值，交给缺失值处理方法类处理如插补的方法

C:用平均值来修正

D:所有异常值不能删除

解析：异常值的的处理有删除含有异常值的观测（直接删除，当样本少时直接删除会造成样本量不足，改变变量的分布）、当作缺失值（利用现有的信息，对其当缺失值填补）、平均值修正（用前后两个观测值的均值修正该异常值）、不处理。

139.图比文本或电子表格更容易理解，人脑对视觉信息的处理速度要比书面信息快很多。这体现了数据可视化的哪个优势?（ B ）

A:传播速度快

B:数据更直观

C:多维展示

D:容易记忆

解析：数据更直观：图比文本或表格更加直观呈现

140.在进行数据清洗时，每个步骤有对应的注意事项。以下选项中，步骤和注意事项匹配的有（ABCE）。

A:数据清洗时先处理缺失值、异常值和数据类型转换，最后进行重复值的处理

B:对缺失值和异常值处理时，一般根据业务需求进行填充，进行统计值填充、前/后值填充、零值填充

C:在数据清洗之前，要明确表的结构和发现需要处理的值，方便数据清洗的更彻底

D:数据量大且异常数据量也较大时，可直接删除异常数据：数据量小，则每个数据都可能影响分析结果，需要认真去对异常数据进行处理

E:确保数据表的每列都进行清洗

解析：如果总数据量较大，而异常的数据（包括缺失值和异常值）的量较少时可以选择直接删除处理，因为这并不太会影响到最终的分析结果；但是如果总数据量较小，则每个数据都可能影响这分析的结果，这时候就需要费心思去对数据进行处理（可能需要通过其他的关联表去找到想过数据进行填充）