阿里云大数据ACA及ACP复习题（81~100)

81.阿里云大数据体系中，下列哪个服务是属于数据加工和可视化分析工具？（B）

A:大数据计算服务MaxCompute

B:Quick BI数据可视化分析平台

C:实时计算Flink版

D:云原生数据仓库（分析型数据库） AnalyticDB

** 解析**：阿里云实时计算Flink版（Alibaba Cloud Realtime Compute for Apache Flink，Powered by Ververica）是阿里云基于Apache Flink构建的企业级、高性能实时大数据处理系统。云原生大数据计算服务(MaxCompute)是一种快速、完全托管的TB/PB级数据仓库解决方案。 Quick BI是一款全场景数据消费式的BI平台，秉承全场景消费数据，让业务决策触手可及的使命，通过智能的数据分析和可视化能力帮助企业构建数据分析系统，您可以使用Quick BI制作漂亮的仪表板、格式复杂的电子表格、酷炫的大屏、有分析思路的数据门户，也可以将报表集成在您的业务流程中，并且通过邮件、钉钉、企业微信等分享给您的同事和合作伙伴。 https://help.aliyun.com/document_detail/33813.html

82.阿里云的云计算提供了多种服务模式，其中平台层使用的是(B)

A:Saas

B:Paas

C:laas

D:全部本地布署

** 解析**：PAAS平台即(Platform-as-a-Service：平台即服务)

83.Hive的SQL执行流程依次为Parser、Semantic Analyzer、Logical Plan Generator、Logical Optimizer。Physical Plan Generator、Physical Plan Optimizer。其中步骤Logical Plan Generator的作用是?（C）

A:将SQL转换成抽象语法树

B:将抽象语法树转换成查询块

C:将查询块转换成逻辑查询计划

D:重新逻辑查询计划

** 解析**：Logical Plan Generator：将查询块转换成逻辑查询计划

84.关于大数据的定义描述错误的是下列哪个选项？（D）

A:从数据大小的角度Mckinsey(麦肯锡公司)认为"大数据是指大小超出了典型数据库软件工具收集、存储、管理和分析能力的数据集。"

B:从架构的角度NIST(美国国家标准与技术研究院)认为"大数据是指那些传统数据架构无法有效地处理的新数据集。"

C:从多家机构对大数据描述中找出共同点：大数据主要是指具有体量大、来源多样、生成极快、且多变等特征，并且难以用传统数据体系结构有效处理的大量数据集的数据。

D:大数据是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学

** 解析**：大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。既不是一种技术，也不是一种产品，而是一种现象。而大数据是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学是描述人工智能的。

85.数据可视化大屏是当前可视化领域的一项热门应用，通常可以分为信息展示类、数据分析类及监控预警类，下列关于可视化大屏描述错误的是（B）。

A:可视化大屏是一种非常有效的数据可视化工具

B:利用DATa V制作的可视化大屏不支持多块物理屏拼接显示

C:可视化大屏是以数据可视化的方式在一个或多个LED大屏幕上显示业务的一些关键指标，以大屏幕为主要显示载体的数据可视化设计

D:可视化大屏作为传递信息的有效手段，在各个行业中发挥着重要作用

** 解析**：DataV支持多屏拼接，针对拼接大屏端的展示做了分辨率优化，能够适配非常规拼接情况下的分辨率优化

86.聚类算法与分类算法是数据挖掘算法中极其容易混淆的两种算法，两者之间，存在一定的相似性，同时也存在明显的差异性。下面关于聚类和分类的说法正确的是？（D）

A:聚类有标签，分类无标签

B:聚类有目标，分类无目标

C:聚类有标签，分类有标签

D:聚类无标签，分类有标签

** 解析**：聚类无标签是无监督学习,分类有标签是监督学习，聚类的目标是将数据分组，而分类的目标是将数据分类。

87.以下哪个选项符合属于分布式文件系统，且适合运行在通用硬件上？（B）

A:NFS

B:HDFS

C:GlusterFS

D:Ceph

** 解析**：HDFS（Hadoop Distributed File System） Hadoop分布式文件系统，适合运行在通用硬件上做分布式存储和计算

88.云计算和大数据的关系密不可分，关于云计算和大数据的区别，描述正确的是？（D）

A:大数据处理的对象是互联网资源和应用，云计算处理的对象是数据

B:大数据是一种互联网的虚拟资源存贮，云计算总的来说是一种信息资产

C:大数据的出现在于用户服务需求的增长，及企业处理业务能力的提高，云计算的出现在于用户和社会各行各业所产生大的数据呈现几何倍数的增长

D:云计算的价值则是能帮助企业等压缩其成本，起到节约效果。在庞大的数据中挖掘其中有效、有价值的信息这就是大数据的价值

** 解析**：大数据和云计算的区别： 1、首先云计算面对的是互联网资源和应用等，而大数据面对的是数据。 2、云计算则是一种互联网的虚拟资源存贮，而大数据总的来说是一种信息资产。 3、云计算的出现在于用户服务需求的增长，及企业处理业务能力的提高，大数据的出现在于用户和社会各行各业所产生大的数据呈现几何倍数的增长。 4、云计算注重资源分配，可以大量节约成本，是硬件资源的虚拟化，而大数据在于发掘数据的有效信息，海量数据的高效处理。

89.关系数据库(Relational Database)是数据按关系模型来组织数据的数据库。主要用于存储(A)。

A:结构化数据

B:半结构化数据

C:非结构化数据

D:结构化数据和非结构化数据

** 解析**：关系型数据库存储的是结构化数据

90.数据可视化可以通过图表显示多维展示，它能体现出（D）优势？

A:图形表现

B:分析视角

C:数据清晰

D:多维展示

** 解析**："通过图表更容易对数据进行分类、排序显示"体现了多维展示的特点

91.根据颜色的不同来反映不同区域的降水量，这是数据可视化在什么学科上的应用？（C）

A:区域地理学

B:可视性分析学

C:空间可视化

D:信息学

解析："根据颜色不同来反映不同区域的降水量"体现了空间可视化

92.下列关于HDFS的描述，正确的有？（A）

A:Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)分布式文件系统，完成数据分布式存储，具有高容错性和可扩展性的特点

B:是一种通过网络实现文件在多台主机上进行存储的文件系统，但数据安全性不能得到保证

C:分布式文件系统都是采用"客户机/服务器"一主多从

D:谷歌开发了分布式文件系统HDFS

解析：HDFS（Hadoop Distributed File System） Hadoop分布式文件系统，适合运行在通用硬件上做分布式存储和计算 Hadoop是Apache Lucene创始人Doug Cutting开发的使用广泛的文本搜索库。它起源于Apache Nutch，后者是一个开源的网络搜索引擎，本身也是Luene项目的一部分。Aapche Hadoop架构是MapReduce算法的一种开源应用，是Google开创其帝国的重要基石。 GFS（Google File System）：Google公司为满足公司需求而开发的基于Linux的可扩展的分布式文件系统

93.下列选项中符合数据挖掘概念的是（D）？

A:将异构数据源的数据汇集在一起

B:从大量的数据中剔除含噪声的数据

C:数据分析就是数据挖掘，只是说法不一样，两者在广义与狭义中，表达的都是同一个意思

D:从大量的数据中通过算法搜索隐藏于其中信息的过程

解析：数据分析和数据挖掘本质上来说其实并不冲突,两者可以说的上是相辅相成的。数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。

94.Sqoop是Hadoop生态圈组件中的什么？（C）

A:数据分析工具

B:数据库引擎

C:ETL工具

D:BI工具

解析：Sqoop是一款apache旗下的"hadoop和关系型数据库数据传输"工具。

95.HBase是一个分布式的、面向列的开源数据库，源于( A )的一篇论文《BigTable:一个结构化数据的分布式存储系统》

A:Google

B:Oracle

C:Apache

D:Microsoft

解析：HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》

96.关于网络爬虫爬取网页的步骤，包含如下哪些选项?(ABC)

A:获报网页

B:提取信息

C:保存数据

D:手动提取

解析：获取网页、解析网页以及存储数据

97.Hadoop是当前最流行的大数据分布式基架构，它提供了许多与大数据相关的核心功能，并支持许多核心项目。下列选项中，属于Hadoop核心组件的是?（D）

A:Ambari(安装、部署、配置、管理工具)

B:Oozle(作业流调度系统)

C:Hive数据仓库

D:MapReduce分布式计算框架

解析：Hadoop的核心组件为：HDFS、MapReduce和Yarn。

98.在Spark 架构中，负责SQL解析的组件是?（A）

A:SQL Parser

B:Cache Mgr

C:catalyst

D:Execution

解析：SparkSqlParser: SparkSQL的sqlParser，将SQL解析为LogicalPlan

99.网络爬虫是一种通过既定规则，自动抓取网页信息的程序，它的常见分类有（ABCD）。

A:通用网络爬虫

B:聚集网络爬虫

C:增量式网络爬虫

D:深层网络爬虫

E:随机型爬虫

解析：网络爬虫按照系统结构和实现技术，大致可以分为以下几种类型：通用网络爬虫（General Purpose Web Crawler）、聚焦网络爬虫（Focused Web Crawler）、增量式网络爬虫（Incremental Web Crawler）、深层网络爬虫（Deep Web Crawler）。实际的网络爬虫系统通常是几种爬虫技术相结合实现的。

100.阿里云实时数仓Hologres属于阿里云大数据产品体系中的哪一类产品?（A）

A:大数据计算与分析

B:大数据工具与服务

C:大数据分析与可视化

D:智能搜索与推荐

解析：链接：https://help.aliyun.com/document_detail/113648.html Hologres。致力于高性能、高可靠、低成本、可扩展的实时计算引擎研发，为用户提供海量数据的实时数据仓库解决方案和亚秒级交互式查询服务，广泛应用在实时数据中台建设、精细化分析、自助式分析、营销画像、人群圈选、实时风控等场景。