华为ICT题库-大数据部分

1475、以下哪项组件不属于大数据平台中的组件?(云服务考点)

(A)MapReduce

(B)Yarn

(C) openStack

(D)HDFS

答案:C

解析:组件OpenStack不属于大数据平台中的组件。OpenStack是一个开源的云计算平台,它提供了一系列的组件和工具,用于构建和管理云计算基础设施。它通常用于搭建私有云或公有云环境,并提供虚拟机实例、网络、存储等基础服务。而在大数据平台中,常见的组件包括MapReduce、Yarn和HDFS等。MapReduce是一种用于分布式计算的编程模型;Yarn(Yet Another Resource Negotiator)是一个资源管理器,用于分配和管理集群中的计算资源;而HDFS(Hadoop Distributed File System)是一个分布式文件系统,用于存储和管理数据。因此,选项C OpenStack不属于大数据平台中的组件。

1476、下面哪项组件不属于大数据平台中的组件?(云服务考点)

(A)Yarn

(B)HDFS

(C)OpenStack

(D)MapReduce

答案:C

解析:OpenStack不属于大数据平台中的组件。A. Yarn(Yet Another Resource Negotiator)是Apache Hadoop的一个核心子项目,负责管理和调度集群资源,支持多种计算框架,如MapReduce、Spark等。B. HDFS(Hadoop Distributed File System)是Apache Hadoop的分布式文件系统,用于存储大规模数据,并提供高容错性、高吞吐量的数据访问服务。D. MapReduce是一种编程模型和计算框架,也是Apache Hadoop中的一个核心子项目,用于处理大规模数据集的并行计算。OpenStack是一个开源云计算平台,提供了创造与管理云计算资源的工具和平台。尽管OpenStack提供了很多云计算平台相关的组件,但它并不属于大数据平台中的组件。因此,选项C是正确答案。

1477、Fusionlnsight HD 中,使用 Streaming的命令?方式提交 example.jar 中的 om huawei example WrodCount 任 务,任务名称为wcTeat,以下执行命令正确的是?(大数据考点)

(A)storm jarexample jar wcTest om huawei example WordCount

(B)storm jar example jar wc Test WrodCount

(C)storm jar example jar om huawei example WordCount wcTest

(D)storm jar example jar WorkCount wc Test

答案:C

解析:在FusionInsight HD中,使用Storm的Streaming方式提交任务可以使用storm jar命令,其中需要指定要提交的example.jar以及任务名。根据题目描述,需要提交example.jar中的om.huawei.example.WordCount任务,并指定任务名称为wcTest。因此,正确的执行命令应该是:

选项A中,命令的顺序和参数不正确,应该将jar和example之间的空格去掉,并将任务名放在最后;选项B中,任务名和WordCount之间没有空格,并且wcTest和WrodCount位置颠倒;选项D中,命令中没有包含om.huawei.example.WordCount这个任务。因此,只有选项C中的命令符合要求,应该是正确答案。

1478、对于运行在 MapReduce 平台上的应用程序,此应用程序所依赖的 jar 包会被放到哪里?(大数据考点)

(A)HIE

(B)HBASE

(C)HDFS

(D)DB

答案:C

解析:对于运行在MapReduce平台上的应用程序,该应用程序所依赖的jar包通常会被放置在HDFS(Hadoop分布式文件系统)中。HDFS是Hadoop的核心组件之一,用于存储大规模数据集,并提供高可靠性和高吞吐量的数据访问。在HDFS中,可以通过使用hadoop fs命令或Hadoop API将jar包上传到HDFS的特定目录中。在提交MapReduce任务时,可以通过命令或配置指定应用程序所依赖的jar包路径,通常这些jar包是事先上传到HDFS中的。MapReduce框架会从HDFS中获取相应的jar包,并将其分发到运行任务的各个节点上,以确保应用程序的正确执行。因此,正确答案是C,HDFS。

1479、FusionlnsihtHD 中,Oozie 客户端的 JAVAAPI 在运行任务时会调用 OozieClient 类的哪个方法? (大数据考点)

(A)suspend

(B)getJoblnfo

(C)submit

(D)run

答案:D

解析:FusionInsight HD 中的 Oozie 客户端的 Java API 在运行任务时,会调用 OozieClient 类的 run 方法。OozieClient 类是 Oozie 的 Java 客户端类,用于与 Oozie 服务器进行交互,执行工作流和协调应用程序的运行。run 方法是 OozieClient 类中的一个核心方法,用于提交和运行工作流或协调应用程序。通过调用 OozieClient 的 run 方法,可以向 Oozie 服务器提交任务,并触发工作流或协调应用程序的执行。因此,正确答案是D. run。

1480、将数据块存储大小设置为128M,HDFS 客户端在写文件时,当写入一个100M 大小的文件,实际占用储存空间为多大?(大数据考点)

(A)128M

(B)100M

(C)64M

(D)SOM

答案:B

解析:在将数据块存储大小设置为128M的情况下,当HDFS客户端写入一个100M大小的文件时,实际占用的存储空间为100M。HDFS以数据块(block)为单位进行文件的存储和管理,默认情况下每个数据块的大小为128M。当写入一个文件时,如果文件的大小小于等于数据块的大小,则文件所占用的存储空间就是文件的实际大小。因此,当写入一个100M大小的文件时,实际占用的存储空间为100M。所以,正确答案是B. 100M。

1481、当一个 MapReduce 应用程序被执行时,如下哪一个动作是map 阶段之前发生的?(大数据考点)

(A)split

(B)combine

(C)partition

(D)sort

答案:A

解析:在一个MapReduce应用程序执行过程中,map阶段之前会发生split操作。Split操作是将输入数据划分成一系列大小适当的数据块,每个数据块称为一个split。这样可以将大规模的数据集划分成适合并行处理的小块,使得每个Map任务可以独立地处理一个或多个split。在split操作之后,数据被分配给各个Map任务进行并行处理。在map阶段中,每个Map任务读取它所分配到的split,并根据逻辑处理数据生成键值对的形式输出。因此,本题的正确答案是A. split。

1482、在Fusioninsight HD 产品中,Kafka 服务的角色名称是? (大数据考点)

(A)Producer

(B)Broker

(C)Consumer

(D)ZooKeeper

答案:B

解析:在FusionInsight HD产品中,Kafka服务的角色名称是Broker。Kafka是一个分布式流处理平台,它使用发布-订阅(Pub-Sub)消息传递模式。Kafka的架构中包含多个角色,其中Broker是Kafka集群中的核心组件。Broker是Kafka的消息代理服务器,用于接收、存储和转发消息。每个Kafka节点都扮演着Broker的角色,可以处理消息的生产和消费请求,并负责管理消息的持久化和复制。其他选项的描述如下:A. Producer:Kafka中的消息生产者,负责将消息发送到Kafka集群的指定主题。C. Consumer:Kafka中的消息消费者,负责从Kafka集群中的指定主题订阅和消费消息。D. ZooKeeper:ZooKeeper是Kafka集群中的协调服务,用于管理和协调Kafka的各个组件。因此,本题的正确答案是B. Broker。

1483、HDFS 集群跟目录下存在一个文件 text.txt,下列哪个命令可以查到此文件所存储的 DatNode 节点信息?(大数据考点)

(A)hdfs fsck/test.txt-files

(B)hdfs fsck/texttxt -locations

(C)hdfs fsck/test.bxt-blocks

(D)hdfs fsck/test.txt-list-corruptfile blocks

答案:B

解析:要查找HDFS集群中文件的DataNode节点信息,可以使用"hdfs fsck"命令结合"-locations"选项。具体命令应该是"hdfs fsck/test.txt -locations"。其他选项的解析如下:A. hdfs fsck/test.txt-files:该命令格式不正确,不能用于查找文件的DataNode节点信息。C. hdfs fsck/test.bxt-blocks:该命令格式不正确,不能用于查找文件的DataNode节点信息。D. hdfs fsck/test.txt-list-corruptfile blocks:该命令用于列出在HDFS集群中损坏的文件块,并不适用于查找文件的DataNode节点信息。因此,正确答案是B. hdfs fsck/texttxt -locations。

1484、在 FusionInsight HD 中,可以在哪里查看 MapReduce 应用程序的运行结果? (大数据考点)

(A)Fusioninsight Manager 的 web 界面

(B)Loader Web 界面

(C)Solr web 界面

(D)Yam Web 界面

答案:D

解析:在FusionInsight HD中,可以在Yarn Web界面上查看MapReduce应用程序的运行结果。具体来说,可以按照以下步骤进行:在浏览器中输入Yarn的Web地址,例如默认地址为http://<active_name>:8088。在页面左侧的导航栏中选择"Applications",可以看到正在运行或已完成的应用程序列表。选中对应的应用程序,点击"Application Master"链接,进入该应用程序的详细信息界面。在详细信息界面中,可以查看该应用程序的运行状态、各个任务的状态、输入输出路径等信息,也可以查看日志输出等内容。因此,本题的正确答案是D。

1485、MapReduce 任务最终是在下列哪一项中被执行的?(大数据考点)

(A)NodeManager

(B)container

(C)ResourceManager

(D)AppMaster

答案:B

解析:MapReduce任务最终是在container中执行的。在YARN架构下,MapReduce任务由Application Master(简称AppMaster)协调和管理,它会向ResourceManager请求资源来执行任务。ResourceManager负责全局资源的管理和分配,它接收来自AppMaster的请求,并根据可用资源进行分配。一旦ResourceManager分配了资源,会创建相应的Container来承载任务。Container是YARN中的一个概念,它是一个运行环境,包含着任务执行所需的资源(如CPU、内存等)。MapReduce任务会被打包成一个或多个Container,并在每个Container中执行。因此,MapReduce任务最终是在Container中被执行的,而不是在NodeManager、ResourceManager或AppMaster中。因此,本题的正确答案是B。

1486、Yarn 中哪个角色是管理单个节点资源(CPU/Memory)的?(大数据考点)

(A)NodeManager

(B)Resource Manager

(C)Data Node

(D)NameNode

答案:A

解析:在YARN中,管理单个节点资源(如CPU和内存)的角色是NodeManager。NodeManager是YARN集群中每个节点上的代理,负责管理该节点上的资源。它与ResourceManager通信,并接收并执行由ResourceManager分配的任务。NodeManager会监控节点上的资源使用情况,定期向ResourceManager报告可用资源的状态,并处理来自ResourceManager的命令和指令。而ResourceManager是YARN集群的全局资源管理器,负责整个集群中资源的分配和调度。ResourceManager通过与每个NodeManager通信,了解节点的资源状况,并根据需要进行资源的分配。但ResourceManager本身并不负责直接管理单个节点上的资源。因此,本题的正确答案是A。

1487、下来哪些 Redis 命令属于原子操作?(大数据考点)

(A)JNCR(将储存的数字值增一)

(B)HINCRBY(为哈希表 key中的城 field 的值加上增量 increment)

(C)LPUSH(对链表的 push 操作)

(D)以上都是

答案:D

解析:JNCR、HINCRBY和LPUSH都是Redis中的原子操作。原子操作是指在并发环境下,不会被其他操作中断或干扰的操作。在Redis中,这些原子操作可以保证在执行期间不会被其他操作打断,从而确保数据的一致性和可靠性。INCR命令用于将存储的数字值增加1,是一个原子操作。HINCRBY命令用于为哈希表中指定字段的值增加指定的增量,也是一个原子操作。LPUSH命令用于将一个或多个值插入到列表头部,同样也是一个原子操作。因此,以上A、B、C选项中的Redis命令都属于原子操作,故选择D作为正确答案。

1488、可以通过以下哪个命令创建节点数据? (大数据考点)

(A)get /node

(B)create/node

(C)set/node data

(D)Is/node

答案:B

解析:在大数据领域,创建节点数据的命令通常是通过"create/node"来实现的。这个命令用于在大数据系统中创建新的节点数据。其他选项如"get/node"、"set/node data"和"Is/node"并不常见,也不是创建节点数据的正确命令。

1489、以下关于大数据和传统数据库故据的特点描述不正确的是? (大数据考点)

(A)大数据是对"池塘中的鱼"进行数据处理,目标明确;传统数据库的数据处理,是通过某些"鱼"判断其他种类的"鱼"是否存在

(B)大数据处理的数据类型很多,包括结构化、非结构化和半结构化的数据;传统故据库的故据类型较为单一常以结构化数据为主

(C)在大数据中,并没有统一的数据工具,即"No size fits all";在传统数据库中,在某种特定业务场景下,常常一个工具就能解决某个问题,即"One Size fits all"

(D)大数据的数据规模很大,一般以 TB、PB 作为数据处理单位;传统数据库中数据规模一般较小常以 MB 作为数据处理单位

答案:A

解析:无

1490、在 Fusioninsighti 产品中,关于 Kafka Topic,以下描述不正确的有? (大数据考点)

(A)毎个 Topic 只能被分成一个 partition(区)

(B)Topice 的 partition 数量可以在创建时配置

(C)每个 Partition 的存储层面対应一个 log 文件,log 文件中记录了所有的信息数据

(D)每条发布到 Kafka 的消息都有一个类別,这个类别被称为 Topic,也可以理解为一个存储消息的队列

答案:A

解析:在Fusioninsighti产品中,Kafka Topic可以被创建时配置不同的partition数量,每个partition对应一个log文件存储消息数据,每条发布到Kafka的消息都有一个类别,这个类别被称为Topic,也可以理解为一个存储消息的队列。

1491、下面哪一个是 ElasticSearch 的节点 (大数据考点)

(A)EsNode

(B)Index

(C)EsMaster

(D)Cluster

答案:A

解析:在Elasticsearch中,节点(Node)是构成集群的基本单位,用于存储数据和执行搜索操作。"EsNode"是Elasticsearch节点的正确名称

1492、下列哪个不是 HBase 读眼数据流程中涉及的角色或服务? (大数据考点)

(A)HDFS

(B)HRegionServer

(C)HMaster

(D)Zookeeper

答案:C

解析:HBase读眼数据流程中涉及的角色或服务包括HDFS、HRegionServer、Zookeeper等,不涉及HMaster。

1493、下列哪个不是 Fink 支持的状态存储 ()(大数据考点)

(A)FsStateBackend

(B)RocksDBStateBackend

(C)MemoryStateBackend

(D)FileStateBackend

答案:D

解析:Fink是一种用于处理大规模数据的工具,它支持多种状态存储方式,如FsStateBackend、RocksDBStateBackend、MemoryStateBackend等。而FileStateBackend是Kafka等分布式系统中的一种状态存储方式,与Fink无关。

1494、MRS 平台中, Flume 数据流在节点内不需要经过哪个组件? (大数据考点)

(A)Sink

(B)Channel

(C)Topic

(D)Source

答案:C

解析:在MRS平台中的Flume数据流,Source组件负责从外部系统采集数据,然后通过Channel组件进行传输,最后由Sink组件将数据写入目标系统。而Topic不是数据流在节点内必须经过的组件。

1495、HBbase 默认使用什么组件作为其底层文件存储系统? (大数据考点)

(A)File

(B)Kafka

(C)Memory

(D)HDFS

答案:D

解析:HBbase是一种基于Hadoop的大数据平台,它默认使用HDFS作为其底层文件存储系统。HDFS是Hadoop分布式文件系统(Hadoop Distributed File System)的简称,它是一种高度容错性的分布式文件系统,适合在大量节点上部署,能够提供高吞吐量的数据访问。

1496、Redisr 中哪个命令是查看键的剩余生存时间? (大数据考点)

(A)persist

(B)expire

(C)ttl

(D)expireat

答案:C

解析:在Redis中,可以使用命令"TTL"来查看键的剩余生存时间。这个命令会返回键的剩余生存时间(以秒为单位)。

1497、以下不属于 KrbServer 核心要素的是? (大数据考点)

(A)KDC (Key Distribution Center)

(B)Kerberos Client

(C)Kerberos KDC Client

(D)Kerberos KDC Server

答案:C

解析:Kerberos是一种网络身份验证协议,用于在网络安全地传输数据。KrbServer是Kerberos的服务器端,包括KDC(Key Distribution Center)和其它服务组件。其中A和D选项都属于KrbServer的核心要素,而Kerberos Client是用户端。因此选项C Kerberos KDC Client不属于KrbServer核心要素。

1498、假设数据量有 200GB 左右,分片最大容量限制为 30GB,那么分片数量最多设计为多少比较合适? (大数据考点)

(A)9 或 10

(B)7 或 8

(C)3 或 4

(D)5 或 6

答案:B

解析:考虑到数据量较大且分片最大容量限制为30GB,如果分片数量过多,可能会导致单个分片过大,无法满足存储和处理需求。因此,需要合理分配分片数量,使得每个分片的大小相对合理。考虑到200GB的数据量,如果将分片数量设计为5或6,每个分片的大小可能会超过30GB,而设计为7或8时,每个分片的大小相对较为合适。

1499、下图中 ElasticSearch 的索引名称是? (大数据考点)

(A)ddcvc

(B)doc

(C)logstash-2020.01.17

(D)3sDqsm8Bu-kTplz0jqhL

答案:C

解析:根据题目中的描述,这是一个关于ElasticSearch索引名称的问题。根据给出的选项,只有"logstash-2020.01.17" 符合描述,

1500、以下那些是华为鲲鹏处理器的特点 (大数据考点)

(A)高效能计算兼容 ARM 架构的高性能华为鲲鹏处理器和 x86 架构服务器和解决方案 &nbsp;

(B)安全可靠,铸就稳如泰山的高品质 &nbsp;

(C)开放生态支持业界主流软硬件,与开发者、伙伴和产业组织共同打造智能计算新底座

(D)以上全部正确

答案:D

解析:华为鲲鹏处理器是高效能计算兼容 ARM 架构的高性能处理器,可以与 x86 架构服务器和解决方案共同使用,支持开放生态,同时兼容业界主流软硬件,与开发者、伙伴和产业组织共同打造智能计算新底座。这是华为鲲鹏处理器的特点,也是大数据考点之一。

1501、安装 FusioninsightHD 的 Streaming 组件时,Nimbus 角色要求安装几个节点 (大数据考点)

(A)3

(B)2

(C)4

(D)1

答案:B

解析:在安装Fusioninsight HDI的Streaming组件时,Nimbus角色需要安装至少两个节点。这是因为Streaming组件需要集群环境来运行,而Nimbus角色是集群的一部分,需要保证足够的节点数量以保证组件的正常运行。

1502、在 MRS 集群中, Spark 主要与以下哪些组件进行交互? (大数据考点)

(A)Zookeeper

(B)Yarin

(C)Hive

(D)HDFS

答案:A

解析:Spark是一个大数据处理框架,它主要与集群中的其他组件进行交互以实现数据的分布式处理。在MRS集群中,Spark主要与Zookeeper进行交互,Zookeeper是一个分布式协调服务,用于管理集群中的任务分配、状态同步等。

1503、MRS 的 Loader 在创建作业时连接器的作用是? (大数据考点)

(A)MRS 的 Loader 在创建作业时连接器的作用是配置作业与内部数据源连接方式。&nbsp;

(B)配置作业与内部数据源连接方式

(C)提供优化参数提高数据导入导出性能

(D)确定有转换步骤

答案:A

解析:在MRS系统中,Loader在创建作业时连接器的作用是配置作业与内部数据源连接方式。

1504、以下关于 Hive 特性的描述不正确的是? (大数据考点)

(A)灵活方便的 ETL

(B)仅支持 MapReduce 计算引擎

(C)可直接访问 HDFS 文件以及 HBase

(D)易用易编程

答案:B

解析:Hive 是一个基于 Hadoop 的数据仓库基础架构,具有灵活方便的 ETL 功能、可直接访问 HDFS 文件以及 HBase、易用易编程等特性。然而,它并不直接支持 MapReduce 计算引擎,需要通过 HiveQL 语言进行编程来执行 MapReduce 任务。

1505、ElasticSearch 的一个索引库默认有几个分片? (大数据考点)

(A)5

(B)6

(C)3

(D)4

答案:A

解析:ElasticSearch的索引库默认情况下会有5个分片,这是为了确保数据的高可用性和可扩展性。

1506、以下哪些因素助力了大数据时代的達勃发展? (大数据考点)

(A)硬件成本的降低和网络带宽的提升

(B)云计算的兴起

(C)智能终端的普及和社交需求的提升

(D)以上全都正确

答案:D

解析:硬件成本的降低和网络带宽的提升,使得获取和处理大数据变得更加经济和高效;云计算的兴起,使得大数据的处理和分析变得更加便捷;智能终端的普及和社交需求的提升,使得大数据的应用场景不断扩大。这三个因素都有助于大数据的发展,因此选项D是正确的答案。

1507、通过下面哪个命令可以清空 Redis 实例下所有数据库的数据? (大数据考点)

(A)dropall

(B)flushall

(C)flushdb

(D)dropdb

答案:B

解析:Redis是一种流行的开源数据结构存储系统,常常用于内存数据库、缓存和消息中间件。"dropall"命令是用来删除所有数据库和键值的,主要用于配置类目的删除;"flushdb"命令用于清空当前数据库的所有键值对,通常在测试过程中使用;的"dropdb"是某些特定系统或平台上的命令,主要用于删除整个数据库实例。而"flushall"命令可以清空所有数据库的数据,是大数据考点中常用的命令。

1508、现有 server. channels=ch1,设置 Channel 类型为 File Channel,下列配置正确的是? (大数据考点)

(A)server channels. ch1 type=file

(B)server channels. ch1type=memory

(C)server channels. type= memory

(D)server channels. type=file

答案:A

解析:在Apache Kafka中,server.channels是一个配置选项,用于指定不同的channel类型。对于文件通道(File Channel),需要指定其类型为file。因此,选项A"server channels. ch1 type=file"是正确的配置选项。选项B和C中的type=memory是内存通道的配置选项,与文件通道不匹配。选项D中没有指定channel类型,因此也是错误的。

1509、Loader 中用于管理 Loader Server 进程主备状态的模块是? (大数据考点)

(A)Job Scheduler

(B)HA Manager

(C)Job Manager

(D)Resource Manager

答案:B

解析:Loader 是用于数据加载的工具,而 HA Manager 通常用于管理多个服务器或进程的主备状态,以确保在主服务器故障时可以自动切换到备用服务器,从而提高系统的可用性和可靠性。因此,用于管理 Loader Server 进程主备状态的模块是 HA Manager。

1510、在很多小文件场景下,Spark 会起很多 Task,当 SQL 逻辑中存在 Shuffle 操作时,会大大增加 hash 分桶数,严重影响性能。 Fusioninsighte 中,针对小文件的场景通常采用()算子,来对 Table 中的小文件生成的 partition 进行合并,减少 partition 数,从而避免在 shuffle 的时候,生成过多的 ash 分桶,提升性能?(大数据考点)

(A)group by

(B)coalesce

(C)connect

(D)Join

答案:D

解析:在FusionInsighte中,针对小文件的场景,通常采用Join算子来对Table中的小文件生成的partition进行合并,减少partition数,从而避免在shuffle的时候生成过多的hash分桶,提升性能。这是因为Join算子可以有效地合并小文件,减少shuffle操作的复杂度,从而提升Spark的性能。

1511、关于 Kafka 磁盘容量不足的告警,对于可能的原因以下分析不正确的是? (大数据考点)

(A)用于存储 Kafka 数据的磁盘配置(如磁盘数目、大小等),无法满足当前业务数据流宣,导致磁盘使用率达到上限

(B)数据保存时间配置过长,数据累积达到磁盘使用率上限

(C)业务规划不合理导致数据分配不均匀使部分磁盘达到使用率上限

(D)Broker 节点故障导致

答案:D

解析:Kafka告警提示磁盘容量不足并不一定是由于Broker节点故障导致的,而是因为Kafka存储数据的磁盘配置、数据保存时间配置以及业务规划导致的磁盘使用率达到上限。

1512、在 Flink 技术架构中,__是流处理和批处理的计算引擎 (大数据考点)

(A)Standalone

(B)Runtime

(C)DataStream

(D)FlinkCore

答案:B

解析:在Flink技术架构中,Runtime是流处理和批处理的计算引擎。因为Flink本身是一种流处理框架,而Runtime则提供了流处理和批处理两种不同的计算引擎,用于满足不同的数据处理需求。

1513、Spark 是以下种编程语言实现的? (大数据考点)

(A)C

(B)C++

(C)JAVA

(D)Scala

答案:D

解析:Spark是一种基于Scala语言实现的分布式大数据处理框架

1514、HBaseM 主 Master;是如何选举的? (大数据考点)

(A)随机选取

(B)由 RegionServer 进行裁决

(C)通过 Zookeeper 进行裁决

(D)HMaster 为双主模式,不需要进行裁决

答案:C

解析:HBase是一个开源的、分布式的、面向列的NoSQL数据库,其主Master选举通常是通过Zookeeper进行裁决的,以确保系统的稳定性和可靠性。

1515、下列哪条 HDFS 命令可用于检测数据块的完整性? (大数据考点)

(A)HDFS fsck/

(B)HDFS fsck-delete

(C)HDFS dfsadmin-report

(D)HDFS balancer-threshold1

答案:A

解析:HDFS fsck命令可用于检测HDFS文件系统的数据块的完整性。

1516、Fusioninsight HD 的 Loader 在创建作业时连接器有什么作用? (大数据考点)

(A)确定有哪些转换步骤

(B)提供优化参数提供数据导入导出性能

(C)配置作业如何与外部数据源进行连接

(D)配置作业如何与内部数据源进行连接

答案:C

解析:Loader的创建作业时的连接器在Fusioninsight HD中起着配置作业如何与外部数据源进行连接的作用。它负责确定作业如何与各种数据源(如文件、数据库等)进行交互,以确保数据能够正确、有效地导入到系统中。

1517、关于 Fusioninsight HD 中 Loader 作业描述正确的是? (大数据考点)

(A)Loader 将作业提交到 YARN 执行后,如果此时 Loade 相务异常,则此作业执行失败。

(B)Loader 将作业提交到 YARN 执行后,如果某个 Mapper 任务执行失败,能够自动进行重试

(C)Loade 作业执行失败后将会产生拉圾数据,需要用户手动清除

(D)Loader 将一个作业提交至 YARN 执行后,该作业执行完成前,不能再提交其他作业

答案:B

解析:在Fusioninsight HD中,Loader作业会将作业提交到YARN执行后,如果某个Mapper任务执行失败,能够自动进行重试

1518、Fusioninsight HD 系统中 HDFS 默认 Block Size 是多少? (大数据考点)

(A)32M

(B)64M

(C)128M

(D)256M

答案:C

解析:在Fusioninsight HD系统中的HDFS中,默认的块大小(Block Size)是128M。这个默认值是大数据相关的考点之一,因为它影响到HDFS的性能和存储效率。

1519、HBase 元数据 Meta Region 路由信保存在哪里? (大数据考点)

(A)Root 表

(B)Zookeeper

(C)HMaster

(D)Meta 表

答案:B

解析:HBase是一个开源的、分布式的、面向列的NoSQL数据库,用于存储非结构化和半结构化的数据。在HBase中,元数据(Meta Region)用于存储HBase集群的元数据信息,如数据表的结构、数据存储的位置等。由于HBase没有像Zookeeper这样的集中式管理服务,因此元数据的路由信息通常保存在Zookeeper中。

1520、Flume 支持监控并传輸目录下新增的文件,可实现数据传输。以上描述的是哪一类 source? (大数据考点)

(A)spooling directory source

(B)http source

(C)exec source

(D)syslog source

答案:A

解析:Flume支持监控并传输目录下新增的文件,这描述的是一种source,即spooling directory source。它主要用于大数据场景,用于实时监控并传输数据流。

1521、哪个模块是负责 Fusioninsight Manager 用户数据存储的? (大数据考点)

(A)CAS

(B)AOS

(C)Kerberos

(D)LDAP

答案:D

解析:在大数据领域,负责用户数据存储的模块通常是指用于管理用户身份和授权的目录服务(如LDAP,轻型目录访问协议)。

1522、关于 Hive 建表的基本操作,描述正确的是? (大数据考点)

(A)创建外部表的时需要指定 external 关键字

(B)一旦表创建好,不可再修改表名

(C)一旦表创建好,不可再修改列名

(D)一旦表创建好,不可再増加新列

答案:A

解析:Hive是一个大数据处理工具,用于进行数据提取、转换和加载(ETL)过程。在Hive中创建外部表时,需要指定"external"关键字,表示该表是可动态扩展的。一旦表创建好,可以进行修改表名和列名,也可以增加新列。

1523、YARN 调度器分配资源的顺序,下面那一个描述是正确的? (大数据考点)

(A)任意机器->同机架->本地资源

(B)任意机器->本地资源->同机架

(C)本地资源->同机架->任意机器

(D)同机架->任意机器->本地资源

答案:C

解析:在YARN调度器分配资源的顺序中,资源分配的顺序应该是从本地资源开始,然后是同机架的机器,最后是任意机器。这是因为YARN的设计理念是优先保障本地资源的使用,然后再考虑同机架的机器,最后才考虑其他机器。

1524、HBase 中一个 Region 进行 Split 操作时,将一个 HFile 文件真正分开到两个 Region 的过程发生在以下什么阶段? (大数据考点)

(A)Split 过程中

(B)Flush 过程中

(C)Compaction 过程中

(D)HFile 分开过程中

答案:C

解析:在HBase中,当一个Region进行Split操作时,是将一个HFile文件真正分开到两个Region的过程。这个过程发生在Compaction过程中,因为Compaction过程是用来合并小文件和清理无效数据的过程,而Split操作则是根据HFile的大小和数量来决定是否进行Region的分裂。

1525、HBase 的最小处理单元是 Region, User Region 和 Region Server 之间的路由信息是保存在哪里的? (大数据考点)

(A)Zookeeper

(B)HDFS

(C)Master

(D)meta 表

答案:A

解析:在HBase中,Region是最小的数据处理单元。而当User Region和Region Server之间需要进行路由信息时,这些信息是保存在Zookeeper中的。

1526、Fusioninsight HD 产品中。关于 Kafka 的说法不正确的是 (大数据考点)

(A)Kafka 强依赖于 Zookeeper

(B)Kafka 部署的实例个数不得小于 2

(C)Kafka 的服务端可以产生消息

(D)Consumer 作为 Kafka 的客户端角色进行消息的消费

答案:C

解析:Kafka本身就是一个可以产生消息的服务的端

1527、以下哪类数据不属于半结构化数据? (大数据考点)

(A)HTML

(B)XML

(C)二维表

(D)JSON

答案:C

解析:半结构化数据是指数据结构相对明确、规范,但部分内容或元素具有可变性的数据。HTML、XML、JSON都是半结构化数据,因为它们都有一定的规范和结构,但允许数据内容或元素的变异。而二维表虽然也是一种相对规范的数据结构,但它是一种完全结构化数据,所有元素都是固定的,不能属于半结构化数据。

1528、YARN 服务中,如果要给队列 QuqueA 设置容量为 30%,应该配置哪个参数 (大数据考点)

(A)YARN.scheduler.capacity.root.QueueA.user-limit-factor

(B)YARN.scheduler.capacity.root.QueueA.minimum-user-limit-percent

(C)YARN.scheduler.capacity.root.QueueA.capacity

(D)YARN.scheduler.capacity.root.QueueA.state

答案:C

解析:

1529、查看 Kafka 的某 Topic 的 partition 详细信息时,使用如下哪个命令? (大数据考点)

(A)bin/kafka-topic.sh -create

(B)bin/kafka-topic.sh -list

(C)bin/kafka-topic.sh -describe

(D)bin/kafka-topic.sh -delete

答案:C

解析:要查看Kafka的某Topic的partition详细信息,可以使用"bin/kafka-topic.sh -describe"命令。这个命令会返回特定Topic的相关信息,包括partition的数量、每个partition的消息数等。其他选项如"bin/kafka-topic.sh -create"、"bin/kafka-topic.sh -list"和"bin/kafka-topic.sh -delete"分别用于创建新的Topic、列出所有Topic和删除Topic,与查看partition详细信息无关。

1530、华为 Fusioninsight HD 系统中关于 HDFS 的 Data Node 的说法正确的是? (大数据考点)

(A)不会检查数据的有效性

(B)周期性地将本节点的 Block 相关信息发送给 NameNode

(C)不同的 DataNode 存储的 Block 一定是不同的

(D)一个 DataNode 上的 Block 可以是相同的

答案:B

解析:在华为Fusioninsight HD系统中,HDFS(Hadoop Distributed File System)的数据节点(Data Node)需要周期性地将本节点的Block相关信息发送给NameNode,以便NameNode能够了解数据存储的状态。这是确保数据有效性和一致性的重要措施。因此,"周期性地将本节点的Block相关信息发送给NameNode"是正确的说法。

1531、以下哪个不属于 Hadoop 中 Map Reduce 组件的持点? (大数据考点)

(A)易于编程

(B)良好的拓展性

(C)实时计算

(D)高容错性

答案:C

解析:MapReduce是Hadoop中的一个重要组件,它提供了将大规模数据集并行处理为结果的方式。它的主要优点包括易于编程、良好的拓展性和高容错性,因为它通过错误处理和恢复机制来确保数据处理的可靠性和稳定性。而实时计算通常与实时数据处理和实时分析相关,不属于MapReduce组件的优点。

1532、HBase 的某张表的 RowKey 划分 SplitKey 为 9,e,a,z 请问该表有几个 Region? (大数据考点)

(A)3

(B)4

(C)5

(D)6

答案:C

解析:在HBase中,表的Region数目是根据行的RowKey划分来决定的。如果当前的SplitKey为9,e,a,z,那么表被划分为5个Region,因为这些键值中间都存在着重叠的部分,HBase会将重叠的部分划分到不同的Region中。

1533、Hadoop 系统中关于客户端向 HDFS 文件系统上传文件说法正确的是? (大数据考点)

(A)客户端的文件数据经过 NameNode 传递给 DataNode

(B)容户端将文件划分为多个 Block,根据 DataNode 的地址信息,按顺序写入到每一个 DataNode 中

(C)客户端根据 Datanodel 的地址信息按顺序将整个文件写入每一个 DataNode 中然后由 DataNodel 将文件划分为多个 block

(D)客户端只上传数据到一个 DataNode,然后由 NameNode 负责 block 复制

答案:C

解析:在Hadoop系统中,客户端将文件上传到HDFS文件系统时,首先需要将文件数据按照DataNode的地址信息进行划分,并按照顺序将整个文件写入每一个DataNode中。然后,DataNode再将文件划分为多个block,并存储在本地。

1534、关于 Hive 中普通表和外部表的描述不正确的是? (大数据考点)

(A)默认创建普通表

(B)外部表实质是将已经存在 HDFS 上的文件路径跟表关联起来

(C)删除普通表时,元数据和数据同时被删除

(D)删除外部表时,只删除外部表数据而不删除元数据

答案:D

解析:在Hive中,普通表是默认创建的表类型,而外部表则是将已经存在HDFS上的文件路径与表关联起来。删除普通表时,元数据和数据同时被删除;而删除外部表时,只删除外部表的数据而不删除元数据。

1535、下列关于 Flink barrier 描述错误的是 (大数据考点)

(A)barrier 周期性的插入到数据流中并作为数据流的一部分随之流动

(B)barriers 是 Flink 快照的核心

(C)一个 barrier/将本周期快照的数据与下一周期快照的数据分隔开来

(D)在插入 barrier 的时候,会暂时阻断数据流

答案:D

解析:在Flink中,barrier是一个重要的概念,它被周期性地插入到数据流中并作为数据流的一部分随之流动。barriers是Flink快照的核心,一个barrier将本周期快照的数据与下一周期快照的数据分隔开来。在插入barrier的时候,数据流不会被暂时阻断。

1536、Fusioninsight Manager 对服务的配置功能说法不正确的是(大数据考点)

(A)服务级别的配置可対所有实例生效

(B)实例级别的配置只针对本实例生效

(C)实例级别的配置对其他实例也生效

(D)配置保存好需要重启服务才能生效

答案:C

解析:在Fusioninsight Manager中对服务的配置功能,实例级别的配置只对当前实例生效,而不会对其他实例生效。

1537、关于 Fusioninsight HD Streaming 的 Supervisor 描述正确的是? (大数据考点)

(A)Supervisors 负责资源的分配和任务的调度

(B)Superviso 负责接受 Nimbus 分配的任务,启动停止属于自己管理的 Worker 进程

(C)Supervisor 是运行具体处理逻辑的进程

(D)Supervisor 是在 Topology 中接收数据然后执行处理的组件

答案:B

解析:在题目的描述中,给出了Fusioninsight HD Streaming的Supervisor的描述,其中提到了Supervisor负责接受Nimbus分配的任务,启动、停止属于自己管理的Worker进程。

1538、Fusioninsight HD 系统审计日志不可用记录下面哪些操作? (大数据考点)

(A)手动清除警告

(B)启停服务实例

(C)删除服务实例

(D)查询历史监控

答案:D

解析:在Fusioninsight HD系统中,审计日志不可用记录通常与系统操作有关。选项A和B涉及警告和服务的启停,这些操作通常不会导致日志不可用。选项C涉及删除服务实例,这可能会影响系统日志。而选项D涉及查询历史监控,这通常不会影响系统日志。

1539、下列关于 HBase 的 BloomFilterf 特性理解不正确的是? (大数据考点)

(A)用来过滤数据

(B)用来优化随机读取的性能

(C)会増加存储的消耗

(D)可以准确判断某条数据不存在

答案:A

解析:HBase中的BloomFilter是一种用于优化随机读取性能的数据结构,它可以用来过滤数据,但在大数据考点中,它可以无法准确判断某条数据是否存在。

1540、下面关于 ZKFC 的说法错误的是? (大数据考点)

(A)ZKFC( ZKFailoverController)作为一个 Zookeeper 集群的客户端,用来监控 NameNode 的状态信息

(B)ZKFC 进程需要在 NameNode 的节点和 Zookeeper 的 Leader 节点中部署

(C)Standby Namenode 通过 Zookeeper 感知 Active Name Node 的状态,一旦 Active Namendes 岩机, Standby Namenode 就会执行升主操作

(D)HDFS Namenode 的 ZKFC 连接到 Zookeeper,把主机名等信息保存到 Zookeeper 中

答案:B

解析:根据题目中的描述,ZKFC(ZKFailoverController)作为一个Zookeeper集群的客户端,用来监控NameNode的状态信息。因此,选项A正确。选项B中提到ZKFC进程需要在NameNode的节点和Zookeeper的Leader节点中部署,这个说法并不准确。Standby namenode通过Zookeeper感知ActiveNameNode的状态,一旦ActiveNameNode宕机,StandbyNamenode就会执行升主操作,而选项C和D描述了这种工作机制。因此,选项B是错误的。

1541、HBase 中 Region 的物理存储单元是什么 (大数据考点)

(A)Reaion

(B)ColumnFamily

(C)Column

(D)Row

答案:B

解析:HBase是Hadoop生态系统中的一种分布式数据库,用于存储和检索大量数据。在HBase中,Region是物理存储单元,它是数据存储的基本单位。Region是由一个或多个HFile组成的,HFile是HBase中的数据文件。因此,答案ColumnFamily。

1542、Fusioninsight Manager 用户权限管理不支持哪个配置? (大数据考点)

(A)给用户配置角色

(B)给角色配置权限

(C)给用户组配置角色

(D)给用户组配置权限

答案:D

解析:在Fusioninsight Manager中,用户权限管理支持的是给用户配置角色(A选项正确),而不是给用户组配置权限(D选项错误)。这是因为用户组是用来将多个用户组织在一起的一种方式,而权限管理是对用户或角色所拥有的特定功能或资源进行配置的过程。因此,给用户组配置角色不是Fusioninsight Manager用户权限管理的配置方式。

1543、HDFS 的 NameNode 节点主备状态管理及元数据文件合并分別由哪两个角色负责? (大数据考点)

(A)ZKFC 和备 NameNode

(B)主 Namenode 和备 NameNode

(C)ZKFC 和主 NameNode

(D)主 NameNode 和 JournalNode

答案:A

解析:HDFS(Hadoop Distributed File System)的NameNode节点主备状态管理及元数据文件合并分别由ZKFC(ZooKeeper Failover Controller)和备NameNode负责。这是大数据领域的一个考点。

1544、Fusioninsight HD HBase 默认使用什么作为其底层文件存储系统? (大数据考点)

(A)HDFS

(B)Hadoop

(C)Memory

(D)MapReduce

答案:A

解析:Fusioninsight HD HBase是一种基于Hadoop的大数据存储系统,它默认使用HDFS作为其底层文件存储系统。HDFS是Hadoop分布式文件系统(Hadoop Distributed File System)的简称,是一种高度容错性的分布式文件系统,适合在大量廉价服务器上使用。

1545、下面关于 Zookeeper 的持性描述错误的是? (大数据考点)

(A)客户端所发送的更新会按照他们被发送的顺序进行应用

(B)一条消息要被超过半故的 Server 接收,他将可以成功写入磁盘

(C)消息更新只能成功或失败,没有中间状态

(D)Zookeeper 节点数必须为奇数个

答案:D

解析:因为Zookeeper集群中节点个数可以是奇数也可以是偶数个。

1546、当 Zookeeper 集群的节点数为 5 节点时,请问集群的容灾能力和多少节点是等价的? (大数据考点)

(A)3

(B)4

(C)6

(D)以上都不是

答案:C

解析:当Zookeeper集群的节点数为5节点时,其容灾能力理论上是可以支持最大节点数为5的集群,因为Zookeeper是一个分布式协调服务,能够处理集群内的状态同步和故障恢复等问题。但是,当节点数增加到一定程度时,集群的性能和稳定性可能会受到影响,因此需要权衡。在实际情况中,通常建议至少配置一个额外的备份节点以提高容灾能力。因此,当集群节点数为5时,与等效的容灾能力相关的节点数为6。

1547、部署 Fusioninsight HD 时,同一集群内的 FlumeServer 节点建议至少部署几个? (大数据考点)

(A)1

(B)2

(C)3

(D)4

答案:B

解析:在部署Fusioninsight HD时,同一集群内的FlumeServer节点建议至少部署两个。这是因为Fusioninsight HD是一个大数据平台,需要保证数据的安全性和可靠性,同时也要考虑集群的负载均衡。因此,为了确保系统的稳定性和可靠性,同一集群内的FlumeServer节点应该至少部署两个。

1548、Kafka 集群中, Kafka 服务端的角色是 (大数据考点)

(A)Producer

(B)Consumer

(C)Zookeeper

(D)Broker

答案:D

解析:在Kafka集群中,Broker是Kafka服务端的角色,负责接收并处理Producer发送的消息以及Consumer的消费请求。

1549、Hadoop 平台中启用 YARN 组件的日志聚集功能需要配置哪个参数? (大数据考点)

(A)YARN.nodemanager.local-dir

(B)YARN. nodemanager.log-dirs

(C)YARN.acl.enable

(D)YARN.log-aggregation-enable

答案:D

解析:在Hadoop平台中启用YARN组件的日志聚集功能需要配置YARN.log-aggregation-enable参数。这个参数用于开启或关闭日志的聚合功能,以便将分散在各个节点上的日志文件集中到一个或几个指定的存储点,方便后续的故障排查和分析。

1550、如图,以下关于 Kafka 消息消费者 Consumen 读取消息的描述,错误的有? (大数据考点)

(A)图片中的蓝色为 Kafka 的ー个 topic,即可以理解为队列,每个格子代表一条消息

(B)生产者产生的消息逐条放到 topic 的未尾

(C)消费者从右至左顺序读取消息

(D)Consumer 使用 offset 来记录读取的位置

答案:C

解析:Kafka 消费者实际上并不会从右到左顺序读取消息。在 Kafka 中,消息是以分区为单位进行存储的,而每个分区中的消息都有一个唯一的偏移量(offset)。消费者会根据偏移量来读取消息,通常情况下是从较小的偏移量向较大的偏移量进行顺序读取。换句话说,Kafka 消费者通常会按照消息的存储顺序逐步地读取消息,而不是从右到左。

1551、Hadoop 平台中 HBase 的 Region 是由哪个服务进程来管理? (大数据考点)

(A)HMaster

(B)DataNode

(C)RegionServer

(D)Zookeeper

答案:C

解析:在Hadoop平台中,HBase是一个基于Hadoop的分布式数据库,其Region是由一个或多个RegionServer来管理的。HMaster主要负责协调和管理整个HBase集群,而DataNode则负责存储和传输数据。Zookeeper主要用于协调和管理HBase集群中的各种元数据和服务。因此,答案是RegionServer。

1552、在 Fusioninsight Manager 界面中,对 loader 的操作不包括下列哪个选项? (大数据考点)

(A)切换 Loader?主备节点

(B)启动 oader 实例

(C)配置 loader 参数

(D)查看 lolder 服务状态

答案:A

解析:在Fusioninsight Manager界面中,对loader的操作主要包括启动实例、配置参数和查看服务状态等。"切换Loader主备节点"不属于这些操作,因此是正确答案。

1553、Zookeeper 的 scheme 认证方式不包含以下哪项? (大数据考点)

(A)sasl

(B)auth

(C)digest

(D)World

答案:D

解析:Zookeeper是一种分布式协调服务,它提供了分布式锁、配置管理、命名服务等基础服务。认证方式是Zookeeper安全性的重要组成部分。sasl是简单认证协议,而Zookeeper支持的认证方式还包括auth(基于密码的认证)和digest(基于摘要的认证)。

1554、Fusioninsight HD 系统中,LDAP 数据同步方式是哪个? (大数据考点)

(A)单向同步

(B)双向同步

(C)隔离不同步

(D)数据交叉同步

答案:A

解析:在Fusioninsight HD系统中,LDAP数据同步方式通常采用单向同步的方式。这是因为LDAP(轻量级目录访问协议)主要用于数据存储和检索,而单向同步可以确保数据从源系统向目标系统单向传输,同时保持数据的一致性和准确性。

1555、Fusioninsight HD 中 loader 从 SFTP 服务器导入文件时,不需要做编码转换和数据转换目速度最快的文件类型是以下项? (大数据考点)

(A)sequence_file

(B)text_file

(C)binary_file

(D)graph_file

答案:C

解析:在Fusioninsight HD中,loader从SFTP服务器导入文件时,需要确保文件类型和系统编码的匹配。sequence_file、text_file和graph_file是Fusioninsight HD支持的文件类型,其中binary_file为二进制文件类型,无需进行编码转换和数据转换,因此速度最快。

1556、SolrCloud 模式是集群模式,在此模式下 Solr 服务器强依赖于以下哪个服务? (大数据考点)

(A)HBase

(B)HDFS

(C)ZooKeeper

(D)YARN

答案:C

解析:在SolrCloud集群模式下,Solr服务器依赖于ZooKeeper服务进行集群管理和协调。ZooKeeper提供了分布式一致性解决方案,确保数据在SolrCloud集群中的一致性和可用性。

1557、Fusioninsight HD 系统中,下面哪个方法不能查看到 Loader 作业执行的结果? (大数据考点)

(A)通过 YARN 任务言理查

(B)通过 Loader UI 界面查

(C)通过 Manager 的告警查看

(D)通过 NodeManager 查看

答案:D

解析:在Fusioninsight HD系统中,可以通过多种方式查看Loader作业执行的结果。其中,通过NodeManager查看并不是一个有效的方法,因为NodeManager是Hadoop集群中负责处理任务执行的具体节点,而Loader作业的执行结果应该通过其他方式进行查看。

1558、以下关于 Kafka partition 偏移量的描述不正确的是? (大数据考点)

(A)消费者通过( offset、 partition、 topic)跟踪记录

(B)唯一标记一条消息

(C)offset 是-个 String 型字符串

(D)每条消息在文件中的位置称为 offset(偏移量)

答案:C

解析:Kafka中的partition偏移量是唯一标记一条消息的ID,记录了消息在分区中的位置,即每条消息在文件中的位置。因此,选项B和D是正确的描述。offset是一个整数值,表示消息在分区中的顺序。消费者通过(offset、partition、topic)来跟踪记录。而offset是一个String型字符串是不正确的描述。

1559、下图为 fume 数据传输架构,图中"?"号处的组件是? (大数据考点)

(A)Interceptor

(B)Channel processor

(C)Channel selector

(D)以上全不正确

答案:C

解析:根据图中所示的fume数据传输架构,?号处应该是负责选择通道的组件,即Channel Selector。 Interceptor通常用于拦截传输数据包以执行特定的处理或监控,不符合图中要求; Channel processor可能用于处理和发送接收到的通道数据,也不符合要求; 所以答案是Channel selector。

1560、Fusioninsight manager 不能够管理哪个对象? (大数据考点)

(A)Spark

(B)主机 OS

(C)YARN

(D)HDFS

答案:B

解析:Fusioninsight manager是一款大数据管理工具,它可以管理Spark、YARN和HDFS等对象,而不能直接管理主机OS对象。

1561、下面关于 Zookeeper 持性的描述错误的是? (大数据考点)

(A)Zookeeper 节点数必须为奇数个

(B)客户端所发送的更新会按照它们被发送的顺序进行应用。

(C)消息更新只能成功或者失败,没有中间状态

(D)一条消息要被超过半数的 Server 接收,它将可以成功写入磁盘

答案:A

解析:在Zookeeper中,节点的数量没有特别要求,可以是奇数个也可以是偶数个

1562、某用户需要搭建一个 350 节点的 FusioninsightHD 集群,哪种规划方案最佳? (大数据考点)

(A)管理节点、控制节点、数据节点合一部暑,二层组网

(B)管理节点、控制节点合部署、数据节点独立部暑,二层组网

(C)管理节点、控制节点、数据节点都独立部暑,三层组网

(D)管理节点、数据节点合一部暑,控制节点独立部暑,二层组网

答案:C

解析:在搭建一个大型集群时,如题目的FusioninsightHD集群,需要考虑多个节点的布局和管理。为了确保系统的高效性和稳定性,通常会将管理节点、控制节点和数据节点进行独立的部署。这是因为不同的节点需要各自负责不同的任务,以便更好地协调工作。在题目的选项中,C选项描述了管理节点、控制节点和数据节点都独立部署,并采用三层组网的方式,这是最佳的规划方案。

1563、加载数据到 Hive 表,哪种方式不正确? (大数据考点)

(A)直接将本地路径的文件 load 到 Hive 表中

(B)将 HDFS 上的额文件 load 到 Hive 表中

(C)Hie 支持 insert into 单条记录的方法,所以可以直接在命令行插入单条记录

(D)将其他表的结果集 insert into 到 Hive 表中

答案:C

解析:Hive 是一个基于 Hadoop 的数据仓库基础架构,它本身并不支持直接在命令行插入单条记录的方法。因此,选项C是不正确的。其他选项如将本地路径的文件或HDFS上的文件load到Hive表中,或者将其他表的结果集insert到Hive表中,都是正确的方式。

1564、YARN 中设置队列 QueueA 的最大使用资源量,需要配置哪个参数? (大数据考点)

(A)yarn.scheduler.capacity.root.QueueA.user-limit-factor

(B)yarn.scheduler.capacity.root.QueueA.minimum-user-limit-percent

(C)yarn.scheduler.capacity.root.QueueA.state

(D)yarn.scheduler.capacity.root.QueueA.maximum-capacity

答案:D

解析:在YARN中,队列是资源分配的基本单位。设置队列的资源使用上限需要配置队列的配置参数。选项D"yarn.scheduler.capacity.root.QueueA.maximum-capacity"是设置队列最大使用资源量的参数。其他选项分别涉及不同的参数设置,与设置队列最大使用资源量无关。

1565、FusioninsightHD 系统中 HDFS 的 Block 默认保存几份? (大数据考点)

(A)3

(B)2

(C)1

(D)不确定

答案:A

解析:在FusioninsightHD系统中,HDFS的Block默认保存多份,用以保证数据的安全性和可用性。具体来说,Block默认保存3份,以提高数据的可靠性和稳定性。

1566、FusioninsightHD 中 Loader 实例必须与哪个实例部署在一起? (大数据考点)

(A)DataNode

(B)ReaionServer

(C)ResourceManager

(D)NodeManager

答案:D

解析:在FusioninsightHD中,Loader实例必须与NodeManager实例部署在一起。Loader负责将数据加载到HDFS中,而NodeManager是HDFS集群中的节点管理器,负责管理HDFS集群中的数据节点。

1567、Streaming 主要通过 Zookeeper 提供的以下哪项服务实现事件侦听? (大数据考点)

(A)分布式侦机制

(B)ACK

(C)Watcher

(D)Checkpoint

答案:C

解析:在大数据领域,流处理是一种常用的数据处理方式,而Zookeeper作为一种分布式协调服务,被广泛应用于流处理场景中。在Zookeeper中,Watcher服务是用于实现事件侦听的重要机制,它能够让客户端订阅某个数据或路径的变化,并在变化发生时触发相应的处理逻辑。

1568、Flink 中的__接口用于流数据处理,__接口用于批处理? (大数据考点)

(A)Datastream Apl,DataSet API

(B)Data batch APL, DataStream API

(C)Stream API, Batch API

(D)Batch API, Stream API

答案:A

解析:在Flink中,流数据处理通常使用DataStream API,而批处理则使用DataSet API。

1569、Kafka 集群在运行期间,直接依赖于下面那些组件? (大数据考点)

(A)Zookeeper

(B)HDFS

(C)Spark

(D)HBase

答案:A

解析:Kafka集群在运行期间,需要一个协调服务来管理集群的状态和配置,而Zookeeper就是这样一个服务。它负责维护Kafka中topic的元数据信息,如分区分配、复制协议等。因此,直接依赖于Zookeeper组件。

1570、FusioninsightHD 使用 HBase 客户端批量写入 10 条数据,某个 Regionserver 节点上包含该表的 2 个 Region,分别 A和B,10 条数据中有两条属于A,4 条属于B,请问写入这 10 条数据需要向该 Regionserver 发送几次 RPC 请求? (大数据考点)

(A)1

(B)2

(C)3

(D)4

答案:A

解析:在FusioninsightHD中使用HBase客户端批量写入数据时,每个Region都会被单独处理。由于该表包含两个Region,即A和B,其中A包含两条数据,B包含四条数据,因此每次写入操作只会向该Regionserver节点发送一次RPC请求。所以,对于这10条数据,只需要向该Regionserver节点发送一次RPC请求即可。

1571、Hadoop 的 HBase 不适合哪些数据类型的应用场景? (大数据考点)

(A)大文件应用场景

(B)海量数据应用场景

(C)高吞吐率应用场景

(D)半结构化数据应用场景

答案:A

解析:HBase是Hadoop生态系统中的一种分布式数据库,主要用于处理大规模的非结构化和半结构化数据。对于大文件应用场景,由于HBase的设计主要是为了提高存储和查询效率,而不是处理大文件,因此它可能不是最佳选择。其他选项,如海量数据应用场景、高吞吐率应用场景和半结构化数据应用场景,HBase都可以很好地处理.

1572、Fusioninsight HD Loader 作业前后需要哪些节点与外部数据源通讯? (大数据考点)

(A)Loader 服务主节点

(B)运行 YARN 服务作业的节点

(C)前面两个都需要

(D)前面两个都不需要

答案:C

解析:根据题目中的描述,Fusioninsight HD Loader作业前后需要与外部数据源进行通讯。由于没有明确指出是作业前还是作业后,所以选项A和B都有可能正确。但是考虑到题目的考点是大数据技术,因此更可能是指作业前后都需要进行通讯。因此,正确答案是C,即"前面两个都需要"。

1573、安装 Fusioninsight HD 安装流程正确的是 (大数据考点)

(A)安装 Manager->执行 preinstall->LLD 工具进行配置->安装集群->安装后检查->安装后配置

(B)LLD 工具进行配置->执行 preinstall->安装 Managers->安装集群->安装后检査->安装后配置

(C)安装 Manager->LLD 工具进行配置->执行 preinstall->安装集群->安装后检通->安装后配置

(D)LLD 工具进行配置->执行 preinstall->安装集群->安装 Manager->安装后检查->安装后配置

答案:B

解析:根据题目描述,需要选择正确的Fusioninsight HD安装流程。根据选项描述,"LLD 工具进行配置-执行 preinstall-安装 Managers-安装集群-安装后检查-安装后配置"是正确的安装流程,其他选项都存在一定的错误或者不符合题目描述。

1574、HBase 中数据存储的文件格式是什么? (大数据考点)

(A)HFile

(B)HLog

(C)TextFile

(D)SequenceFile

答案:A

解析:HBase是一种基于Hadoop的分布式数据库,它使用HFile作为数据存储的文件格式。HFile是一种二进制文件格式,用于存储HBase中的数据和索引信息。HLog是HBase中的日志文件,用于记录数据修改操作。TextFile和SequenceFile是传统的文件格式,通常用于存储文本数据。

1575、以下关于 Kafka 的描述错误的有() (大数据考点)

(A)用作活动流和运营数据处理管道的基础

(B)由 Apache Hadoop 开发并于 2011 年开源

(C)具有信息持久化、高吞吐、实时等特性

(D)使用 Scala,Java 语言实现

答案:B

解析:Kafka是由Apache Kafka开发并开源的,而不是由Apache Hadoop开发的。Hadoop是一个用于大数据处理的开源平台,而Kafka是一个流处理平台,用于实时数据流的处理和存储。

1576、假设每个用户最低资源保障设置为 YARN. scheduler. capacity. root. QueueA.minimum-User- limit-percent=25,则以上说法错误的是 (大数据考点)

(A)第 4 个用户提交任务时每个用户最多获得 25%的资源

(B)第 2 个用户提交任务时每个用户最多获得 50%的资源

(C)第 3 个用户提交任务时每个用户最多获得 33.33%的资源

(D)第 5 个用户提交任务时每个用户最多获得 20%的资源

答案:D

解析:根据题目中的描述,每个用户最低资源保障设置为YARN. scheduler. capacity. root. QueueA.minimum-User-limit-percent=25%,这意味着当一个队列的资源需求超过系统资源的百分比时,系统会按照这个百分比来分配资源。因此,第4个用户提交任务时最多获得25%的资源,第2个用户提交任务时最多获得50%的资源,第3个用户提交任务时最多获得33.33%的资源。

1577、下列选项中适合 MapReduce 的场景有? (大数据考点)

(A)离线计算

(B)实时交互计算

(C)迭代计算

(D)流式计算

答案:A

解析:MapReduce是一种处理和生成大数据集的编程模型,它适合处理大规模数据集的离线计算任务。因此,适合MapReduce的场景应该是那些需要离线处理的大数据集的计算任务,如数据分析、数据挖掘等。"离线计算"恰好符合这个要求,因此是正确答案。 对于其他选项,实时交互计算通常使用分布式计算框架如Apache Storm或Apache Flink,而不是MapReduce;迭代计算虽然适合使用MapReduce,但不是最适合的场景;流式计算也是适合使用分布式计算框架如Apache Flink或Apache Kafka,而不是MapReduce。

1578、Flume 数据采集过程中,下列选项中能对数据进行过潓和修饰的是 (大数据考点)

(A)Channel

(B)Channel Selector

(C)Interceptor

(D)Sink

答案:C

解析:无

1579、YRAN 的基于标签调度,是对下列选项中的哪个进行标签化? (大数据考点)

(A)APPMaster

(B)ResourceManager

(C)Container

(D)NodeManager

答案:D

解析:无

1580、以下哪些选项属于 Fusioninsight SPARKSQLA 的优点? (大数据考点)

(A)支持数据插入、更新和删除

(B)长稳测试

(C)稳定和高性能

(D)SQL 兼容性

(E)以上全部正确

答案:E

解析:无

1581、硬件故障被认为是常态,为了解决这个向题,HDFS 设计了副本机制。默认情况下,一份文件,HDFS 会存()份? (大数据考点)

(A)1

(B)2

(C)3

(D)4

答案:C

解析:无

1582、下列选项中,关于 Zookeeper 可靠性含义说法正确的是? (大数据考点)

(A)可靠性通过主备部署实现

(B)可靠性是指更新只能成功或者失败,没有中间状态

(C)可靠性是指无论哪个 Server 对外展示的均是同一个视图

(D)可靠性是指一条消息被一个 Server 接收,它将被所有 Server 接受

答案:D

解析:无

1583、以下关于 Hive SQL 基本操作描述正确的是 (大数据考点)

(A)加载数据到 Hive 时源数据必须是 HDFS 的一个路径

(B)创建外部表必须要指定 location 信息

(C)创建表时可以指定列分隔符

(D)创建外部表使用 external 关键字,创建普通表需要指定 internal 关键字

答案:C

解析:无

1584、安装 Fusioninsight HDI 的 Streaming 组件时,Nimbus 角色要求安装几个节点 (大数据考点)

(A)1

(B)2

(C)3

(D)4

答案:B

解析:无

1585、在 Zookeeper 和 YARN 的协同工作中,当 Active Resource Manager 产生故障时, Standby ResourceManager 会从以下哪个目录中获眼 Application 相关信息? (大数据考点)

(A)Warehouse

(B)Meta store

(C)State store

(D)Storage

答案:C

解析:无

1586、关于 DataSet,下列说法不正确的是? (大数据考点)

(A)DataSet 是一个由特定域的对象组成的强类型集合

(B)DataSet 不需要反串行化就可执行大部分操作

(C)DataSet 执行 sort、 filter、 shuffle 等操作需要进行反串行化

(D)DataSet 与 RDD 高度类似性能比 RDD 好

答案:C

解析:无

1587、RDD 作为Spark 最核心的对象,具有以下哪些特点?(大数据考点)

(A)只读

(B)分区

(C)容错

(D)高效

答案:ABCD

解析:RDD(弹性分布式数据集)作为Spark最核心的对象,具有以下特点:A. 只读(Immutable):RDD是只读的数据集,一旦创建就不能进行修改。如果需要对RDD进行变换或操作,会生成一个新的RDD。B. 分区(Partitioned):RDD将数据划分为多个分区进行并行处理。每个RDD可以包含多个分区,每个分区都是数据的一个子集,在集群中的不同节点上进行计算。C. 容错(Fault-tolerant):RDD通过记录数据转换的一系列操作(称为lineage)来实现容错性。如果某个分区丢失,Spark可以使用lineage来重新计算丢失的分区。D. 高效(Efficient):RDD支持内存计算,可以将数据存储在内存中,提供了高速的数据访问和处理能力。此外,RDD还可以通过数据分区和并行处理来实现高效的计算。因此,正确答案是ABCD。

1588、Fusionlnsight HD 中,在实时处理场景中,可使用的计算框架有哪些?(大数据考点)

(A)Spark Streaming

(B)Streaming

(C)MapReduce

(D)HDFS

答案:AB

解析:在 FusionInsight HD 中的实时处理场景中,通常可以使用以下两个计算框架:A. Spark Streaming:Spark Streaming 是基于 Spark 引擎的流式计算框架。它允许在实时流数据上进行高性能、高可扩展性的处理和分析,具有容错性、 exactly-once 语义和弹性的特点。B. Streaming(即 Storm):Streaming(也称为 Storm)是一个开源的、实时流式处理系统,可以进行实时流数据的分布式计算和处理。它支持容错、可扩展性、高吞吐量等特性,适用于需要低延迟和高吞吐量的实时处理场景。C. MapReduce:MapReduce 是一种批处理计算模型,并不适用于实时处理场景。D. HDFS:HDFS 是分布式文件系统,提供了大规模数据存储和访问的能力,不是专门用于实时计算的框架。

1589、下列哪些原因会导致 HDFS的 NameNode 进入 safemode(安全只读模式)?(大数据考点)

(A)主备 NameNode 的元数据所在磁盘空间不足。

(B)丢失块数超过阈值。

(C)丢失副本超过阈值。

(D)损坏副本超过阈值。

答案:AB

解析:HDFS中的NameNode是集群的关键节点,它维护着整个文件系统命名空间以及数据块的元数据。当某些情况发生时,NameNode可能会进入安全模式(safemode),该模式下集群处于只读状态,无法写入新的数据块。常见导致NameNode进入安全模式的原因有以下几种:A. 主备NameNode的元数据所在磁盘空间不足。B. 丢失块数超过阈值。默认情况下,当一个数据块的副本数小于存储这个数据块的最小副本数(dfs.replication.min)时,该数据块就被认为是丢失的。C. 丢失副本超过阈值。当某个数据块全部副本都失效时,该数据块就被认为是丢失的。如果丢失的副本数超过了阈值,则NameNode会进入安全模式。D. 损坏副本超过阈值。当某个数据块的所有副本都损坏或丢失时,该数据块就被认为是损坏的。如果损坏的副本数超过了阈值,则NameNode会进入安全模式。因此,本题的正确答案是A、B。

1590、对于 Fusioninsight HD 平台的HBase 组件,增加二级索引需要定义二级索引的哪些属性?(大数据考点)

(A)索引名

(B)索引列

(C)索引列类型

(D)索引列所归属的列族名称

答案:ABCD

解析:对于FusionInsight HD平台的HBase组件,如果需要增加二级索引,需要定义以下属性:A. 索引名:为二级索引指定一个唯一的名称,用于标识该索引。B. 索引列:选择需要创建索引的列或多个列作为索引列。C. 索引列类型:指定索引列的数据类型,如字符串、整数等。D. 索引列所归属的列族名称:指定索引列所属的列族,以便将索引存储在对应的列族中。在HBase中,使用二级索引可以提高数据的检索效率。通过定义索引名、索引列、索引列类型和索引列所归属的列族名称,可以灵活地创建和管理二级索引。因此,本题的正确答案是ABCD

1591、Fusioninsight HD 中,关于HiveUFD 二次开发,如下描述正确的是?(大数据考点)

(A)用户自定义的 UDF 在被使用之前,需要先在Hive 系统中创建此 UD只

(B)用户自定义的UDF,不允许加入汇总和状态等信息。

(C)用户自定义的UDF,可以根据实际情况添加 deterministic 和 statefull 等注解。

(D)安全集群下,用户自定义的UDF,建议在每次使用前都创建一次。

答案:AC

解析:在FusionInsight HD中,对于Hive UDF的二次开发,以下描述是正确的:A. 用户自定义的UDF在被使用之前需要先在Hive系统中创建。这可以通过在Hive客户端中执行CREATE FUNCTION命令或通过将UDF添加到Hive的路径中来实现。只有在创建了UDF之后,才能在Hive中使用它。B. 用户自定义的UDF可以加入汇总和状态等信息。例如,可以使用注解来指示UDF是否具有确定性,以及UDF是否保持内部状态。因此,选项B描述是不正确的。C. 用户自定义的UDF可以根据实际情况添加deterministic和statefull等注解。deterministic注解用于指示UDF是否具有确定性,即相同的输入是否始终生成相同的输出。statefull注解用于指示UDF是否保持内部状态,即UDF是否需要在多个输入之间保留某些信息。这些注解可以帮助Hive优化查询计划并提高查询性能。D. 在安全集群中,用户自定义的UDF建议在每次使用之前都创建一次。这可以确保UDF的注册信息是最新的,并且可在多个节点上使用。因此,本题的正确答案是A、C。

1592、HDFS 客户端以 N 副本写文件时,下列关于写过程正确的是?(大数据考点)

(A)每个 DataNode 最多存储1个副本。

(B)支持多用户同时对同一文件的写操作。

(C)数据块的第一个副本优先放在写入数据块的客户端所在的节点。

(D)复制的文件块默认都存在同一机架上。

答案:AC

解析:关于HDFS客户端以N副本写文件的过程,以下描述是正确的:A. 每个DataNode最多存储1个副本。在HDFS中,一个文件通常被划分成多个数据块,并在集群中的多个DataNode上进行存储。每个数据块都有多个副本,但是每个DataNode只会存储一个副本。B. 支持多用户同时对同一文件的写操作。HDFS支持并发写操作,不同的用户可以同时对同一个文件进行写操作,HDFS会确保数据的一致性和可靠性。C. 数据块的第一个副本优先放在写入数据块的客户端所在的节点。在写入新的数据块时,HDFS会将第一个副本放在与客户端相同的节点上。这样可以减少数据传输的开销,提高写入速度。D. 复制的文件块默认都存在同一机架上。这个描述是不正确的。HDFS在存储文件的多个副本时,会尽量将副本分布在不同的机架上,以增加数据的可靠性和容错性。因此,本题的正确答案是A、C。

1593、Fusionlnsight HD 系统中,Hive 支持的接口类型有哪些?(大数据考点)

(A)JDBC 接口

(B)ODBC 接口

(C)Python 接口

(D)Ruby 接口

答案:ABC

解析:FusionInsight HD系统中,Hive支持的接口类型包括:A. JDBC接口:Java数据库连接(Java Database Connectivity,简称JDBC)是一种Java语言中用来规范客户端程序如何来访问数据库的应用程序接口,Hive提供了JDBC接口用于访问数据。B. ODBC接口:开放数据库连线(Open Database Connectivity,简称ODBC)是微软提供的一种访问数据库的标准API,Hive提供了ODBC接口用于访问数据。C. Python接口:Hive提供了Python语言的支持,Python开发人员可以通过PyHive库,使用Python接口来访问Hive存储。D. Ruby接口:本身Hive并不支持Ruby接口,需要借助第三方开源库,比如Hive-Ruby等。因此,本题的正确答案是A、B、C。

1594、FusionInsigt HD 中,一个应用程序若要完成 Kerberos 安全认证,以下哪些选项是必须用到的?(大数据考点)

(A)krb5.conf 配置文件

(B)在 FusionInsight Manager 上申请的用户账号

(C)用户账号的keytab 文件

(D)jaas.conf 配置文件

答案:ABC

解析:要在FusionInsight HD中完成Kerberos安全认证,必须使用以下选项:A. krb5.conf配置文件:krb5.conf是Kerberos客户端的配置文件,其中包含了Kerberos服务器的信息、默认域等配置,用于指定Kerberos认证相关的参数。B. 在FusionInsight Manager上申请的用户账号:为了进行Kerberos认证,用户需要在FusionInsight Manager上创建并配置相应的用户账号,并将该账号与Kerberos主体进行绑定。这样用户才能使用Kerberos认证登录。C. 用户账号的keytab文件:keytab文件是存储Kerberos主体的密钥信息的文件,它包含了用户账号的加密凭证。在进行Kerberos认证时,用户需要使用正确的keytab文件才能成功进行认证。D. jaas.conf配置文件:jaas.conf配置文件是Java认证和授权服务(JAAS)的配置文件,在FusionInsight HD中对Kerberos认证并不是必须的。因此,正确答案是ABC。

1595、对 HBase 的列族,可以设置如下哪些属性?(大数据考点)

(A)Versions

(B)TTL

(C)Coprocessor

(D)Compression

答案:ABD

解析:在HBase中,列族是表的基本组成部分之一,可以设置以下属性:A. Versions:指定版本数,表示保存最新的n个版本的数据,旧版本数据将会被删除。B. TTL:缩写词"Time To Live",即生存时间,它控制版本在何时过期并被删除。如果TTL设置为0,则禁用GC。C. Coprocessor:协处理器是一个可插入的代码模块,可扩展HBase功能。虽然它不能直接添加到列族,但可以作为表级别的配置选项使用。D. Compression:指定对该列族的所有数据使用的压缩方式,包括Gzip、LZO等多种选项。因此,正确答案是ABD。

1596、Fusionlnsight HD 中,哪些组件对外提供 SQL或类 SQL 能力?(大数据考点)

(A)HBase

(B)Hive

(C)Spark

(D)Redis

答案:BC

解析:在FusionInsight HD中,以下组件对外提供SQL或类SQL能力:B. Hive:Hive是一种基于Hadoop的数据仓库基础设施,它提供了类似SQL的查询语言(HiveQL),使得用户可以通过编写SQL语句来查询和分析存储在Hadoop集群中的数据。C. Spark:Spark是一个快速、通用的集群计算系统,它支持使用SQL查询和处理大规模数据,并且具有高效的内存计算能力。因此,正确答案是BC。HBase和Redis提供了键值对数据库的功能,不直接提供SQL或类SQL能力。

1597、在线日志查询方案中,采用了?处理来完成计算工作,整个计算过程中,需要将中间计算结果暂时存放,下列哪些组件适合存储中间计算结果?(大数据考点)

(A)HDfS

(B)HBase

(C)Kafka

(D)Redis

答案:CD

解析:在线日志查询方案通常采用流式计算来实现,其中需要将中间计算结果暂时存放以供后续使用。以下是适合用于存储中间计算结果的组件:C. Kafka:Kafka是一个高吞吐量、分布式的消息传递系统,它支持多个消费者并行读取同一个主题的消息,并且可以保证数据的可靠性和顺序性。D. Redis:Redis是一种高性能的键值对数据库,它有很好的内存管理机制,并且支持数据的持久化存储。HDFS和HBase都是分布式存储系统,不太适合存储中间计算结果,因为它们的写入速度相对较慢,而且在写入小文件时会浪费存储空间。

1598、HDFS 客户端以 N 副本向 HDFS写文件时,若其中一个副本写入失败,则所有副本都会返回写入失败。(大数据考点)

(A)正确

(B)错误

答案:B

解析:当HDFS客户端以N副本向HDFS写文件时,如果其中一个副本写入失败,并不会导致所有副本都返回写入失败。相反,HDFS会尝试将数据复制到其他可用的副本上,以确保数据的冗余性和可靠性。HDFS采用了数据块的分布式存储方式,将文件切分为多个数据块,并将这些数据块复制到不同的DataNode上作为副本。在写入过程中,HDFS会首先将数据写入到一个DataNode上,然后该DataNode会将数据复制到其他的DataNode上,以达到指定的副本数。如果其中一个副本写入失败,HDFS会重新选择另一个可用的DataNode进行复制,以确保满足副本数要求。因此,即使某个副本写入失败,其他副本仍然可以继续写入成功。

1599、HiveServer 将用户提交的 HQL 语句进行编译解析成对应的 Yarn 任务、 Spark 任务或者 HDPS 操作,从而完成数据的提取、转换、分析。(大数据考点)

(A)正确

(B)错误

答案:A

解析:无

1600、用户权限管理基于角色的访问控制(RBAC),提供可视化的多组统一的集群中用户权限管理。 (大数据考点)

(A)正确

(B)错误

答案:A

解析:无

1601、Flink 中的 TaskSlot 主要用于资源隔离,其中包含内存资源和 CPU 资源。 (大数据考点)

(A)正确

(B)错误

答案:B

解析:无

1602、一个典型的 Kafka 集群包含若干 Producer,若干 Broker,若干 Consumer 和一个 Zookeeper 集群。 (大数据考点)

(A)正确

(B)错误

答案:A

解析:无

1603、鲲鹏计算产业是基于 Kunpeng 处理器构建的全栈 IT 基础设施、行业应用及服务,包括 PC、服务器、存储、操作系统、中间件、虚拟化、数据库、云服务、行业应用以及咨询管理服务等。(大数据考点)

(A)正确

(B)错误

答案:A

解析:无

1604、为了考虑性能最优化,建议将所有集群中 LdapServer 都与 KrbServer 部署在相同节点上。 (大数据考点)

(A)正确

(B)错误

答案:A

解析:无

1605、MRS 服务中, Zookeeper 服务不可用会导致 kafka 服务不可用。 (大数据考点)

(A)正确

(B)错误

答案:A

解析:无

1606、Spark 和 Hadoop 一样不适用于送代计算。 (大数据考点)

(A)正确

(B)错误

答案:B

解析:无

1607、Kafka 作为一个分布式消息系统,支持在线和离线消息处理,并提供了 java API 以便其他组件对接使用,在Fusioninsight 解決方案中, Kafka 属于 Fusioninsight HD 模块。 (大数据考点)

(A)正确

(B)错误

答案:A

解析:无

1608、在大数据平台中通过统一用户管理系统,可以实现平台中的各种开源组件应用系统的用户、角色和组织机构统一化管理,实现各种应用系统间跨咸的单点登录注销和统一的身份认证功能。 (大数据考点)

(A)正确

(B)错误

答案:A

解析:无

1609、Redis 默认的快照方式是 AOF。 (大数据考点)

(A)正确

(B)错误

答案:B

解析:无

1610、HBase 中当一个 Region 的 size 逐渐变大时,它可能会被修剪。 (大数据考点)

(A)正确

(B)错误

答案:B

解析:无

1611、大数据体量的不断增加对数据存储的物理安全性要求越来越高,对数据的多副本与容灾机制也提出更高的要求。 (大数据考点)

(A)正确

(B)错误

答案:A

解析:无

1612、Flink 没有重启策略。 (大数据考点)

(A)正确

(B)错误

答案:B

解析:无

1613、Watermark 是 Apache Flink 为了处理 EventTime'窗口计算提出的一种机制,本质上是一种时间戳。 (大数据考点)

(A)正确

(B)错误

答案:A

解析:无

1614、MapReduce 过程中,默认情况下、一个分片就是一个块也是一个 mapTask。 (大数据考点)

(A)正确

(B)错误

答案:A

解析:无

1615、FLINK 采用 checkpoint 机制保障应用程序运行中的容错性。 (大数据考点)

(A)正确

(B)错误

答案:A

解析:无

1616、LdapServer 的 Group(组)是对用户进行统一的组管理,如果用户添加到该组中,该组的 member 属性中就会添加成员的 dn 记录。(大数据考点)

(A)正确

(B)错误

答案:A

解析:无

1617、Kerberos 作为认证服务器中心,能够向集群内所有服务以及客户的二次开发应用提供统一的认证服务。 (大数据考点)

(A)正确

(B)错误

答案:A

解析:无

1618、MapReduce 的核心理念是将一个大的计算任务分解到集群每个节点上充分运用集群资源缩短运行时间。 (大数据考点)

(A)正确

(B)错误

答案:A

解析:无

1619、flume 传輸数据的可靠性是指 fume 在传输数据过程中,当下一跳的 flume 节点故障或者数据接收异常时,可以自动切换到另外一路上继续传输。(大数据考点)

(A)正确

(B)错误

答案:A

解析:无

1620、Fusioninsight HD 集群三层组网时管理节点、控制节点、数据节点建议安装在不同的网段内,可以提高可靠性。 (大数据考点)

(A)正确

(B)错误

答案:A

解析:无

1621、使用配置规划工具对 Fusioninsight HD V100R002C50 集群进行规划时,可以用 V100R2002C60 版本的配置规划工具来规划。(大数据考点)

(A)正确

(B)错误

答案:B

解析:无

1622、HDFS 支持大文件存储同时支持多个用户对同一个文件的写操作,以及在文件任意位置进行修改。 (大数据考点)

(A)正确

(B)错误

答案:B

解析:无

1623、通常情况下,Hive 以文本文件存储的表会以回车作为其行分隔符,在华为 Fusionsight Hive 中,可以指定表数据的输入和输出格式处理类。(大数据考点)

(A)正确

(B)错误

答案:A

解析:无

1624、Hive 是一种数据仓库处理工具,使用类 SQL 的 HiveQL 语言实现数据查询功能,所有 Hive 的数据都存储在 HDFS中。(大数据考点)

(A)正确

(B)错误

答案:A

解析:无

1625、下图展示的 fume 架构,主要应用于集群外的数据导入到集群内。 (大数据考点)

(A)正确

(B)错误

答案:A

解析:无

1626、在 MapReduce 编程中,代码不仅要描述做什么还要描述具休怎么做。 (大数据考点)

(A)正确

(B)错误

答案:B

解析:无

1627、假设 HDFS 在写入数据时只存 2 份,那么在写入过程中, HDFS Client 先将数据写入 DataNode1 再将数据写入Datanode2。()(大数据考点)

(A)正确

(B)错误

答案:B

解析:无

1628、如果某些 Container 的物理内存利用超过了配置的内存阈值,但所有 Container 的总内存利用率并没有超过设置的NodeManager 内存阈值,那么内存使用过多的 Container 仍可以継续运行。(大数据考点)

(A)正确

(B)错误

答案:A

解析:无

1629、colocation(同分布文件级的同分布实现文件的快速访问,避免了因数据搬迁帯来的大量网络开销。 (大数据考点)

(A)正确

(B)错误

答案:A

解析:无

1630、HBase 的 Bloom Filter 是用来过滤数据的。 (大数据考点)

(A)正确

(B)错误

答案:B

解析:无

1631、Hive 中" UNION ALL"操作符用于合并两个过多个 SELECT 语句的结果集,结果集中不允许有重复的值。 (大数据考点)

(A)正确

(B)错误

答案:B

解析:无

1632、导入数据到 Hive 表时不会检查数据合法性只会在读取数据时候检查。 (大数据考点)

(A)正确

(B)错误

答案:A

解析:无

1633、kafka logs segment 文件命名规则是 partion 全局的第一个 segment 从 0 开始,后续每个 segment 文件名为上一个全局 partion 的最大 offset(偏移 message 数)。(大数据考点)

(A)正确

(B)错误

答案:A

解析:无

1634、Kafka 所有消息都会被持久化到硬盘中,同时 Kafka 通过对 Topic Partition 设置 Replicetion 来保障数据可靠。 (大数据考点)

(A)正确

(B)错误

答案:A

解析:无

1635、kafka 是一个高吞吐、分布式、基于发布订阅的消息系统,利用 kafka 技术可在廉价 PC Server 上搭建起大规模消息系统。(大数据考点)

(A)正确

(B)错误

答案:A

解析:无

1636、ApplicationMaster 米用轮询的方式通过 RPC 协议向 Resourcemanager 申请和领取资源。 (大数据考点)

(A)正确

(B)错误

答案:A

解析:无

1637、Fusioninsight tool 是为技术支持工程师和维护工程师提供的一套健康检测工具,能够检查集群相关节点、服务的健康状态,提前发现集群中潜在的问题,并生成健康检査报告。方便技术支持工程师各维护工程师快速了解系统的健康状况。(大数据考点)

(A)正确

(B)错误

答案:A

解析:无

1638、YARN- client 和 YARN- cluster 主要区別是 Application Master 进程的区别。 (大数据考点)

(A)正确

(B)错误

答案:A

解析:无

1639、Hive 支持普通视图和物化视图。 (大数据考点)

(A)正确

(B)错误

答案:B

解析:无

1640、topology 在任务完成后会自动结束运行。 (大数据考点)

(A)正确

(B)错误

答案:B

解析:无

1641、Channel 支持事务提供较弱的顺序保证,可以连接任何数量的 Source 和 Sink。 (大数据考点)

(A)正确

(B)错误

答案:A

解析:无

1642、Fusioninsight 是华为企业级大数据存储、査询、分析的统一平台,能够帮助企业快速构建海量数据信息处理系统,通过对海量信息数据实时与非实时的分析挖堀,发现全新价值点和企业商机。 (大数据考点)

(A)正确

(B)错误

答案:A

解析:无

1643、kafka Consumer 写数据总体流程是 Consumer 连接指定 Topic Partition 所在的 Leader Broker,用于主动获取方式从Kafka 中获取消息。 (大数据考点)

(A)正确

(B)错误

答案:A

解析:无

1644、Spark Streaming 容错机制是指 RDD 中任意的 partitioni 出错,都可以根据其父 RDD 重新计算生成,如果父 RDD丢失则需要去磁盘中査找原始数据。 (大数据考点)

(A)正确

(B)错误

答案:B

解析:无

1645、Hbase 中 MOB 数据直接 HFile 的格式存储在 HDFS 上,然后把这个文件的地址信息及大小信息作为 value 存储在管理 HBase 的 store 上,通过工具集中管理这些文件。这样就可以大大降低 HBase 的 compation 和 split 频率提升性能。 (大数据考点)

(A)正确

(B)错误

答案:A

解析:无

1646、图形化的健康巡检工具 Fusioninsight Tool 由 Fusion Care 和 SysChecker 两部分组成。 (大数据考点)

(A)正确

(B)错误

答案:A

解析:无

1647、Fusioninsight Spark SQL 同社区 Spark JDBCServer 一样,只支持单租户绑定到一个 YARN 资源队列多租户并不支持多租户并行执行。 (大数据考点)

(A)正确

(B)错误

答案:B

解析:无

1648、HFS 的出现解决了需要在 HDFS 中存储大量的小文件(10MB 以下)。同时也要存储一些大文件(10MB 以上)的混合 (大数据考点)

(A)正确

(B)错误

答案:A

解析:无

1649、HBase 中 OpenScanner 的过程会创建两种不同的 Scanner 来读取 HFile 和 MemStorel 的数据,HFile 对应的 Scanner 为 StoreFileScanner, MemStore 对应的 Scanner 为 MemStoreScanner。(大数据考点)

(A)正确

(B)错误

答案:A

解析:无

相关推荐
法迪3 小时前
华为手机卸载系统应用的方法
华为·智能手机
Xzzzz9113 小时前
华为配置 之 STP
服务器·网络·计算机网络·华为
SuperHeroWu76 小时前
【HarmonyOS】判断应用是否已安装
华为·微信·harmonyos·qq·微博·应用是否安装·canopenlink
SoraLuna6 小时前
「Mac畅玩鸿蒙与硬件7」鸿蒙开发环境配置篇7 - 使用命令行工具和本地模拟器管理项目
macos·华为·harmonyos
SuperHeroWu717 小时前
【HarmonyOS】鸿蒙应用OAID广告标识ID设置设备唯一标识
华为·harmonyos·oaid·广告标识·跟踪权限
Xzzzz91121 小时前
华为配置 之 IPv6路由配置
linux·运维·服务器·网络·华为
lqj_本人1 天前
<大厂实战场景> ~ Flutter&鸿蒙next 解析后端返回的 HTML 数据详解
flutter·华为·架构·harmonyos·1024程序员节
小远yyds1 天前
鸿蒙中常见的性能优化
前端·华为·性能优化·harmonyos·1024程序员节
gaogao_jack1 天前
华为ICT题库-云服务部分
华为
漫步旅行_James1 天前
华为原生鸿蒙操作系统:我国移动操作系统的新篇章
华为·harmonyos·1024程序员节