大数据面试题--企业面试真题
点击访问获取:
大数据面试体系专栏_酷兜科技www.kudoumh.top/hlwai/85.html
点击访问获取:
大数据面试体系专栏_酷兜科技www.kudoumh.top/hlwai/85.html
大数据面试题汇总
HDFS
1、 HDFS 读写流程。
2、HDFS 在读取文件的时候,出现Block块突然损坏了怎么办
3、HDFS 在上传文件的时候,如果其中一个 DataNode 突然挂掉了怎么办
4、NameNode 在启动的时候会做哪些操作
5、Secondary NameNode 的工作机制。
6、Secondary NameNode 不能恢复 NameNode 的全部数据,那如何保证NameNode 数据存储安全?
7、HA高可用模式下的共享存储实现方案有哪些?
8、在 NameNode HA 中,会出现脑裂问题吗?怎么解决脑裂问题?
9、小文件过多会有什么危害,如何避免?
10、请描述 HDFS 的组织架构?
MapReduce
1、请说下 MR 中 Map Task 的工作机制
2、 请说下 MR 中 Reduce Task 的工作机制
3、 请说下 MR 中 Shuffle 阶段
4、 Shuffle 阶段的数据压缩机制了解吗
5、 在写 MR 时,什么情况下可以使用规约(combiner)?
YARN
1、YARN 的任务提交流程是怎样的
2、 YARN 的资源调度三种模型了解吗
3、 YARN 集群的架构和工作原理知道多少
HIVE
1、Hive 内部表和外部表的区别
2、 Hive 有索引吗
3、运维如何对Hive 进行调度
4、ORC、Parquet 等列式存储的优点
5、 数据建模用的哪些模型?
6、为什么要对数据仓库分层?
7、使用过 Hive 解析JSON 串吗
8、sort by 和 order by 的区别
9、数据倾斜怎么解决
10、Hive 小文件过多怎么解决
11、Hive 优化有哪些
Spark
1、Spark 的运行流程?
2、Spark 有哪些组件?
3、Spark 中的 RDD 机制理解吗?
4、RDD 中 reduceBykey 与 groupByKey 哪个性能好,为什么?
5、介绍一下 cogroup rdd 实现原理,你在什么场景下用过这个 rdd?
6、如何区分 RDD 的宽窄依赖?
7、为什么要设计宽窄依赖?
8、DAG 是什么?
9、 DAG 中为什么要划分 Stage?
10、 如何划分 DAG 的 stage?
11、DAG 划分为 Stage 的算法了解吗?
12、对于 Spark 中的数据倾斜问题你有什么好的方案?
13、Spark 中的 OOM 问题?
14、 Spark 中数据的位置是被谁管理的?
15、Spae
个数?
16、 介绍
对于缩小
17、Spar
18、Spar
19、Spar
20、 通常来说,Spark 与 MapReduce 相比,Spark 运行效率更高。请说明效率更高来源于 Spark 内
置的哪些机制?
21、Hadoop 和 Spark 的相同点和不同点?
22、Hadoop 和 Spark 使用场景?
23、Spark 如何保证宕机迅速恢复?
24、 RDD 持久化原理?
25、Checkpoint 检查点机制?
26、Checkpoint 和持久化机制的区别?
27、Spark Streaming 以及基本工作原理?
28、DStream 以及基本工作原理?
29、Spark Streaming 整合 Kafka 的两种模式?
30、Spark 主备切换机制原理知道吗?
31、Spark 解决了 Hadoop 的哪些问题?
32、数据倾斜的产生和解决办法?
33、你在使用 Spark Sql 处理的时候, 处理过程中用的 DataFrame 还是直接写的 Sql?为什么?
34、 Spark Master HA 主从切换过程不会影响到集群已有作业的运行, 为什么?
35、Spark Master 使用 Zookeeper 进行 HA,有哪些元数据保存到Zookeeper 里面?
36、如何实现 Spark Streaming 读取Flume 中的数据?
37、 在实际开发的时候是如何保证数据不丢失的?
38、RDD 有哪些缺陷?
Kafka
1、为什么要使用 kafka?
2、Kafka 消费过的消息如何再消费?
3、kafka 的数据是放在磁盘上还是内存上,为什么速度会快?
4、Kafka 数据怎么保障不丢失?
5、采集数据为什么选择kafka?
6、kafka 重启是否会导致数据丢失?
7、kafka 宕机了如何解决?
8、为什么 Kafka 不支持读写分离?
9、kafka 数据分区和消费者的关系?
10、kafka 的数据 offset 读取流程
11、kafka 内部如何保证顺序,结合外部组件如何保证消费者的顺序?
12、Kafka 消息数据积压,Kafka 消费能力不足怎么处理?
13、Kafka 单条日志传输大小
HBase
1、Hbase 是怎么写数据的?
2、HDFS 和HBase 各自使用场景
3、Hbase 的存储结构
4、 热点现象(数据倾斜)怎么产生的,以及解决方法有哪些
5、HBase 的 rowkey 设计原则
6、HBase 的列簇设计
7、HBase 中 compact 用途是什么,什么时候触发,分为哪两种,有什么区别
Flink
1、简单介绍一下Flink
2、Flink 的运行必须依赖 Hadoop 组件吗?
3、Flink 集群运行时角色
4、Flink 相比 Spark Streaming 有什么区别
5、介绍下 Flink 的容错机制(checkpoint)
6、Flink checkpoint 与 Spark Streaming 的有什么区别或优势吗?
7、Flink 是如何保证 Exactly-once 语义的?
8、如果下级存储不支持事务,Flink 怎么保证exactly-once
9、Flink
10、Flink
11、Flink
12、如何
13、Flink
14、Ope
15、Flink
16、如何处理生产环境中的数据倾斜问题
17、Flink 中的 Time 有哪几种
18、Flink 对于迟到数据是怎么处理的
19、Flink 中 window 出现数据倾斜怎么解决
20、Flink CEP 编程中当状态没有到达的时候会将数据保存在哪里
21、Flink 设置并行度的方式
22、Flink 中 Task 如何做到数据交换
23、Flink 的内存管理是如何做的
24、介绍下 Flink 的序列化
25、Flink 海量数据高效去重
26、Flink SQL 的是如何实现的
业务方面
1、ODS 层采用什么压缩方式和存储格式?
2、DWD 层做了哪些事?
3、DWS 层做了哪些事?
4、在处理大数据过程中,如何保证得到期望值
5、你感觉数仓建设中最重要的是什么
6、数据质量怎么监控
7、数据分析方法论了解过哪些?
算法
1、排序算法相关概念
2、快速排序
3、归并排序
4、查找算法包含哪些?
5、二分查找
6、二叉树实现及遍历
大数据面试题汇总
HDFS
1、 HDFS 读写流程。
HDFS 写流程:
- Client 客户端发送上传请求,通过RPC与NameNode建立通信,NameNode 检查该用户是否有上
传权限,以及上传的文件是否在 HDFS 对应的目录下重名,如果这两者有任意一个不满足,则直
接报错,如果两者都满足,则返回给客户端一个可以上传的信息;
- Client 根据文件的大小进行切分,默认 128M 一块,切分完成之后给NameNode 发送请求第一个
block 块上传到哪些服务器上;
- NameNode 收到请求之后,默认会进行三副本备份,根据网络拓扑和机架感知以及副本机制进行
文件分配,返回可用的 DataNode 的地址。
- 客户端收到地址之后与服务器地址列表中的一个节点如 A 进行通信,本质上就是 RPC 调用,建立
pipeline,A 收到请求后会继续调用 B,B 在调用C,将整个 pipeline 建立完成,逐级返回
Client;
点击访问获取: