hive高阶,了解hive相关问题,面试

1.hive常见问题,数据倾斜是什么?

数据倾斜指的是,数据分布不均匀,有两种情况Map不均匀和Reduce不均匀。如何发现的?打开hive-ui,可以发现某一个Map任务耗时远超其他的Map任务,此时没有特别好的手段,若是hiveSql,可以group by 这个key,看一下是哪个,对他进行业务上的拆分。Reduce的发现是卡在99%,其他的reduce都完成了,看一下Task处理数量,可以开启group by聚合,map端预聚合是默认开启的,看一下reduce日志,oom,还是节点挂了,观察他的sql,看看是聚合场景,还是join场景。group.skewindata,skewjoin。或者增大map端输出。主要的优化,建临时表(避免重复计算),索引,小表join大表(mapjoin)。

2.hive常在什么情况使用?他适合存储什么?

做离线数仓使用。离线数据、结构化和半结构化的数据。

3.hive的数据格式常用哪几种?适合啥业务?

orc、parquet解压速度快(snappy算法),压缩率中等,50%压缩率左右

gzip压缩(gzip算法)率高,解压速度慢

一般只hive用orc,spark/flink用parquet更好一些,其实两者差不太大

4.hive生成任务的原理是什么?

sql->ast(语法数,每个节点是一个函数)->生成执行计划->提交给资源调度其执行

资源调度

mr(架构简单,兼容性好)中间数据落磁盘,tez比mr快3~5资源复用,spark比mr快10中间数据落内存

可以指定引擎,比如mapreduce

map的task个数是根据block的数量决定的,如果block里面实际的数据有大有小,不均匀,就容易i造成数据倾斜,之后会进行shuffle,对相同key进行聚合,然后交给reduce进行整体计算,调整task.size也本质是调整block的切分数,其实还是按这个来的

5.根据这些原理,我们应该怎么优化?

(1)用临时表,减少多次聚合

(2)小表join大表,提高速度,示例/**mapjoin**/

(3)加索引

(4)加分区

(5)对key进行特殊处理,比如hash取值,最后再恢复,避免大key

6.hive的架构是什么?

hive 只是sql解析引擎,本身不做计算。设置执行引擎(set hive.execution.engine=spark)

hive主要由两部分组成,metastore和query engine,metastore是负责管理元数据一般与mysql元数据库做交互,query engine是执行引擎,是将hql转换为mapreduce或者spark的东西。他本身不参与计算而是依赖hadoop进行计算。

通过jps,可以看到hiverserver2和metastore服务。hiveserver2相当于服务端,通过beeline或jdbc或hive cli可以直接连接他执行相关hql,hiveserver2会与sql engine交互,从而进行计算。

7.yarn资源调度

hadoop2后有了yarn资源调度,他有哪些主要组件?

ResouceManager:整体的资源管控,与其他节点进行交互

NodeManager:对单台服务器的资源管控

Container:对单台服务器预先占用的资源,所以EMR一直都是满的,因为他被预先占用了

AppMaster:只有启动计算任务时候会出现,他会向RM申请资源

相关推荐
B站计算机毕业设计超人7 天前
计算机毕业设计Django+Vue.js高考推荐系统 高考可视化 大数据毕业设计(源码+LW文档+PPT+详细讲解)
大数据·vue.js·hadoop·django·毕业设计·课程设计·推荐算法
B站计算机毕业设计超人7 天前
计算机毕业设计Django+Vue.js音乐推荐系统 音乐可视化 大数据毕业设计 (源码+文档+PPT+讲解)
大数据·vue.js·hadoop·python·spark·django·课程设计
十月南城7 天前
数据湖技术对比——Iceberg、Hudi、Delta的表格格式与维护策略
大数据·数据库·数据仓库·hive·hadoop·spark
王九思7 天前
Hive Thrift Server 介绍
数据仓库·hive·hadoop
土拨鼠烧电路7 天前
笔记11:数据中台:不是数据仓库,是业务能力复用的引擎
数据仓库·笔记
Asher05098 天前
Hive核心知识:从基础到实战全解析
数据仓库·hive·hadoop
xhaoDream8 天前
Hive3.1.3 配置 Tez 引擎
大数据·hive·tez
yumgpkpm8 天前
AI视频生成:Wan 2.2(阿里通义万相)在华为昇腾下的部署?
人工智能·hadoop·elasticsearch·zookeeper·flink·kafka·cloudera
Asher05098 天前
Hadoop核心技术与实战指南
大数据·hadoop·分布式