hive的sql优化思路-明白底层运行逻辑

一、首先要明白底层map、shuffle、reduce的顺序之中服务器hdfs数据文件在内存与存储之中是怎么演变的,因为hive的性能瓶颈基本在内存,具体参考以下他人优秀文章:

1.Hive SQL底层执行过程详细剖析

2.Hive JOIN性能调优

二是要明白hive对应的sql它底层的map reduce的过程中sql字段的执行顺序,来理解map的key、value会填充什么值,才能深刻理解怎么一步一步的减少数据,避免内存占用太多。如mysql的执行顺序(from ->on ->join ->where ->group by ->having ->select ->distinct ->order by ->limit),hive则不是,具体参考以下他人优秀文章:

1.hive中join下on和where 执行顺序

相关推荐
沃达德软件28 分钟前
智慧警务技战法
大数据·数据仓库·hadoop·深度学习·机器学习·数据挖掘
TTBIGDATA2 小时前
【Hue】Ambari 页面启动 Hue 失败 user ‘hadoop‘ does not exist
java·hadoop·ambari
Mr_Xuhhh3 小时前
MySQL核心知识梳理:从连接到查询的完整指南
数据库·sql·mysql
阳光九叶草LXGZXJ10 小时前
达梦数据库-学习-48-DmDrs控制台命令(同步之Manager、CPT模块)
linux·运维·数据库·sql·学习
亓才孓12 小时前
[数据库]应该注意的细节
数据库·sql
我真的是大笨蛋16 小时前
Redo Log详解
java·数据库·sql·mysql·性能优化
Root_Hacker18 小时前
sql注入学习笔记
数据库·sql·web安全·网络安全·oracle·网络攻击模型
hamawari19 小时前
SQL语法
数据库·sql·oracle
invicinble21 小时前
对于mysql层对sql层面的知识体系的理解和把握
数据库·sql·mysql