hive的sql优化思路-明白底层运行逻辑

一、首先要明白底层map、shuffle、reduce的顺序之中服务器hdfs数据文件在内存与存储之中是怎么演变的,因为hive的性能瓶颈基本在内存,具体参考以下他人优秀文章:

1.Hive SQL底层执行过程详细剖析

2.Hive JOIN性能调优

二是要明白hive对应的sql它底层的map reduce的过程中sql字段的执行顺序,来理解map的key、value会填充什么值,才能深刻理解怎么一步一步的减少数据,避免内存占用太多。如mysql的执行顺序(from ->on ->join ->where ->group by ->having ->select ->distinct ->order by ->limit),hive则不是,具体参考以下他人优秀文章:

1.hive中join下on和where 执行顺序

相关推荐
羑悻的小杀马特1 小时前
openGauss 数据库快速上手评测:从 Docker 安装到SQL 实战
数据库·sql·docker·opengauss
德迅云安全-小潘1 小时前
SQL:从数据基石到安全前线的双重审视
数据库·sql·安全
百***06942 小时前
SQL JOIN:内连接、外连接和交叉连接(代码+案例)
数据库·sql·oracle
_Minato_5 小时前
数据库知识整理——SQL数据更新
数据库·sql
兰若姐姐9 小时前
cisp-pte之SQL注入题之vulnerabilities/fu1.php?id=1
数据库·sql
muxue17821 小时前
Hadoop集群搭建(上):centos 7为例(已将将安装所需压缩包统一放在了/opt/software目录下)
大数据·hadoop·centos
q***239221 小时前
【SQL技术】不同数据库引擎 SQL 优化方案剖析
数据库·sql
liliangcsdn1 天前
sql中left join和inner join的区别
数据库·sql
友善啊,朋友1 天前
Qt:判断一个sql语句是否是select语句
sql·qt