hive的sql优化思路-明白底层运行逻辑

一、首先要明白底层map、shuffle、reduce的顺序之中服务器hdfs数据文件在内存与存储之中是怎么演变的,因为hive的性能瓶颈基本在内存,具体参考以下他人优秀文章:

1.Hive SQL底层执行过程详细剖析

2.Hive JOIN性能调优

二是要明白hive对应的sql它底层的map reduce的过程中sql字段的执行顺序,来理解map的key、value会填充什么值,才能深刻理解怎么一步一步的减少数据,避免内存占用太多。如mysql的执行顺序(from ->on ->join ->where ->group by ->having ->select ->distinct ->order by ->limit),hive则不是,具体参考以下他人优秀文章:

1.hive中join下on和where 执行顺序

相关推荐
2501_916766543 小时前
JDBC以及工具类介绍
sql
她说..4 小时前
Spring AOP场景4——事务管理(源码分析)
java·数据库·spring boot·后端·sql·spring·springboot
男孩李4 小时前
linux下执行pg数据的sql文件,报错error:permission denied for schema plat
数据库·sql
小阿宁的猫猫4 小时前
sqlmap的使用
sql·网络安全·php
howard20054 小时前
Hive实战任务 - 9.3 实现学生信息排序和统计
hive·排序·汇总·学生信息
番茄撒旦在上5 小时前
什么样的表适合做拉链表
大数据·数据仓库·hive
嘟嘟w5 小时前
SQL注入是什么
数据库·sql·oracle
surtr15 小时前
数据库基础(数据库原理和应用)
数据库·sql·mysql·oracle·database
howard20055 小时前
Hive实战任务 - 9.5 实现网址去重
hive·网址去重
howard20055 小时前
Hive实战任务 - 9.4 分科汇总求月考平均分
hive·分科汇总月考平均分