hive的sql优化思路-明白底层运行逻辑

一、首先要明白底层map、shuffle、reduce的顺序之中服务器hdfs数据文件在内存与存储之中是怎么演变的,因为hive的性能瓶颈基本在内存,具体参考以下他人优秀文章:

1.Hive SQL底层执行过程详细剖析

2.Hive JOIN性能调优

二是要明白hive对应的sql它底层的map reduce的过程中sql字段的执行顺序,来理解map的key、value会填充什么值,才能深刻理解怎么一步一步的减少数据,避免内存占用太多。如mysql的执行顺序(from ->on ->join ->where ->group by ->having ->select ->distinct ->order by ->limit),hive则不是,具体参考以下他人优秀文章:

1.hive中join下on和where 执行顺序

相关推荐
isfox3 小时前
Google GFS 深度解析:分布式文件系统的开山之作
大数据·hadoop
三毛20043 小时前
玳瑁的嵌入式日记D33-0908(SQL数据库)
jvm·数据库·sql
TDengine (老段)5 小时前
TDengine 选择函数 Last() 用户手册
大数据·数据库·sql·物联网·时序数据库·tdengine·涛思数据
鼠鼠我捏,要死了捏5 小时前
Hadoop NameNode内存泄漏与GC停顿问题排查与解决方案
hadoop·问题排查·jvm优化
心 一7 小时前
Web安全基石:深入理解与防御SQL注入漏洞
sql·安全·web安全
嘉禾望岗5038 小时前
Yarn介绍与HA搭建
大数据·hadoop·yarn
林熙蕾LXL8 小时前
SQL Server——基本操作
数据库·sql
IT研究室9 小时前
大数据毕业设计选题推荐-基于大数据的国家药品采集药品数据可视化分析系统-Spark-Hadoop-Bigdata
大数据·hadoop·信息可视化·spark·毕业设计·数据可视化·bigdata
Lx3529 小时前
Hadoop性能瓶颈分析:从JVM到磁盘IO的全链路优化
大数据·hadoop
FLS16810 小时前
Kali搭建sqli-labs靶场
linux·sql·安全·网络安全