hive的sql优化思路-明白底层运行逻辑

一、首先要明白底层map、shuffle、reduce的顺序之中服务器hdfs数据文件在内存与存储之中是怎么演变的,因为hive的性能瓶颈基本在内存,具体参考以下他人优秀文章:

1.Hive SQL底层执行过程详细剖析

2.Hive JOIN性能调优

二是要明白hive对应的sql它底层的map reduce的过程中sql字段的执行顺序,来理解map的key、value会填充什么值,才能深刻理解怎么一步一步的减少数据,避免内存占用太多。如mysql的执行顺序(from ->on ->join ->where ->group by ->having ->select ->distinct ->order by ->limit),hive则不是,具体参考以下他人优秀文章:

1.hive中join下on和where 执行顺序

相关推荐
小蜗的房子38 分钟前
Red Hat Enterprise Linux 7.9安装Oracle 11.2.0.4单实例数据库-图文详解
linux·运维·服务器·数据库·sql·oracle·数据库架构
早睡冠军候选人9 小时前
SQL(结构化查询语言)的四大核心分类
大数据·数据库·sql
lifallen13 小时前
Hadoop MapReduce过程
大数据·数据结构·hadoop·分布式·apache
beijingliushao13 小时前
30-Hive SQL-DML-Load加载数据
数据仓库·hive·apache
小浣浣16 小时前
Java 后端性能优化实战:从 SQL 到 JVM 调优
java·sql·性能优化
秋难降16 小时前
零基础学习SQL(三)——数据查询语言(DQL)
数据库·sql·mysql
Lx35216 小时前
Hadoop新手必知的10个高效操作技巧
hadoop·后端
シ風箏17 小时前
Hive【应用 04】常用DDL操作(数据库操作+创建表+修改表+清空删除表+其他命令)
数据库·hive·hadoop
Xasxxs19 小时前
【网络安全】SQL注入——无列名注入
sql·安全·web安全
kfepiza1 天前
关系型数据库表连接(SQL JOINS) 笔记250811
sql