hive的sql优化思路-明白底层运行逻辑

一、首先要明白底层map、shuffle、reduce的顺序之中服务器hdfs数据文件在内存与存储之中是怎么演变的,因为hive的性能瓶颈基本在内存,具体参考以下他人优秀文章:

1.Hive SQL底层执行过程详细剖析

2.Hive JOIN性能调优

二是要明白hive对应的sql它底层的map reduce的过程中sql字段的执行顺序,来理解map的key、value会填充什么值,才能深刻理解怎么一步一步的减少数据,避免内存占用太多。如mysql的执行顺序(from ->on ->join ->where ->group by ->having ->select ->distinct ->order by ->limit),hive则不是,具体参考以下他人优秀文章:

1.hive中join下on和where 执行顺序

相关推荐
talen_hx29627 分钟前
《零基础入门Spark》学习笔记 Day 10
大数据·hive·笔记·学习·spark
麦聪聊数据28 分钟前
企业数据流通与敏捷API交付实战(二):微服务取数与冗余CRUD
数据库·sql·低代码·微服务·restful
二进制_博客28 分钟前
Spark On Hive 系统整合
大数据·hive·spark
源码之家32 分钟前
计算机毕业设计:基于Python的二手车数据分析可视化系统 Flask框架 可视化 时间序列预测算法 逻辑回归 requests 爬虫 大数据(建议收藏)✅
大数据·hadoop·python·算法·数据分析·flask·课程设计
还是做不到嘛\.12 小时前
Dvwa靶场-SQL Injection (Blind)-基于sqlmap
数据库·sql·web安全
字符串str15 小时前
sql的基本技术栈
数据库·sql·oracle
剑之所向16 小时前
DataEase 做大屏,只认 2 种 SQL 格式
数据库·sql·正则表达式
被摘下的星星17 小时前
Hadoop伪分布式集群搭建实验原理概要
大数据·hadoop·分布式
Ujimatsu18 小时前
数据分析相关面试题-SQL部分
数据库·sql·数据分析
武子康18 小时前
大数据-258 离线数仓 - Livy与Griffin编译安装指南:大数据环境配置实战
大数据·hadoop·后端