hive的sql优化思路-明白底层运行逻辑

一、首先要明白底层map、shuffle、reduce的顺序之中服务器hdfs数据文件在内存与存储之中是怎么演变的,因为hive的性能瓶颈基本在内存,具体参考以下他人优秀文章:

1.Hive SQL底层执行过程详细剖析

2.Hive JOIN性能调优

二是要明白hive对应的sql它底层的map reduce的过程中sql字段的执行顺序,来理解map的key、value会填充什么值,才能深刻理解怎么一步一步的减少数据,避免内存占用太多。如mysql的执行顺序(from ->on ->join ->where ->group by ->having ->select ->distinct ->order by ->limit),hive则不是,具体参考以下他人优秀文章:

1.hive中join下on和where 执行顺序

相关推荐
lkbhua莱克瓦243 小时前
进阶-SQL优化
java·数据库·sql·mysql·oracle
石小千3 小时前
Myql binlog反向解析成sql
数据库·sql
鲨莎分不晴4 小时前
大数据的“数字金库”:HDFS 核心原理与操作指令全解
大数据·hadoop·hdfs
摩西蒙4 小时前
阿里云 MaxCompute(原 ODPS)定时任务查询库存快照场景
java·大数据·sql·database
鲨莎分不晴4 小时前
给 Hadoop 插上 SQL 的翅膀:Apache Hive 架构与实战全解
hadoop·sql·apache
德彪稳坐倒骑驴4 小时前
Hive电商数据分析项目 过程记录
hive·hadoop·数据分析
红队it4 小时前
【Spark+Hadoop】基于spark+hadoop游戏评论数据分析可视化大屏(完整系统源码+数据库+开发笔记+详细部署教程+虚拟机分布式启动教程)✅
大数据·hadoop·分布式·算法·游戏·数据分析·spark
yumgpkpm4 小时前
华为 GaussDB 商业版(本地部署)部署方案及相关步骤
hive·hadoop·redis·elasticsearch·华为·kafka·gaussdb
独自归家的兔5 小时前
Ambari与Bigtop深度解析:大数据集群管理与生态标准化利器
大数据·hadoop·ambari
俊哥大数据5 小时前
【项目8】基于Hadoop+Hive+SpringBoot+Vue智慧社区大数据仓库项目
数据仓库·hive·hadoop