大数据之HIVE,一次HIVESQL执行的过程(四)

在hive中执行如下sql

INSERT OVERWRITE TABLE XXX

SELECT * from XXX

数据最终是怎么存储到hdfs上的过程

执行的过程当中,打印出如下的日志过程,本质上是一个在MapReduce中进行Shuffle的过程

所以下面就Shuffle的过程进行分析

Shuffle 描述的是数据从 Map 端到 Reduce 端的过程,大致分为排序(sort)、溢写(spill)、合并(merge)、拉取拷贝(Copy)、合并排序(merge sort)这几个过程,大体流程如下:

上图的 Map 的输出的文件被分片为红绿蓝三个分片,这个分片的就是根据 Key 为条件来分片的,分片算法可以自己实现,例如 Hash、Range 等,最终 Reduce 任务只拉取对应颜色的数据来进行处理,就实现把相同的 Key 拉取到相同的 Reduce 节点处理的功能。下面分开来说 Shuffle 的的各个过程。

注意:

sqoop import实际上是把数据存放到hdfs对应路径上了,而不是"直接导入表里",

查询时,hive会从hdfs的路径上提取数据,再根据hive表的结构和定义,来向我们展示出类似表格的形式。

相关推荐
T06205142 小时前
【数据集】“银发经济”百度搜索指数数据(2024.1.8-2026.3.8)
大数据
走遍西兰花.jpg3 小时前
spark的shuffle原理及调优
大数据·分布式·spark
小邓睡不饱耶3 小时前
Spark 3.5.1 全栈实战指南:从环境部署到生产优化
大数据·分布式·spark
焦糖玛奇朵婷4 小时前
实测扭蛋机小程序:开发简单,互动有趣
java·大数据·程序人生·小程序·软件需求
瓦中空花4 小时前
大数据工具-Flink
大数据·flink
Lab_AI4 小时前
iLabPower LES与SDH科学数据基因组平台赋能光电材料研发与生产,鼎材科技与创腾科技进一步深化合作
大数据·人工智能·oled·材料设计·光电材料研发·材料创新·材料研发
渣渣盟4 小时前
Flink实现TopN URL访问量统计
大数据·flink·scala
无你想你4 小时前
Datawhale之春晚机器人跳舞复刻
大数据·elasticsearch·机器人
wAIxiSeu5 小时前
万字长文解析Apache Paimon
大数据
网络工程小王5 小时前
【大数据技术详解】——HIVE技术(学习笔记)
大数据·hive·hadoop