大数据之HIVE,一次HIVESQL执行的过程(四)

在hive中执行如下sql

INSERT OVERWRITE TABLE XXX

SELECT * from XXX

数据最终是怎么存储到hdfs上的过程

执行的过程当中,打印出如下的日志过程,本质上是一个在MapReduce中进行Shuffle的过程

所以下面就Shuffle的过程进行分析

Shuffle 描述的是数据从 Map 端到 Reduce 端的过程,大致分为排序(sort)、溢写(spill)、合并(merge)、拉取拷贝(Copy)、合并排序(merge sort)这几个过程,大体流程如下:

上图的 Map 的输出的文件被分片为红绿蓝三个分片,这个分片的就是根据 Key 为条件来分片的,分片算法可以自己实现,例如 Hash、Range 等,最终 Reduce 任务只拉取对应颜色的数据来进行处理,就实现把相同的 Key 拉取到相同的 Reduce 节点处理的功能。下面分开来说 Shuffle 的的各个过程。

注意:

sqoop import实际上是把数据存放到hdfs对应路径上了,而不是"直接导入表里",

查询时,hive会从hdfs的路径上提取数据,再根据hive表的结构和定义,来向我们展示出类似表格的形式。

相关推荐
SLD_Allen6 分钟前
企业级 AI Agent: MCP、CLI、Skills,如何定位、该怎么选、最佳实践。
大数据·人工智能·elasticsearch·企业级 ai agent
跨境卫士-小汪8 分钟前
经营变量持续增多之下跨境卖家如何建立更稳的单品测算框架
大数据·人工智能·产品运营·跨境电商·亚马逊
迅利科技15 分钟前
借助CATIA攻克复杂曲面难题,赋能高端制造新高度
大数据·人工智能
横木沉20 分钟前
高并发场景下的前端缓存与降级策略
大数据·前端·缓存
互联网科技看点24 分钟前
华科瑞泰荣膺“回响中国·2024腾讯教育盛典”年度大奖-校企协同创新模式引领教育未来
大数据
A1301609867139 分钟前
精准商机赋能,助力金融助贷业务拓展
大数据·数据仓库·人工智能·机器人·信息与通信
得物技术1 小时前
HorizonVault 技术深潜:如何在 HDD 上做出 100GB/s+ 级大吞吐分布式存储|得物技术
大数据·后端·kafka
小欣加油1 小时前
Hive综合应用案例——用户学历查询
数据仓库·hive·hadoop
AllData公司负责人2 小时前
亲测丝滑,体验跃迁|AllData通过集成开源项目Cube-Studio,降低机器学习落地门槛
java·大数据·数据库·人工智能·机器学习·开源·cube-studio
码农杂谈00072 小时前
医药行业GEA:企业级智能体系统如何开启医药学术运营新范式
大数据·人工智能