03-Apache Tez 通俗指南:MapReduce 的“高速公路”升级包

03-Apache Tez 通俗指南:MapReduce 的"高速公路"升级包

在 Hadoop 的早期,MapReduce 是绝对的主角,但它有一个被吐槽最多的问题:太慢了

虽然 Spark 后来出来了,但 Hadoop 社区为了拯救既有资产(大量的 Hive SQL 任务),推出了 Tez

如果说 MapReduce 是老式的慢车,Tez 就是对道路和引擎进行了一次彻底的升级。


1. MapReduce 的"笨办法":走这一步看一步

MapReduce 的作业流是非常死板的:

  1. Map 阶段:干活。
  2. 落盘:把结果写进硬盘(HDFS)。
  3. Shuffle/Reduce 阶段:下一个任务读硬盘,再干活。
  4. 再落盘:再写回硬盘。

这就像是一个死板的接力赛:第一棒跑完,必须把接力棒锁进保险箱(硬盘),第二棒再从保险箱里取出来接着跑。中间的开锁、关锁(IO 开销)浪费了大量时间。

2. Tez 的"大局观":DAG (有向无环图)

Tez 的全称是 T ez e xecutes z illions (of tasks)。它引入了一个核心概念:DAG

  • 全景地图 :MapReduce 只能看到"当前这一步",而 Tez 在任务开始前,会画出一张完整的 "任务流程图" (DAG)。它知道数据从 A -> B -> C 的所有路径。
  • 直通车 (不落盘) :既然知道 B 后面肯定接 C,那 B 算完的结果,直接在内存里传给 C 就行了,不用非得写进硬盘存一下。
  • 合并赛段:以前 A->B 是一个任务,B->C 是另一个任务。Tez 把它们合并成一个大任务,一气呵成。

通俗类比

  • MapReduce :像是坐公交车。每到一站(阶段)必须停下来,乘客下去,下一波乘客上来,再启动。
  • Tez :像是定制专车 。根据终点规划最优路线,中间红绿灯少,且中途不停球,直接送达。

3. Tez 带来的改变

  • 对于 Hive :以前 Hive on MapReduce 慢得像蜗牛。现在只需改个配置变成 Hive on Tez,现有的 SQL 不用改,速度直接提升几倍甚至几十倍。
  • 动态规划:Tez 还能在运行时根据数据量大小,动态调整跑道(调整并发度),比死板的 MapReduce 聪明得多。

总结

Tez 是为了拯救 MapReduce 架构 而生的优化器。它通过减少硬盘读写全局路径规划,让老旧的批量计算任务也能跑出"跑车"的感觉。

相关推荐
存在morning10 小时前
【GO语言开发实践】二 GO 并发快速上手
大数据·开发语言·golang
nassi_11 小时前
对AI工程问题的一些思考
大数据·人工智能·hadoop
沪漂阿龙13 小时前
面试题详解:检索链路设计全攻略——RAG 检索架构、查询理解、多路召回、混合检索、Rerank、上下文构造与评估闭环
大数据·人工智能·架构
金融小师妹13 小时前
基于AI通胀预期模型与美元流动性监测框架的黄金6周新低行分析:美元五连涨周期下贵金属定价机制重构研究
大数据·人工智能·重构·逻辑回归·线性回归
智慧医养结合软件开源14 小时前
智慧养老系统医生管理模块:专业赋能,筑牢老人诊疗安全防线
大数据·人工智能·安全·生活
身如柳絮随风扬16 小时前
Git 核心操作:rebase 与 merge 的区别,以及分支管理最佳实践
大数据·git
多年小白16 小时前
兆易创新分析
大数据·人工智能·ai·金融·区块链
财迅通Ai17 小时前
海立股份:公司旗下海立特冷“人体降温系统”入选市级先进技术推荐目录
大数据·人工智能·海立股份
captain_AIouo17 小时前
Captain AI以视频运营破局!助Ozon商家抢占流量红利
大数据·人工智能·经验分享·aigc·音视频
TDengine (老段)18 小时前
TDengine 一条 SQL 从客户端到执行完成的全链路
大数据·数据库·sql·物联网·时序数据库·tdengine·涛思数据