03-Apache Tez 通俗指南:MapReduce 的“高速公路”升级包

03-Apache Tez 通俗指南:MapReduce 的"高速公路"升级包

在 Hadoop 的早期,MapReduce 是绝对的主角,但它有一个被吐槽最多的问题:太慢了

虽然 Spark 后来出来了,但 Hadoop 社区为了拯救既有资产(大量的 Hive SQL 任务),推出了 Tez

如果说 MapReduce 是老式的慢车,Tez 就是对道路和引擎进行了一次彻底的升级。


1. MapReduce 的"笨办法":走这一步看一步

MapReduce 的作业流是非常死板的:

  1. Map 阶段:干活。
  2. 落盘:把结果写进硬盘(HDFS)。
  3. Shuffle/Reduce 阶段:下一个任务读硬盘,再干活。
  4. 再落盘:再写回硬盘。

这就像是一个死板的接力赛:第一棒跑完,必须把接力棒锁进保险箱(硬盘),第二棒再从保险箱里取出来接着跑。中间的开锁、关锁(IO 开销)浪费了大量时间。

2. Tez 的"大局观":DAG (有向无环图)

Tez 的全称是 T ez e xecutes z illions (of tasks)。它引入了一个核心概念:DAG

  • 全景地图 :MapReduce 只能看到"当前这一步",而 Tez 在任务开始前,会画出一张完整的 "任务流程图" (DAG)。它知道数据从 A -> B -> C 的所有路径。
  • 直通车 (不落盘) :既然知道 B 后面肯定接 C,那 B 算完的结果,直接在内存里传给 C 就行了,不用非得写进硬盘存一下。
  • 合并赛段:以前 A->B 是一个任务,B->C 是另一个任务。Tez 把它们合并成一个大任务,一气呵成。

通俗类比

  • MapReduce :像是坐公交车。每到一站(阶段)必须停下来,乘客下去,下一波乘客上来,再启动。
  • Tez :像是定制专车 。根据终点规划最优路线,中间红绿灯少,且中途不停球,直接送达。

3. Tez 带来的改变

  • 对于 Hive :以前 Hive on MapReduce 慢得像蜗牛。现在只需改个配置变成 Hive on Tez,现有的 SQL 不用改,速度直接提升几倍甚至几十倍。
  • 动态规划:Tez 还能在运行时根据数据量大小,动态调整跑道(调整并发度),比死板的 MapReduce 聪明得多。

总结

Tez 是为了拯救 MapReduce 架构 而生的优化器。它通过减少硬盘读写全局路径规划,让老旧的批量计算任务也能跑出"跑车"的感觉。

相关推荐
聚铭网络4 小时前
聚铭网络成功入围徐州市大数据集团2026年业务类合作供应商名录(第一批次)
大数据·网络
2501_944934735 小时前
2026大专大数据科学专业未来发展空间大吗?
大数据
我不听你讲话6 小时前
LNMP网络服务搭建
linux·php·apache
于先生吖9 小时前
国际版JAVA婚恋交友系统源码:多语言适配,可商用的跨境婚恋解决方案
java·大数据·交友
JGDT_9 小时前
筑牢数字底座,驱动智慧未来——全方位数据中台解决方案
大数据·人工智能·科技·系统架构
2501_943695339 小时前
2026大专大数据科学工资水平高吗?
大数据
geneculture11 小时前
从“三亲三同”到“信智序位”:数字时代社会关系范式的重构
大数据·人工智能·融智学的重要应用·哲学与科学统一性·融智时代(杂志)
zylyyyyyy11 小时前
虚拟机X OpenClaw——一键“幻”养“龙虾”
大数据·人工智能·云计算
Smoothcloud润云11 小时前
Seedance 2.0深度解析:从“抽卡地狱”到工业化视频创作的革命
大数据·人工智能·计算机视觉·语言模型·ai作画·音视频·语音识别
sunxunyong13 小时前
spark History Server 重启失败
大数据·分布式·spark