03-Apache Tez 通俗指南:MapReduce 的“高速公路”升级包

03-Apache Tez 通俗指南:MapReduce 的"高速公路"升级包

在 Hadoop 的早期,MapReduce 是绝对的主角,但它有一个被吐槽最多的问题:太慢了

虽然 Spark 后来出来了,但 Hadoop 社区为了拯救既有资产(大量的 Hive SQL 任务),推出了 Tez

如果说 MapReduce 是老式的慢车,Tez 就是对道路和引擎进行了一次彻底的升级。


1. MapReduce 的"笨办法":走这一步看一步

MapReduce 的作业流是非常死板的:

  1. Map 阶段:干活。
  2. 落盘:把结果写进硬盘(HDFS)。
  3. Shuffle/Reduce 阶段:下一个任务读硬盘,再干活。
  4. 再落盘:再写回硬盘。

这就像是一个死板的接力赛:第一棒跑完,必须把接力棒锁进保险箱(硬盘),第二棒再从保险箱里取出来接着跑。中间的开锁、关锁(IO 开销)浪费了大量时间。

2. Tez 的"大局观":DAG (有向无环图)

Tez 的全称是 T ez e xecutes z illions (of tasks)。它引入了一个核心概念:DAG

  • 全景地图 :MapReduce 只能看到"当前这一步",而 Tez 在任务开始前,会画出一张完整的 "任务流程图" (DAG)。它知道数据从 A -> B -> C 的所有路径。
  • 直通车 (不落盘) :既然知道 B 后面肯定接 C,那 B 算完的结果,直接在内存里传给 C 就行了,不用非得写进硬盘存一下。
  • 合并赛段:以前 A->B 是一个任务,B->C 是另一个任务。Tez 把它们合并成一个大任务,一气呵成。

通俗类比

  • MapReduce :像是坐公交车。每到一站(阶段)必须停下来,乘客下去,下一波乘客上来,再启动。
  • Tez :像是定制专车 。根据终点规划最优路线,中间红绿灯少,且中途不停球,直接送达。

3. Tez 带来的改变

  • 对于 Hive :以前 Hive on MapReduce 慢得像蜗牛。现在只需改个配置变成 Hive on Tez,现有的 SQL 不用改,速度直接提升几倍甚至几十倍。
  • 动态规划:Tez 还能在运行时根据数据量大小,动态调整跑道(调整并发度),比死板的 MapReduce 聪明得多。

总结

Tez 是为了拯救 MapReduce 架构 而生的优化器。它通过减少硬盘读写全局路径规划,让老旧的批量计算任务也能跑出"跑车"的感觉。

相关推荐
紧固视界18 分钟前
2026 紧固件质检三大难题揭秘|上海紧固件专业展
大数据·人工智能·紧固件·上海紧固件展·紧固件展
LaughingZhu1 小时前
Product Hunt 每日热榜 | 2026-02-24
大数据·数据库·人工智能·经验分享·搜索引擎
Hello.Reader1 小时前
Flink Metrics 实战自定义指标、系统指标、排障观测一把梭
大数据·flink
中山六匹马1 小时前
2026中山B2B网站建设:如何结合GEO优化提升企业竞争力
大数据·网络·人工智能
AIArchivist2 小时前
坚守医疗本质,科技赋能未来|清华长庚肝胆AI与悦尔AI的共赢之路
大数据·人工智能·科技
AIArchivist2 小时前
牙髓干细胞微创治疗牙周炎:临床突破、患者价值、产业前景与未来展望
大数据
OpenCSG2 小时前
什么是模型管理平台?从大模型治理走向企业级OPC平台
大数据·人工智能·opencsg
sdyeswlw2 小时前
案例直击|一二三物联网 2025 三大经典项目,解锁物联赋能新场景
大数据·网络·人工智能
m0_528749003 小时前
git如何用
大数据·elasticsearch·搜索引擎