03-Apache Tez 通俗指南：MapReduce 的“高速公路”升级包

迎仔2026-02-04 8:58

03-Apache Tez 通俗指南：MapReduce 的"高速公路"升级包

在 Hadoop 的早期，MapReduce 是绝对的主角，但它有一个被吐槽最多的问题：太慢了 。

虽然 Spark 后来出来了，但 Hadoop 社区为了拯救既有资产（大量的 Hive SQL 任务），推出了 Tez。

如果说 MapReduce 是老式的慢车，Tez 就是对道路和引擎进行了一次彻底的升级。

MapReduce 的作业流是非常死板的：

这就像是一个死板的接力赛：第一棒跑完，必须把接力棒锁进保险箱（硬盘），第二棒再从保险箱里取出来接着跑。中间的开锁、关锁（IO 开销）浪费了大量时间。

Tez 的全称是 T ez e xecutes z illions (of tasks)。它引入了一个核心概念：DAG。

全景地图 ：MapReduce 只能看到"当前这一步"，而 Tez 在任务开始前，会画出一张完整的 "任务流程图" (DAG)。它知道数据从 A -> B -> C 的所有路径。
直通车 (不落盘) ：既然知道 B 后面肯定接 C，那 B 算完的结果，直接在内存里传给 C 就行了，不用非得写进硬盘存一下。
合并赛段：以前 A->B 是一个任务，B->C 是另一个任务。Tez 把它们合并成一个大任务，一气呵成。

通俗类比：

对于 Hive ：以前 Hive on MapReduce 慢得像蜗牛。现在只需改个配置变成 Hive on Tez，现有的 SQL 不用改，速度直接提升几倍甚至几十倍。
动态规划：Tez 还能在运行时根据数据量大小，动态调整跑道（调整并发度），比死板的 MapReduce 聪明得多。

Tez 是为了拯救 MapReduce 架构 而生的优化器。它通过减少硬盘读写 和全局路径规划，让老旧的批量计算任务也能跑出"跑车"的感觉。