03-Apache Tez 通俗指南:MapReduce 的“高速公路”升级包

03-Apache Tez 通俗指南:MapReduce 的"高速公路"升级包

在 Hadoop 的早期,MapReduce 是绝对的主角,但它有一个被吐槽最多的问题:太慢了

虽然 Spark 后来出来了,但 Hadoop 社区为了拯救既有资产(大量的 Hive SQL 任务),推出了 Tez

如果说 MapReduce 是老式的慢车,Tez 就是对道路和引擎进行了一次彻底的升级。


1. MapReduce 的"笨办法":走这一步看一步

MapReduce 的作业流是非常死板的:

  1. Map 阶段:干活。
  2. 落盘:把结果写进硬盘(HDFS)。
  3. Shuffle/Reduce 阶段:下一个任务读硬盘,再干活。
  4. 再落盘:再写回硬盘。

这就像是一个死板的接力赛:第一棒跑完,必须把接力棒锁进保险箱(硬盘),第二棒再从保险箱里取出来接着跑。中间的开锁、关锁(IO 开销)浪费了大量时间。

2. Tez 的"大局观":DAG (有向无环图)

Tez 的全称是 T ez e xecutes z illions (of tasks)。它引入了一个核心概念:DAG

  • 全景地图 :MapReduce 只能看到"当前这一步",而 Tez 在任务开始前,会画出一张完整的 "任务流程图" (DAG)。它知道数据从 A -> B -> C 的所有路径。
  • 直通车 (不落盘) :既然知道 B 后面肯定接 C,那 B 算完的结果,直接在内存里传给 C 就行了,不用非得写进硬盘存一下。
  • 合并赛段:以前 A->B 是一个任务,B->C 是另一个任务。Tez 把它们合并成一个大任务,一气呵成。

通俗类比

  • MapReduce :像是坐公交车。每到一站(阶段)必须停下来,乘客下去,下一波乘客上来,再启动。
  • Tez :像是定制专车 。根据终点规划最优路线,中间红绿灯少,且中途不停球,直接送达。

3. Tez 带来的改变

  • 对于 Hive :以前 Hive on MapReduce 慢得像蜗牛。现在只需改个配置变成 Hive on Tez,现有的 SQL 不用改,速度直接提升几倍甚至几十倍。
  • 动态规划:Tez 还能在运行时根据数据量大小,动态调整跑道(调整并发度),比死板的 MapReduce 聪明得多。

总结

Tez 是为了拯救 MapReduce 架构 而生的优化器。它通过减少硬盘读写全局路径规划,让老旧的批量计算任务也能跑出"跑车"的感觉。

相关推荐
就叫_这个吧2 分钟前
servlet整合tomcat项目启动报错解决,org.apache.tomcat.util.descriptor.web.WebXml.setVersion
java·servlet·tomcat·apache
Shawn Dev26 分钟前
团队协作中的 Git Tag 最佳实践:从入门到精通
大数据·git·elasticsearch
方向研究42 分钟前
科技创新三定律
大数据
T06205141 小时前
【数据集】企业合作研发强度(1986-2024年)
大数据
terry6001 小时前
2026企业级携号转网查询标准:论实时数据同步与高并发承载设计
java·大数据·人工智能·json·信息与通信·数据库架构
狒狒热知识1 小时前
AI全链路赋能内容生产,178软文网软文发稿平台打造高质文案创作新范式
大数据
辞辞辞1 小时前
江苏正分科技:一站式碳酸锂提锂整套解决方案,引领湿法提锂行业革新
大数据·人工智能·科技
zhuhai_xigedian2 小时前
区块链技术加持:源网荷储系统的能源数据安全与溯源
大数据·区块链·能源
经济视野2 小时前
朗禾品牌设计,深耕餐饮VI与空间设计,以专业实力赋能品牌成长
大数据·人工智能
IT阿瑞2 小时前
制造业 AI Agent 实施服务商横评:2026 年企业级自动化选型全景分析
大数据·人工智能·自动化