Hadoop和Spark生态系统

通过jps命令,可以看到如下进程名,请解释一下它们各自是哪个命令产生的,有什么作用?一、Worker

1.来源:Spark 集群的 工作节点(Worker Node),由 start-worker.sh 启动

2.作用:

①在从节点上运行,负责执行 Master 分配的任务。

②管理本地的计算资源(CPU、内存)。

③向 Master 汇报心跳和任务状态。

二、NodeManager

1.来源:Hadoop YARN 的 工作节点服务,由 start-yarn.sh 启动。

2.作用:

①管理单个节点上的资源(CPU、内存)。

②启动和监控容器(Container),运行 MapReduce 或 Spark 等任务。

③向 ResourceManager 汇报资源使用情况。

三、DataNode

1.来源:Hadoop HDFS 的 数据节点,由 start-dfs.sh 启动。

2.作用:

①实际存储 HDFS 的数据块。

②定期向 NameNode 汇报存储状态。

③处理客户端的读写请求。

四、Master

1.来源:Spark 集群的 主节点(Master Node),由 start-master.sh 启动

2.作用:

①管理 Spark 集群的资源调度。

②接收客户端提交的任务,分配给 Worker 执行。

③监控 Worker 节点的状态。

五、NameNode

1.来源:Hadoop HDFS 的 主节点,由 start-dfs.sh 启动。

2.作用:

①管理 HDFS 文件系统的元数据(如文件目录树、块位置)。

②协调 DataNode 存储和检索数据。

③单点故障关键组件(高可用模式下会有 Standby NameNode)。

六、JobHistoryServer

1.来源:Hadoop MapReduce 的 历史任务服务器,由 mr-jobhistory-daemon.sh start historyserver 启动。

2.作用:

①存储和展示已完成的 MapReduce 作业日志。

②提供 Web UI 查看历史任务详情(默认端口:19888)。

七、HistoryServer

1.来源:Spark 的 历史任务服务器,由 start-history-server.sh 启动。

2.作用:

①记录和展示已完成的 Spark 应用程序日志。

②提供 Web UI 查看历史任务(默认端口:18080)。

相关推荐
搞科研的小刘选手24 分钟前
【同济大学主办】第十一届能源资源与环境工程研究进展国际学术会议(ICAESEE 2025)
大数据·人工智能·能源·材质·材料工程·地理信息
七号练习生.c1 小时前
Git常用命令速查
大数据·git
谅望者3 小时前
数据分析笔记14:Python文件操作
大数据·数据库·笔记·python·数据挖掘·数据分析
YisquareTech3 小时前
如何实现智能补货?EDI与ERP集成打造零售库存的“自动闭环”
大数据·人工智能·零售·伊士格科技·erp集成
观远数据3 小时前
数据驱动零售新生态:观远BI打造终端经营“透视镜”
大数据·人工智能·信息可视化·数据分析·零售
i***68324 小时前
PostgreSQL 中进行数据导入和导出
大数据·数据库·postgresql
贝多财经4 小时前
千里科技报考港股上市:高度依赖吉利,AI智驾转型收入仍为零
大数据·人工智能·科技
怀璧其罪5 小时前
aleph-node Node upgrade instructions 节点升级说明
大数据·elasticsearch·搜索引擎
l***O5205 小时前
大数据实时处理:Flink流处理
大数据·flink
源码之家6 小时前
基于python租房大数据分析系统 房屋数据分析推荐 scrapy爬虫+可视化大屏 贝壳租房网 计算机毕业设计 推荐系统(源码+文档)✅
大数据·爬虫·python·scrapy·数据分析·推荐算法·租房