Hadoop 和 Spark 生态系统中的核心组件

通过jps命令,可以看到如下进程名,请解释一下它们各自是哪个命令产生的,有什么作用?一、Worker

1.来源 :Spark 集群的 工作节点(Worker Node) ,由 start-worker.sh 启动

2.作用

①在从节点上运行,负责执行 Master 分配的任务。

②管理本地的计算资源(CPU、内存)。

③向 Master 汇报心跳和任务状态。

二、NodeManager

1.来源 :Hadoop YARN 的 工作节点服务 ,由 start-yarn.sh 启动。

2.作用

①管理单个节点上的资源(CPU、内存)。

②启动和监控容器(Container),运行 MapReduce 或 Spark 等任务。

③向 ResourceManager 汇报资源使用情况。

三、DataNode

1.来源 :Hadoop HDFS 的 数据节点 ,由 start-dfs.sh 启动。

2.作用

①实际存储 HDFS 的数据块。

②定期向 NameNode 汇报存储状态。

③处理客户端的读写请求。

四、Master

1.来源 :Spark 集群的 主节点(Master Node) ,由 start-master.sh 启动

2.作用

①管理 Spark 集群的资源调度。

②接收客户端提交的任务,分配给 Worker 执行。

③监控 Worker 节点的状态。

五、NameNode

1.来源 :Hadoop HDFS 的 主节点 ,由 start-dfs.sh 启动。

2.作用

①管理 HDFS 文件系统的元数据(如文件目录树、块位置)。

②协调 DataNode 存储和检索数据。

③单点故障关键组件(高可用模式下会有 Standby NameNode)。

六、JobHistoryServer

1.来源 :Hadoop MapReduce 的 历史任务服务器 ,由 mr-jobhistory-daemon.sh start historyserver 启动。

2.作用

①存储和展示已完成的 MapReduce 作业日志。

②提供 Web UI 查看历史任务详情(默认端口:19888)。

七、HistoryServer

1.来源 :Spark 的 历史任务服务器 ,由 start-history-server.sh 启动。

2.作用

①记录和展示已完成的 Spark 应用程序日志。

②提供 Web UI 查看历史任务(默认端口:18080)。

相关推荐
二二孚日1 小时前
自用华为ICT云赛道Big Data第四章知识点-Flink流批一体分布式实时处理引擎
大数据·华为
xufwind2 小时前
spark standlone 集群离线安装
大数据·分布式·spark
AI数据皮皮侠3 小时前
中国区域10m空间分辨率楼高数据集(全国/分省/分市/免费数据)
大数据·人工智能·机器学习·分类·业界资讯
DeepSeek大模型官方教程4 小时前
NLP之文本纠错开源大模型:兼看语音大模型总结
大数据·人工智能·ai·自然语言处理·大模型·产品经理·大模型学习
大数据CLUB5 小时前
基于spark的奥运会奖牌变化数据分析
大数据·hadoop·数据分析·spark
Edingbrugh.南空6 小时前
Hadoop高可用集群搭建
大数据·hadoop·分布式
智慧化智能化数字化方案6 小时前
69页全面预算管理体系的框架与落地【附全文阅读】
大数据·人工智能·全面预算管理·智慧财务·智慧预算
武子康6 小时前
大数据-33 HBase 整体架构 HMaster HRegion
大数据·后端·hbase
诗旸的技术记录与分享20 小时前
Flink-1.19.0源码详解-番外补充3-StreamGraph图
大数据·flink
资讯分享周20 小时前
Alpha系统联结大数据、GPT两大功能,助力律所管理降本增效
大数据·gpt