Hadoop和Spark生态系统

通过jps命令,可以看到如下进程名,请解释一下它们各自是哪个命令产生的,有什么作用?一、Worker

1.来源:Spark 集群的 工作节点(Worker Node),由 start-worker.sh 启动

2.作用:

①在从节点上运行,负责执行 Master 分配的任务。

②管理本地的计算资源(CPU、内存)。

③向 Master 汇报心跳和任务状态。

二、NodeManager

1.来源:Hadoop YARN 的 工作节点服务,由 start-yarn.sh 启动。

2.作用:

①管理单个节点上的资源(CPU、内存)。

②启动和监控容器(Container),运行 MapReduce 或 Spark 等任务。

③向 ResourceManager 汇报资源使用情况。

三、DataNode

1.来源:Hadoop HDFS 的 数据节点,由 start-dfs.sh 启动。

2.作用:

①实际存储 HDFS 的数据块。

②定期向 NameNode 汇报存储状态。

③处理客户端的读写请求。

四、Master

1.来源:Spark 集群的 主节点(Master Node),由 start-master.sh 启动

2.作用:

①管理 Spark 集群的资源调度。

②接收客户端提交的任务,分配给 Worker 执行。

③监控 Worker 节点的状态。

五、NameNode

1.来源:Hadoop HDFS 的 主节点,由 start-dfs.sh 启动。

2.作用:

①管理 HDFS 文件系统的元数据(如文件目录树、块位置)。

②协调 DataNode 存储和检索数据。

③单点故障关键组件(高可用模式下会有 Standby NameNode)。

六、JobHistoryServer

1.来源:Hadoop MapReduce 的 历史任务服务器,由 mr-jobhistory-daemon.sh start historyserver 启动。

2.作用:

①存储和展示已完成的 MapReduce 作业日志。

②提供 Web UI 查看历史任务详情(默认端口:19888)。

七、HistoryServer

1.来源:Spark 的 历史任务服务器,由 start-history-server.sh 启动。

2.作用:

①记录和展示已完成的 Spark 应用程序日志。

②提供 Web UI 查看历史任务(默认端口:18080)。

相关推荐
面向Google编程1 小时前
Flink源码阅读:JobManager的HA机制
大数据·flink
Tony Bai1 小时前
【分布式系统】03 复制(上):“权威中心”的秩序 —— 主从架构、一致性与权衡
大数据·数据库·分布式·架构
汽车仪器仪表相关领域3 小时前
全自动化精准检测,赋能高效年检——NHD-6108全自动远、近光检测仪项目实战分享
大数据·人工智能·功能测试·算法·安全·自动化·压力测试
大厂技术总监下海3 小时前
根治LLM胡说八道!用 Elasticsearch 构建 RAG,给你一个“有据可查”的AI
大数据·elasticsearch·开源
石像鬼₧魂石5 小时前
22端口(OpenSSH 4.7p1)渗透测试完整复习流程(含实战排错)
大数据·网络·学习·安全·ubuntu
TDengine (老段)6 小时前
TDengine Python 连接器进阶指南
大数据·数据库·python·物联网·时序数据库·tdengine·涛思数据
数据猿8 小时前
【金猿CIO展】如康集团CIO 赵鋆洲:数智重塑“顶牛”——如康集团如何用大数据烹饪万亿肉食产业的未来
大数据
zxsz_com_cn10 小时前
设备预测性维护的意义 工业设备预测性维护是什么
大数据
samLi062011 小时前
【数据集】中国杰出青年名单数据集(1994-2024年)
大数据
成长之路51411 小时前
【数据集】分地市旅游收入数据集(2000-2024年)
大数据·旅游