Spark,配置hadoop集群1

配置运行任务的历史服务器

1.配置mapred-site.xml

在hadoop的安装目录下,打开mapred-site.xml,并在该文件里面增加如下两条配置。

eg我的是在hadoop199上

复制代码
<!-- 历史服务器端地址 -->
<property>
    <name>mapreduce.jobhistory.address</name>
    <value>hadoop100:10020</value>
</property>

<!-- 历史服务器web端地址 -->
<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>hadoop100:19888</value>
</property>

添加后该文件是这样的:

2.同步配置

将此文件配置同步到其他节点中命令为:
root@hadoop100 hadoop xsync HADOOP_HOME/etc/hadoop/mapred-site.xml

3.启动历史服务器

请注意:你在配置的时候指定哪个节点是历史服务器,就在哪里启动,请不要搞错了。

对应的命令是: mapred --daemon start historyserver

4.检查历史服务器是否启动

通过jps命令来查看历史服务器是否已经成功启动了。

root@hadoop100 hadoop$ jps

出现下图这样即代表成功启动

5.查看JobHistory

方式1:直接去看所有的历史记录 ++++http://hadoop100:19888/jobhistory++++

方式2:重新启动yarn服务。再从具体的history链接进行跳转。

开启日志聚集功能

1.配置yarn-site.xml

同样也是在hadoop100内找到yarn-site.xml文件,我们添加如下的配置。

在该文件里面增加如下配置。

复制代码
<!-- 开启日志聚集功能 -->
<property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
</property>
<!-- 设置日志聚集服务器地址 -->
<property>  
    <name>yarn.log.server.url</name>  
    <value>http://hadoop101:19888/jobhistory/logs</value>
</property>
<!-- 设置日志保留时间为7天 -->
<property>
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>604800</value>
</property>

2.分发配置

和之前的配置一样,我们需要把这个更新之后的yarn-site.xml文件同步到其他的机器。这里还是使用脚本xsync。具体如下:

xsync /opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml

3.重启ResourceManager和HistoryServer

进入到我们安装yarn的主机,通过命令来关闭掉yarn和historyServer,然后再重启。

root@hadoop103 hadoop-3.1.3$ sbin/stop-yarn.sh

root@hadoop103 hadoop-3.1.3$ mapred --daemon stop historyserver

启动ResourceManage和HistoryServer

start-yarn.sh

mapred --daemon start historyserver

4.测试是否运行成功

命令如下:

root@hadoop100 hadoop-3.1.3$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output
查看日志:

如果一切正常,我们打开历史服务器地址http://hadoop101:19888/jobhistory 可以看到历史任务列表,如下:


点击对应的JobID,就可以进一步查看任务运行日志


然后在点击logs,就可以查看运行日志的详情了。

相关推荐
Data-Miner14 分钟前
集团数字化转型大数据平台整体建设方案
大数据
guslegend35 分钟前
大模型驱动大数据SRE智能运维
大数据·运维
跨境小彭2 小时前
2026 Temu 合规新玩法,凌风 ERP 优化 POD 运营效率
大数据·跨境电商·temu·shein
weixin_397574092 小时前
从“点状试点“到“全面智能化“:制造企业AI落地的现实路径
大数据·人工智能·制造
志栋智能2 小时前
超自动化巡检:知识沉淀与团队协作的新载体
大数据·运维·网络·数据库·人工智能·自动化
Old Uncle Tom3 小时前
循环工程(loop engineering)
大数据
跨境数据猎手3 小时前
淘宝大数据技术在电商行业的应用
大数据
阿部多瑞 ABU4 小时前
铁三角:泛二次元奶头乐经济的结构分析及其人口后果
大数据·人工智能
吴卫斌4 小时前
波动率控制仓位系列(一):满仓轮动的“过山车”困境
大数据·python·股票·量化交易
AI焦点4 小时前
2026年AI应用架构:如何避坑并选对API聚合中转服务?
大数据·人工智能·架构