Spark,配置hadoop集群1

配置运行任务的历史服务器

1.配置mapred-site.xml

在hadoop的安装目录下,打开mapred-site.xml,并在该文件里面增加如下两条配置。

eg我的是在hadoop199上

复制代码
<!-- 历史服务器端地址 -->
<property>
    <name>mapreduce.jobhistory.address</name>
    <value>hadoop100:10020</value>
</property>

<!-- 历史服务器web端地址 -->
<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>hadoop100:19888</value>
</property>

添加后该文件是这样的:

2.同步配置

将此文件配置同步到其他节点中命令为:

root@hadoop100 hadoop\]$ xsync $HADOOP_HOME/etc/hadoop/mapred-site.xml #### 3.启动历史服务器 请注意:你在配置的时候指定哪个节点是历史服务器,就在哪里启动,请不要搞错了。 对应的命令是: mapred --daemon start historyserver #### 4.检查历史服务器是否启动 通过jps命令来查看历史服务器是否已经成功启动了。 \[root@hadoop100 hadoop\]$ jps 出现下图这样即代表成功启动 ![](https://i-blog.csdnimg.cn/direct/704cb60395b4435d847c2366f4522493.png) #### 5.查看JobHistory 方式1:直接去看所有的历史记录 ++++http://hadoop100:19888/jobhistory++++ 方式2:重新启动yarn服务。再从具体的history链接进行跳转。 ### 开启日志聚集功能 #### 1.配置yarn-site.xml 同样也是在hadoop100内找到yarn-site.xml文件,我们添加如下的配置。 ![](https://i-blog.csdnimg.cn/direct/80e4334fb3e14bf9b6cc1b0961466ef1.png) 在该文件里面增加如下配置。 yarn.log-aggregation-enable true yarn.log.server.url http://hadoop101:19888/jobhistory/logs yarn.log-aggregation.retain-seconds 604800 #### 2.分发配置 和之前的配置一样,我们需要把这个更新之后的yarn-site.xml文件同步到其他的机器。这里还是使用脚本xsync。具体如下: xsync /opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml #### ****3.重启ResourceManager和HistoryServer**** 进入到我们安装yarn的主机,通过命令来关闭掉yarn和historyServer,然后再重启。 \[root@hadoop103 hadoop-3.1.3\]$ sbin/stop-yarn.sh \[root@hadoop103 hadoop-3.1.3\]$ mapred --daemon stop historyserver 启动ResourceManage和HistoryServer start-yarn.sh mapred --daemon start historyserver #### 4.测试是否运行成功 命令如下: \[root@hadoop100 hadoop-3.1.3\]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output 查看日志: 如果一切正常,我们打开历史服务器地址[http://hadoop101:19888/jobhistory](http://hadoop102:19888/jobhistory "http://hadoop101:19888/jobhistory") 可以看到历史任务列表,如下: ![](https://i-blog.csdnimg.cn/direct/9b3b7b9e3f3c4533939787cceeddd4ad.png) 点击对应的JobID,就可以进一步查看任务运行日志 ![](https://i-blog.csdnimg.cn/direct/23e6891696474e1eada0ede86937eaed.png) 然后在点击logs,就可以查看运行日志的详情了。 ![](https://i-blog.csdnimg.cn/direct/8d2cef2e16754213b85af2ebba8c5a6a.png)

相关推荐
Lansonli16 分钟前
大数据Spark(六十五):Transformation转换算子groupByKey和filter
大数据·分布式·spark
数据皮皮侠AI1 小时前
再发《管理世界》!智能制造试点DID(2000-2023)
大数据·数据库·人工智能·科技·金融·制造
菜鸡儿齐1 小时前
flink api-datastream api-source算子
大数据·flink
lifallen2 小时前
Flink SQL 查询 核心概念与实战指南
大数据·数据库·sql·flink
KKKlucifer3 小时前
GPT-4 赋能恶意软件 GPT-MalPro:国内首现动态生成规避检测的勒索程序技术深度解析
大数据·人工智能·gpt
中科岩创3 小时前
某机场工程道桥工程5号下穿通道基坑自动化监测
大数据·人工智能·物联网
好开心啊没烦恼3 小时前
图数据库:基于历史学科的全球历史知识图谱构建,使用Neo4j图数据库实现中国历史与全球历史的关联查询。
大数据·数据库·python·数据挖掘·数据分析·知识图谱·neo4j
下一个绝世3 小时前
免费客户管理系统推荐:适合不同行业的解决方案
大数据·人工智能
RunningShare5 小时前
大数据消息中间件选型终极指南:深度解析Kafka、Pulsar、RocketMQ架构与性能
大数据·kafka·rocketmq·pulsar
盟接之桥6 小时前
盟接之桥说制造:源头制胜,降本增效:从“盟接之桥”看供应链成本控制的底层逻辑
大数据·网络·人工智能·安全·制造