Spark,配置hadoop集群1

配置运行任务的历史服务器

1.配置mapred-site.xml

在hadoop的安装目录下,打开mapred-site.xml,并在该文件里面增加如下两条配置。

eg我的是在hadoop199上

复制代码
<!-- 历史服务器端地址 -->
<property>
    <name>mapreduce.jobhistory.address</name>
    <value>hadoop100:10020</value>
</property>

<!-- 历史服务器web端地址 -->
<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>hadoop100:19888</value>
</property>

添加后该文件是这样的:

2.同步配置

将此文件配置同步到其他节点中命令为:

root@hadoop100 hadoop\]$ xsync $HADOOP_HOME/etc/hadoop/mapred-site.xml #### 3.启动历史服务器 请注意:你在配置的时候指定哪个节点是历史服务器,就在哪里启动,请不要搞错了。 对应的命令是: mapred --daemon start historyserver #### 4.检查历史服务器是否启动 通过jps命令来查看历史服务器是否已经成功启动了。 \[root@hadoop100 hadoop\]$ jps 出现下图这样即代表成功启动 ![](https://i-blog.csdnimg.cn/direct/704cb60395b4435d847c2366f4522493.png) #### 5.查看JobHistory 方式1:直接去看所有的历史记录 ++++http://hadoop100:19888/jobhistory++++ 方式2:重新启动yarn服务。再从具体的history链接进行跳转。 ### 开启日志聚集功能 #### 1.配置yarn-site.xml 同样也是在hadoop100内找到yarn-site.xml文件,我们添加如下的配置。 ![](https://i-blog.csdnimg.cn/direct/80e4334fb3e14bf9b6cc1b0961466ef1.png) 在该文件里面增加如下配置。 yarn.log-aggregation-enable true yarn.log.server.url http://hadoop101:19888/jobhistory/logs yarn.log-aggregation.retain-seconds 604800 #### 2.分发配置 和之前的配置一样,我们需要把这个更新之后的yarn-site.xml文件同步到其他的机器。这里还是使用脚本xsync。具体如下: xsync /opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml #### ****3.重启ResourceManager和HistoryServer**** 进入到我们安装yarn的主机,通过命令来关闭掉yarn和historyServer,然后再重启。 \[root@hadoop103 hadoop-3.1.3\]$ sbin/stop-yarn.sh \[root@hadoop103 hadoop-3.1.3\]$ mapred --daemon stop historyserver 启动ResourceManage和HistoryServer start-yarn.sh mapred --daemon start historyserver #### 4.测试是否运行成功 命令如下: \[root@hadoop100 hadoop-3.1.3\]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output 查看日志: 如果一切正常,我们打开历史服务器地址[http://hadoop101:19888/jobhistory](http://hadoop102:19888/jobhistory "http://hadoop101:19888/jobhistory") 可以看到历史任务列表,如下: ![](https://i-blog.csdnimg.cn/direct/9b3b7b9e3f3c4533939787cceeddd4ad.png) 点击对应的JobID,就可以进一步查看任务运行日志 ![](https://i-blog.csdnimg.cn/direct/23e6891696474e1eada0ede86937eaed.png) 然后在点击logs,就可以查看运行日志的详情了。 ![](https://i-blog.csdnimg.cn/direct/8d2cef2e16754213b85af2ebba8c5a6a.png)

相关推荐
SelectDB4 分钟前
拉卡拉 x Apache Doris:统一金融场景 OLAP 引擎,查询提速 15 倍,资源直降 52%
大数据·数据库·数据分析
合合技术团队40 分钟前
实测对比|法国 AI 独角兽公司发布的“最强 OCR”,实测效果如何?
大数据·人工智能·图像识别
lilye662 小时前
程序化广告行业(39/89):广告投放的数据分析与优化秘籍
大数据·人工智能·数据分析
中科岩创4 小时前
某地老旧房屋自动化监测项目
大数据·物联网·自动化
viperrrrrrrrrr75 小时前
大数据学习(95)-谓词下推
大数据·sql·学习
汤姆yu6 小时前
基于python大数据的旅游可视化及推荐系统
大数据·旅游·可视化·算法推荐
zhangjin12226 小时前
kettle从入门到精通 第九十四课 ETL之kettle MySQL Bulk Loader大批量高性能数据写入
大数据·数据仓库·mysql·etl·kettle实战·kettlel批量插入·kettle mysql
哈哈真棒7 小时前
hadoop 集群的常用命令
大数据
阿里云大数据AI技术7 小时前
百观科技基于阿里云 EMR 的数据湖实践分享
大数据·数据库
泛微OA办公系统7 小时前
上市电子制造企业如何实现合规的质量文件管理?
大数据·制造