Hadoop3:NameNode和DataNode多目录配置(扩充磁盘的技术支持)

一、NameNode多目录

1、说明

NameNode多目录,需要在刚搭建Hadoop集群的时候,就配置好

因为,配置这个,需要格式化NameNode

所以,如果一开始没配置NameNode多目录,后面,就不要配置了。

2、配置

1、修改配置
hdfs-site.xml

xml 复制代码
<property>
     <name>dfs.namenode.name.dir</name>
     <value>file://${hadoop.tmp.dir}/dfs/name1,file://${hadoop.tmp.dir}/dfs/name2</value>
</property>

其中,dfs.namenode.name.dir这个参数在core-site.xml文件中配置的

配置好后,保存,分发。

2、停掉Hadoop集群

bash 复制代码
 myhadoop stop

3、所有节点,删除/data、/log目录

bash 复制代码
cd /opt/module/hadoop-3.1.3/
rm -rf data/ logs/

4、格式化NameNode

bash 复制代码
hdfs namenode -format

此时,就已经有2个目录了

5、启动集群

bash 复制代码
 myhadoop start

3、验证

name1目录

name2目录

会发现,两个目录存储的内容完全一样

但是,本次实操,是在102一个节点上,所以,不是真正的高可用。

如果,102挂掉了,数据丢失。那么,依然无法恢复。

真正的高可用,是配置两个不同机器上的NameNode

这个,最多是,防止误删,提高了一点安全性。

如果,看到多目录,就明白是怎么回事了。

二、DataNode多目录(重要)

1、说明

DataNode 可以配置成多个目录,每个目录存储的数据不一样(数据不是副本)

这个,为集群扩充磁盘提供了基础支持。

一般情况,服务器,挂载几块硬盘,就配置几个目录,对应关联。

2、配置

1、修改配置
hdfs-site.xml

xml 复制代码
<property>
     <name>dfs.datanode.data.dir</name>
     <value>file://${hadoop.tmp.dir}/dfs/data1,file://${hadoop.tmp.dir}/dfs/data2</value>
</property>

这个配置,不一定要分发给所有的节点

要看每个节点的磁盘情况是否相同,来考虑是否分发。

我这里,三台机器情况完全相同,所以,分发到另外几台机器。

2、重启集群

bash 复制代码
myhadoop stop
myhadoop start

3、验证

三个节点都有两个目录。

4、数据均衡(重要)

经过上面的配置,我们就可以挂载信申请的磁盘了。

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。

刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性

对应命令:

(1)生成均衡计划(我只有一块磁盘,不会生成计划

bash 复制代码
hdfs diskbalancer -plan hadoop103

(2)执行均衡计划

bash 复制代码
hdfs diskbalancer -execute hadoop103.plan.json

(3)查看当前均衡任务的执行情况

bash 复制代码
hdfs diskbalancer -query hadoop103

(4)取消均衡任务

bash 复制代码
hdfs diskbalancer -cancel hadoop103.plan.json
相关推荐
B站_计算机毕业设计之家16 小时前
基于大数据的短视频数据分析系统 Spark哔哩哔哩视频数据分析可视化系统 Hadoop大数据技术 情感分析 舆情分析 爬虫 推荐系统 协同过滤推荐算法 ✅
大数据·hadoop·爬虫·spark·音视频·短视频·1024程序员节
洛克大航海1 天前
集群环境安装与部署 Hadoop
大数据·hadoop·ubuntu·集群部署 hadoop
笨蛋少年派1 天前
Hadoop High Availability 简介
大数据·hadoop·分布式
yumgpkpm3 天前
CMP(类ClouderaCDP7.3(404次编译) )完全支持华为鲲鹏Aarch64(ARM),粉丝数超过200就开源下载
hive·hadoop·redis·mongodb·elasticsearch·hbase·big data
B站_计算机毕业设计之家4 天前
Spark微博舆情分析系统 情感分析 爬虫 Hadoop和Hive 贴吧数据 双平台 讲解视频 大数据 Hadoop ✅
大数据·hadoop·爬虫·python·数据分析·1024程序员节·舆情分析
大叔_爱编程4 天前
基于随机森林算法的Boss直聘数据分析及可视化-hadoop+django+spider
hadoop·django·1024程序员节·spider·随机森林算法·boss直聘
毕设源码-赖学姐4 天前
【开题答辩全过程】以基于Hadoop的电商数据分析系统为例,包含答辩的问题和答案
大数据·hadoop·分布式·1024程序员节
阿什么名字不会重复呢5 天前
Hadoop报错 Couldn‘t find datanode to read file from. Forbidden
大数据·hadoop·分布式
通往曙光的路上5 天前
day17_cookie_webstorage
数据仓库·hive·hadoop
前端架构师-老李6 天前
npm、yarn、pnpm的对比和优略
前端·npm·node.js·pnpm·yarn