【Hadoop】--HA高可用搭建--3.2.2

修改环境配置文件 hadoop-env.sh

bash 复制代码
# 在文件末尾添加以下内容:
# java_home记得修改
export JAVA_HOME=/usr/java/jdk1.8.0xxxx
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_ZKFC_USER=root
export HDFS_JOURNALNODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

修改核心配置文件 core-site.xml

bash 复制代码
# 在configuration 节点中添加以下内容

    <!-- 设置 NameNode 节点的 URI (包括协议、主机名称、端口号),用于 NameNode 与 DataNode 之间的通讯 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://hdfs-yjx</value>
    </property>

    <!-- 设置 Hadoop 运行时临时文件的存放位置,比如 HDFS 的 NameNode 数据默认存放在该目录 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/var/yjx/hadoop/ha</value>
    </property>

    <!-- 设置 Web 界面访问数据时使用的用户名 -->
    <property>
        <name>hadoop.http.staticuser.user</name>
        <value>root</value>
    </property>

    <!-- 配置 HA (高可用),需要一组 Zookeeper 地址,以逗号分隔 -->
    <!-- 该参数被 ZKFailoverController 用于自动故障转移(Failover) -->
    <property>
        <name>ha.zookeeper.quorum</name>
        <value>node01:2181,node02:2181,node03:2181</value>
    </property>

    <!-- 该参数表示可以通过 httpfs 接口访问 HDFS 的 IP 地址限制 -->
    <!-- 配置 root(超级用户)允许通过 httpfs 方式访问 HDFS 的主机名或域名 -->
    <property>
        <name>hadoop.proxyuser.root.hosts</name>
        <value>*</value>
    </property>

    <!-- 通过 httpfs 接口访问的用户获得的群组身份 -->
    <!-- 配置允许通过 httpfs 方式访问的客户端的用户组 -->
    <property>
        <name>hadoop.proxyuser.root.groups</name>
        <value>*</value>
    </property>

修改 HDFS 配置文件 hdfs-site.xml

bash 复制代码
[root@node01 hadoop]# vim hdfs-site.xml

# 在configuration 节点中添加以下内容:

    <!-- 设置 NameService(HDFS 命名服务),支持多个 NameNode 的 HA 配置 -->
    <property>
        <name>dfs.nameservices</name>
        <value>hdfs-yjx</value>
    </property>

    <!-- 设置 NameNode ID 列表,hdfs-yjx 对应 dfs.nameservices -->
    <property>
        <name>dfs.ha.namenodes.hdfs-yjx</name>
        <value>nn1,nn2</value>
    </property>

    <!-- 设置 NameNode 的 RPC 地址和端口 -->
    <property>
        <name>dfs.namenode.rpc-address.hdfs-yjx.nn1</name>
        <value>node01:8020</value>
    </property>

    <property>
        <name>dfs.namenode.rpc-address.hdfs-yjx.nn2</name>
        <value>node02:8020</value>
    </property>

    <!-- 设置 NameNode 的 Web 界面访问地址和端口 -->
    <property>
        <name>dfs.namenode.http-address.hdfs-yjx.nn1</name>
        <value>node01:9870</value>
    </property>

    <property>
        <name>dfs.namenode.http-address.hdfs-yjx.nn2</name>
        <value>node02:9870</value>
    </property>

    <!-- 设置 JournalNode 共享存储,用于存放 HDFS EditLog -->
    <property>
        <name>dfs.namenode.shared.edits.dir</name>
        <value>qjournal://node01:8485;node02:8485;node03:8485/hdfs-yjx</value>
    </property>

    <!-- 设置 JournalNode 日志存储路径 -->
    <property>
        <name>dfs.journalnode.edits.dir</name>
        <value>/var/yjx/hadoop/ha/qjm</value>
    </property>

    <!-- 设置客户端连接 Active NameNode 的代理类 -->
    <property>
        <name>dfs.client.failover.proxy.provider.hdfs-yjx</name>
        <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
    </property>

    <!-- HDFS-HA 发生脑裂时的自动处理方法 -->
    <property>
        <name>dfs.ha.fencing.methods</name>
        <value>sshfence</value>
        <value>shell(true)</value>
    </property>

    <!-- 失效转移时使用的 SSH 私钥文件 -->
    <property>
        <name>dfs.ha.fencing.ssh.private-key-files</name>
        <value>/root/.ssh/id_rsa</value>
    </property>

    <!-- 是否启用 HDFS 自动故障转移 -->
    <property>
        <name>dfs.ha.automatic-failover.enabled</name>
        <value>true</value>
    </property>

    <!-- 设置 HDFS 默认的数据块副本数(可在文件创建时覆盖) -->
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>

修改 workers:[root@node01 hadoop]# vim workers

bash 复制代码
node01
node02
node03

启动

bash 复制代码
# 首先启动 ZooKeeper(三台机器都需要执行)。

[root@node01 hadoop]# zkServer.sh start
[root@node01 hadoop]# zkServer.sh status

# 然后启动 JournalNode(三台机器都需要执行)。
[root@node01 hadoop]# hdfs --daemon start journalnode

# 最后格式化 NameNode 等相关服务并启动集群
# 格式化 node01 的 namenode(第一次配置的情况下使用)
[root@node01 ~]# hdfs namenode -format

# 启动 node01 的 namenode
[root@node01 ~]# hdfs --daemon start namenode

# node02 节点同步镜像数据
[root@node02 ~]# hdfs namenode -bootstrapStandby

# 格式化 zkfc(第一次配置的情况下使用)
[root@node01 ~]# hdfs zkfc -formatZK

# 启动 HDFS
[root@node01 ~]# start-dfs.sh

关闭 hadoop

bash 复制代码
# 先关闭 HDFS。
[root@node01 ~]# stop-dfs.sh

# 再关闭 ZooKeeper(三台机器都需要执行)。
[root@node01 ~]# zkServer.sh stop

# 启动|关闭 所有节点和进程
[root@node01 ~]# start-all.sh
[root@node01 ~]# stop-all.sh

[root@node01 ~]# mapred --daemon start historyserver
相关推荐
ClouGence几秒前
不用搭复杂系统,也能做跨地域数据迁移?
大数据·数据库·saas
xixixi777774 分钟前
Token 经济引爆 AI 产业加速:从百模大战到百虾大战,谁在定义 2026 的中国 AI?
大数据·人工智能·机器学习·ai·大模型·算力·通信
嵌入式老牛5 分钟前
SST专题3-1 基于光分路器的MMC分布式控制系统架构(二)
分布式·电力电子·mmc·固态变压器
Gent_倪19 分钟前
数据建模概念解析
大数据·数据建模
永霖光电_UVLED23 分钟前
Polar Light 获得了欧盟Eurostars计划的110万欧元(€1.1m)资助
大数据·人工智能·物联网·汽车·娱乐
琪伦的工具库33 分钟前
批量excel文件删除列工具使用说明:按列号或列名批量删除/保留,支持预览与大文件优化
大数据·excel
刘~浪地球35 分钟前
消息队列--RabbitMQ 高可用集群部署
分布式·rabbitmq·ruby
武子康1 小时前
大数据-266 实时数仓-Canal + Kafka 实现 MySQL 数据库变更实时捕获
大数据·后端·kafka
TDengine (老段)2 小时前
中原油田引入时序数据库 TDengine:写入性能提升、存储成本下降 85%
大数据·数据库·人工智能·时序数据库·tdengine·涛思数据
财经资讯数据_灵砚智能2 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年4月12日
大数据·人工智能·信息可视化·自然语言处理·ai编程