Docker 部署分布式 Hadoop(超详细实战版)

Docker 部署分布式 Hadoop(超详细实战版)

  • 适合人群:大数据初学者、运维工程师、想在本地快速搭建 Hadoop 集群的同学
  • 技术环境:CentOS 7 + Docker + Hadoop 2.7.2
  • 架构模式:1 Master + 2 Slave 分布式集群

一:背景

在传统方式下部署 Hadoop:

  • 需要准备多台虚拟机

  • 手动配置网络、主机名、SSH 免密

  • 重复安装 JDK、Hadoop

  • 环境不可复用

而使用 Docker 的优势:

✅ 环境隔离

✅ 一台机器模拟多节点

✅ 可快速销毁重建

✅ 镜像可复用

✅ 非常适合学习与实验

在真实生产中,例如在基于 Apache Hadoop 的数据平台环境中,也常结合容器化与编排技术使用。


二:部署

1)创建基础镜像

  1. 查看系统版本

    bash 复制代码
    [root@hadoop108 ~]# uname -r
    3.10.0-862.el7.x86_64
  2. 安装 Docker

    bash 复制代码
    [root@hadoop108 ~]# yum install -y docker
  3. 启动 Docker

    bash 复制代码
    [root@hadoop108 ~]# systemctl start docker
  4. 设置 Docker 开机自启

    bash 复制代码
    [root@hadoop108 ~]# systemctl enable docker
  5. 查看 Docker 状态

    bash 复制代码
    [root@hadoop108 ~]# systemctl status docker
  6. 配置 Docker 镜像加速器

    bash 复制代码
    [root@hadoop108 ~]# vim /etc/docker/daemon.json
    复制代码
    {
      "registry-mirrors": ["https://3iy7bctt.mirror.aliyuncs.com"]
    }
    bash 复制代码
    [root@hadoop108 ~]# systemctl daemon-reload
    [root@hadoop108 ~]# systemctl restart docker
    [root@hadoop108 ~]# docker info
  7. 搜索并拉取 CentOS 镜像

    bash 复制代码
    [root@hadoop108 ~]# docker search centos
    [root@hadoop108 ~]# docker pull centos:7
  8. 查看镜像列表

    bash 复制代码
    [root@hadoop108 ~]# docker images
  9. 运行 CentOS 容器(带特权模式,用于启动 systemd 服务)

    bash 复制代码
    [root@hadoop108 ~]# docker run --privileged=true --name centos7 -h hadoop -itd centos:7 /usr/sbin/init
  10. 查看运行中的容器

    bash 复制代码
    [root@hadoop108 ~]# docker ps
  11. 进入容器

    bash 复制代码
    [root@hadoop108 ~]# docker exec -it centos7 /bin/bash
  12. 在容器内安装必要工具

    bash 复制代码
    [root@hadoop ~]# yum install -y vim net-tools openssh-server openssh-clients rsync
  13. 配置 SSH 服务并启动

    bash 复制代码
    [root@hadoop ~]# vim /etc/ssh/sshd_config
    Port 22
    PermitRootLogin yes
    bash 复制代码
    [root@hadoop ~]# systemctl start sshd.service
    [root@hadoop ~]# systemctl enable sshd.service
    [root@hadoop ~]# systemctl status sshd.service
  14. 创建软件目录

    bash 复制代码
    [root@hadoop ~]# mkdir -p /opt/module /opt/software
  15. 退出容器并提交为新的镜像

    bash 复制代码
    [root@hadoop ~]# exit
    [root@hadoop108 ~]# docker commit 容器ID centos:hadoop
    [root@hadoop108 ~]# docker images

2)创建 Hadoop

  1. 基于新镜像启动 Master 和 Slave 容器

    bash 复制代码
    [root@hadoop108 ~]# docker run --privileged=true --name master -h master -p 50070:50070 -itd centos:hadoop /usr/sbin/init
    
    [root@hadoop108 ~]# docker run --privileged=true --name slave01 -h slave01 -p 8088:8088 -itd centos:hadoop /usr/sbin/init
    
    [root@hadoop108 ~]# docker run --privileged=true --name slave02 -h slave02 -itd centos:hadoop /usr/sbin/init
  2. 进入容器配置 hosts 文件(在每个容器中执行)

    bash 复制代码
    [root@master ~]# vim /etc/hosts
    172.17.0.3 master
    172.17.0.4 slave01
    172.17.0.5 slave02
  3. 设置 root 密码

    bash 复制代码
    [root@master ~]# passwd root
    [root@slave01 ~]# passwd root
    [root@slave02 ~]# passwd root
  4. 配置 SSH 免密登录

    bash 复制代码
    [root@master ~]# ssh-keygen -t rsa
    [root@master ~]# ssh-copy-id master
    [root@master ~]# ssh-copy-id slave01
    [root@master ~]# ssh-copy-id slavse02
  5. 从宿主机拷贝 Hadoop 和 JDK 安装包到容器

    bash 复制代码
    [root@hadoop108 ~]# docker cp jdk-8u144-linux-x64.tar.gz master:/opt/software
    
    [root@hadoop108 ~]# docker cp hadoop-2.7.2.tar.gz master:/opt/software
  6. 安装 JDK

    bash 复制代码
    [root@master ~]# tar -xzvf /opt/software/jdk-8u144-linux-x64.tar.gz -C /opt/module/
    bash 复制代码
    [root@master ~]# vim /etc/profile
    # JAVA_HOME
    export JAVA_HOME=/opt/module/jdk1.8.0_144
    export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
    export PATH=$PATH:$JAVA_HOME/bin
    bash 复制代码
    [root@master ~]# source /etc/profile
    [root@master ~]# java -version
  7. 安装 Hadoop

    bash 复制代码
    [root@master ~]# tar -xzvf /opt/software/hadoop-2.7.2.tar.gz -C /opt/module/
    bash 复制代码
    [root@master ~]# vim /etc/profile
    # HADOOP_HOME
    export HADOOP_HOME=/opt/module/hadoop-2.7.2
    export PATH=$PATH:$HADOOP_HOME/bin
    export PATH=$PATH:$HADOOP_HOME/sbin
    bash 复制代码
    [root@master ~]# source /etc/profile
    [root@master ~]# hadoop version
  8. 配置 Hadoop 配置文件

    bash 复制代码
    [root@master ~]# cd /opt/module/hadoop-2.7.2/etc/hadoop
    • 配置 core-site.xml

      复制代码
      <configuration>
        <property>
          <name>fs.defaultFS</name>
          <value>hdfs://master:9000</value>
        </property>
        <property>
          <name>hadoop.tmp.dir</name>
          <value>/opt/module/hadoop-2.7.2/data/tmp</value>
        </property>
      </configuration>
    • 配置 hadoop-env.sh

      复制代码
      export JAVA_HOME=/opt/module/jdk1.8.0_144
    • 配置 hdfs-site.xml

      复制代码
      <property>
        <name>dfs.replication</name>
        <value>3</value>
      </property>
      <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>slave02:50090</value>
      </property>
      <property>
        <name>dfs.permissions.enabled</name>
        <value>false</value>
      </property>
    • 配置 slaves 文件

      复制代码
      master
      slave01
      slave02
    • 配置 yarn-env.sh

      复制代码
      export JAVA_HOME=/opt/module/jdk1.8.0_144
    • 配置 yarn-site.xml

      复制代码
      <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
      </property>
      <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>slave01</value>
      </property>
    • 配置 mapred-site.xml

      bash 复制代码
      [root@master hadoop]# mv mapred-site.xml.template mapred-site.xml
      复制代码
      <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
      </property>
    • 配置 mapred-env.sh

      复制代码
      export JAVA_HOME=/opt/module/jdk1.8.0_144
  9. 分发配置文件到 slave 节点

    bash 复制代码
    [root@master ~]# scp -r /opt/module/jdk1.8.0_144/ root@slave01:/opt/module/
    [root@master ~]# scp -r /opt/module/jdk1.8.0_144/ root@slave02:/opt/module/
    [root@master ~]# scp -r /opt/module/hadoop-2.7.2/ root@slave01:/opt/module/
    [root@master ~]# scp -r /opt/module/hadoop-2.7.2/ root@slave02:/opt/modusle/
  10. 在 slave 节点配置环境变量(在 slave01 和 slave02 中执行)

    bash 复制代码
    [root@slave01 ~]# vim /etc/profile
    # JAVA_HOME
    export JAVA_HOME=/opt/module/jdk1.8.0_144
    export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
    export PATH=$PATH:$JAVA_HOME/bin
    
    # HADOOP_HOME
    export HADOOP_HOME=/opt/module/hadoop-2.7.2
    export PATH=$PATH:$HADOOP_HOME/bin
    export PATH=$PATH:$HADOOP_HOME/sbin
    bash 复制代码
    [root@slave01 ~]# source /etc/profile

3)启动 Hadoop

  1. 格式化 HDFS 并启动 Hadoop

    • 在 master 节点执行:

      bash 复制代码
      [root@master ~]# hdfs namenode -format
      [root@master ~]# start-dfs.sh
    • 在 slave01 节点执行:

      bash 复制代码
      [root@slave01 ~]# start-yarn.sh
  2. 浏览器访问

    • HDFS:http://宿主机IP:50070
    • YARN:http://宿主机IP:8088

4)保存镜像

  1. 停止 Hadoop 集群

    bash 复制代码
    [root@slave01 ~]# stop-yarn.sh
    [root@master ~]# stop-dfs.sh
  2. 将容器提交为镜像

    bash 复制代码
    [root@hadoop108 ~]# docker commit master centos:master
    [root@hadoop108 ~]# docker commit slave01 centos:slave01
    [root@hadoop108 ~]# docker commit slave02 centos:slave02

总结

本文完整演示了:

  • 制作 Hadoop 基础镜像

  • 构建三节点集群

  • 配置 SSH 免密

  • 配置 HDFS + YARN

  • 启动并验证 Web UI

  • 保存为可复用镜像

核心思想:

用 Docker 模拟分布式环境

用容器复刻真实大数据架构

对于正在做大数据方向学习或毕业设计的同学,这种方式可以极大降低实验成本。

相关推荐
heimeiyingwang36 分钟前
【无标题】
网络·缓存·docker·性能优化·架构
南境十里·墨染春水39 分钟前
linux学习进展 信号
linux·服务器·学习
SiYuanFeng1 小时前
一展使用gpt-5-mini和gemini-3.1-flash-image-preview-0.5k的运行demo代码
linux·python·gpt
YuanDaima20481 小时前
堆(优先队列)基础原理与题目说明
linux·运维·服务器·人工智能·python··代码
生万千欢喜心1 小时前
linux 安装 人大金仓数据库
linux·运维·数据库
mounter6251 小时前
深度拦截:Linux 内核引入 Firmware LSM 挂钩,eBPF 再下一城!
linux·服务器·ebpf·kernel·firmware
坚持就完事了2 小时前
scp命令
linux·运维·服务器
牛奶咖啡132 小时前
Docker容器实践——docker部署应用系统
docker·云计算·portainer·docker容器的使用流程·docker虚拟化云桌面·nginx可视化反向代理工具·构建服务器监控探针
说实话起个名字真难啊2 小时前
Docker 入门之单机常用命令总结
docker·容器·eureka
爱学习的小囧2 小时前
VMware NSX-T Data Center 3.2.3.0 部署后账号密码获取及登录配置教程
linux·运维·服务器·网络·数据库·esxi