克隆虚拟机组成集群

一、克隆虚拟机

1. 准备基础虚拟机
  • 确保基础虚拟机已安装好操作系统(如 Ubuntu)、Java 和 Hadoop。

  • 关闭防火墙并禁用 SELinux(如适用): bash

    复制代码
    sudo ufw disable  # Ubuntu
    sudo systemctl disable firewalld  # CentOS
  • 生成 SSH 密钥并配置无密码登录: bash

    复制代码
    ssh-keygen -t rsa -P ""
    cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
    chmod 600 ~/.ssh/authorized_keys
2. 克隆虚拟机
  • 使用虚拟化软件(如 VMware 或 VirtualBox)克隆基础虚拟机。
  • 至少克隆 3 台虚拟机(1 个 NameNode + 2 个 DataNode)。
  • 为每个克隆机分配唯一的静态 IP 地址(如:192.168.1.101~103)。

二、配置集群

1. 修改主机名和 hosts 文件
  • 在每台虚拟机上修改主机名: bash

    复制代码
    sudo hostnamectl set-hostname hadoop-master  # 主节点
    sudo hostnamectl set-hostname hadoop-slave1  # 从节点1
    sudo hostnamectl set-hostname hadoop-slave2  # 从节点2
  • 编辑 /etc/hosts 文件,添加所有节点的 IP 和主机名映射:

    plaintext

    复制代码
    192.168.1.101 hadoop-master
    192.168.1.102 hadoop-slave1
    192.168.1.103 hadoop-slave2
2. 配置 SSH 无密码登录
  • 在主节点(hadoop-master)上收集所有节点的公钥:

    bash

    复制代码
    ssh-copy-id hadoop-master
    ssh-copy-id hadoop-slave1
    ssh-copy-id hadoop-slave2
  • 测试连接: bash

    复制代码
    ssh hadoop-slave1  # 应无需密码登录
3. 配置 Hadoop

在主节点上修改 Hadoop 配置文件(路径:$HADOOP_HOME/etc/hadoop):

core-site.xml

xml

复制代码
<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop-master:9000</value>
    </property>
</configuration>
hdfs-site.xml

xml

复制代码
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>2</value>  <!-- 副本数,通常等于从节点数量 -->
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/opt/hadoop/data/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/opt/hadoop/data/datanode</value>
    </property>
</configuration>
mapred-site.xml

xml

复制代码
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>
yarn-site.xml

xml

复制代码
<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop-master</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>
workers

plaintext

复制代码
hadoop-slave1
hadoop-slave2

三、同步配置并启动集群

1. 同步配置文件到所有从节点

bash

复制代码
scp $HADOOP_HOME/etc/hadoop/* hadoop-slave1:$HADOOP_HOME/etc/hadoop/
scp $HADOOP_HOME/etc/hadoop/* hadoop-slave2:$HADOOP_HOME/etc/hadoop/
2. 格式化 NameNode(仅首次启动时执行)

bash

复制代码
hdfs namenode -format
3. 启动集群

bash

复制代码
start-dfs.sh  # 启动 HDFS
start-yarn.sh  # 启动 YARN
4. 验证集群状态

bash

复制代码
# 在主节点查看进程
jps

# 应看到以下进程:
# - NameNode、ResourceManager(主节点)
# - DataNode、NodeManager(从节点)

# 访问 Web UI
http://hadoop-master:9870  # HDFS 管理界面
http://hadoop-master:8088  # YARN 资源管理界面

四、运行 WordCount 测试

bash

复制代码
# 创建输入目录并上传文件
hdfs dfs -mkdir -p /user/input
hdfs dfs -put $HADOOP_HOME/README.txt /user/input

# 执行 WordCount
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar wordcount /user/input /user/output

# 查看结果
hdfs dfs -cat /user/output/part-r-00000
相关推荐
@insist1233 小时前
信息安全工程师考点精讲:身份认证核心原理与分类体系(上篇)
大数据·网络·分类·信息安全工程师·软件水平考试
天辛大师4 小时前
AI助力旅游扩大化,五一旅游公园通游年票普惠研究
大数据·启发式算法·旅游
WordPress学习笔记4 小时前
镌刻中式美学的高端WordPress主题
大数据·人工智能·wordpress
数智化精益手记局5 小时前
拆解物料管理erp系统的核心功能,看物料管理erp系统如何解决库存积压与缺料难题
大数据·网络·人工智能·安全·信息可视化·精益工程
Elastic 中国社区官方博客7 小时前
使用 Observability Migration Platform 将 Datadog 和 Grafana 的仪表板与告警迁移到 Kibana
大数据·elasticsearch·搜索引擎·信息可视化·全文检索·grafana·datalog
jkyy20147 小时前
AI运动数字化:以技术重塑场景,健康有益赋能全域运动健康管理
大数据·人工智能·健康医疗
金融小师妹7 小时前
4月30日多因子共振节点:鲍威尔“收官效应”与权力结构重塑的预期重构
大数据·人工智能·重构·逻辑回归
2601_949925187 小时前
AI Agent如何重构跨境物流的决策?
大数据·人工智能·重构·ai agent·geo优化·物流科技
xiaoduo AI8 小时前
客服机器人问题解决率怎么统计?Agent系统自动判断是否解决,比人工回访准?
大数据·人工智能·机器人
小五兄弟9 小时前
YouTube 肖像检测扩展背后:短剧出海版权保护的技术实现与实战策略
大数据·人工智能