安装Hadoop并运行WordCount程序

一、安装 Java

Hadoop 依赖 Java,首先需要安装 Java 开发工具包(JDK)。以 Ubuntu 为例:

bash

复制代码
sudo apt update
sudo apt install openjdk-8-jdk

安装后,设置环境变量:

bash

复制代码
echo 'export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64' >> ~/.bashrc
echo 'export PATH=$PATH:$JAVA_HOME/bin' >> ~/.bashrc
source ~/.bashrc

二、安装 Hadoop

  1. 下载 Hadoop

bash

复制代码
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
tar -xzf hadoop-3.3.6.tar.gz
mv hadoop-3.3.6 /opt/hadoop
  1. 配置环境变量

bash

复制代码
echo 'export HADOOP_HOME=/opt/hadoop' >> ~/.bashrc
echo 'export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin' >> ~/.bashrc
source ~/.bashrc
  1. 配置 Hadoop
    • core-site.xml

      xml

      复制代码
      <configuration>
          <property>
              <name>fs.defaultFS</name>
              <value>hdfs://localhost:9000</value>
          </property>
      </configuration>
    • hdfs-site.xml

      xml

      复制代码
      <configuration>
          <property>
              <name>dfs.replication</name>
              <value>1</value>
          </property>
          <property>
              <name>dfs.namenode.name.dir</name>
              <value>file:/opt/hadoop/data/namenode</value>
          </property>
          <property>
              <name>dfs.datanode.data.dir</name>
              <value>file:/opt/hadoop/data/datanode</value>
          </property>
      </configuration>

三、启动 Hadoop

  1. 格式化 NameNode

bash

复制代码
hdfs namenode -format
  1. 启动 HDFS 和 YARN

bash

复制代码
start-dfs.sh
start-yarn.sh
  1. 验证服务
    访问 http://localhost:9870 查看 HDFS 界面,http://localhost:8088 查看 YARN 界面。

四、运行 WordCount 程序

  1. 准备输入数据

bash

复制代码
echo "Hello Hadoop World" > input.txt
hdfs dfs -mkdir -p /user/input
hdfs dfs -put input.txt /user/input
  1. 执行 WordCount

bash

复制代码
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount /user/input /user/output
  1. 查看结果

bash

复制代码
hdfs dfs -cat /user/output/part-r-00000
相关推荐
大厂技术总监下海10 分钟前
用户行为分析怎么做?ClickHouse + 嵌套数据结构,轻松处理复杂事件
大数据·数据结构·数据库
大厂技术总监下海16 分钟前
大数据生态的“主动脉”:RocketMQ 如何无缝桥接 Flink、Spark 与业务系统?
大数据·开源·rocketmq
2501_9336707923 分钟前
2026年中专大数据专业可考取的证书
大数据
oMcLin37 分钟前
如何在Ubuntu 22.04 LTS上优化PostgreSQL 14集群,提升大数据查询的响应速度与稳定性?
大数据·ubuntu·postgresql
信创天地1 小时前
核心系统去 “O” 攻坚:信创数据库迁移的双轨运行与数据一致性保障方案
java·大数据·数据库·金融·架构·政务
德彪稳坐倒骑驴1 小时前
Sqoop入门常用命令
数据库·hadoop·sqoop
zhyf1191 小时前
Max395(ubuntu24.04)AMD显卡GLM-4.7-UD-IQ1-M量化模型部署手册
大数据·elasticsearch·搜索引擎
小北方城市网1 小时前
微服务接口设计实战指南:高可用、易维护的接口设计原则与规范
java·大数据·运维·python·微服务·fastapi·数据库架构
武子康2 小时前
大数据-210 如何在Scikit-Learn中实现逻辑回归及正则化详解(L1与L2)
大数据·后端·机器学习
xiaobaishuoAI2 小时前
全链路性能优化实战指南:从瓶颈定位到极致优化
大数据·人工智能·科技·百度·geo