安装Hadoop并运行WordCount程序

一、安装 Java

Hadoop 依赖 Java,首先需要安装 Java 开发工具包(JDK)。以 Ubuntu 为例:

bash

复制代码
sudo apt update
sudo apt install openjdk-8-jdk

安装后,设置环境变量:

bash

复制代码
echo 'export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64' >> ~/.bashrc
echo 'export PATH=$PATH:$JAVA_HOME/bin' >> ~/.bashrc
source ~/.bashrc

二、安装 Hadoop

  1. 下载 Hadoop

bash

复制代码
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
tar -xzf hadoop-3.3.6.tar.gz
mv hadoop-3.3.6 /opt/hadoop
  1. 配置环境变量

bash

复制代码
echo 'export HADOOP_HOME=/opt/hadoop' >> ~/.bashrc
echo 'export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin' >> ~/.bashrc
source ~/.bashrc
  1. 配置 Hadoop
    • core-site.xml

      xml

      复制代码
      <configuration>
          <property>
              <name>fs.defaultFS</name>
              <value>hdfs://localhost:9000</value>
          </property>
      </configuration>
    • hdfs-site.xml

      xml

      复制代码
      <configuration>
          <property>
              <name>dfs.replication</name>
              <value>1</value>
          </property>
          <property>
              <name>dfs.namenode.name.dir</name>
              <value>file:/opt/hadoop/data/namenode</value>
          </property>
          <property>
              <name>dfs.datanode.data.dir</name>
              <value>file:/opt/hadoop/data/datanode</value>
          </property>
      </configuration>

三、启动 Hadoop

  1. 格式化 NameNode

bash

复制代码
hdfs namenode -format
  1. 启动 HDFS 和 YARN

bash

复制代码
start-dfs.sh
start-yarn.sh
  1. 验证服务
    访问 http://localhost:9870 查看 HDFS 界面,http://localhost:8088 查看 YARN 界面。

四、运行 WordCount 程序

  1. 准备输入数据

bash

复制代码
echo "Hello Hadoop World" > input.txt
hdfs dfs -mkdir -p /user/input
hdfs dfs -put input.txt /user/input
  1. 执行 WordCount

bash

复制代码
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount /user/input /user/output
  1. 查看结果

bash

复制代码
hdfs dfs -cat /user/output/part-r-00000
相关推荐
一只鹿鹿鹿1 小时前
信息化项目验收,软件工程评审和检查表单
大数据·人工智能·后端·智慧城市·软件工程
聚铭网络2 小时前
案例精选 | 某省级税务局AI大数据日志审计中台应用实践
大数据·人工智能·web安全
Qdgr_4 小时前
价值实证:数字化转型标杆案例深度解析
大数据·数据库·人工智能
选择不变4 小时前
日线周线MACD指标使用图文教程,通达信指标
大数据·区块链·通达信指标公式·炒股技巧·短线指标·炒股指标
高山莫衣4 小时前
git rebase多次触发冲突
大数据·git·elasticsearch
链上Sniper5 小时前
智能合约状态快照技术:实现 EVM 状态的快速同步与回滚
java·大数据·linux·运维·web3·区块链·智能合约
wx_ywyy67985 小时前
推客系统小程序终极指南:从0到1构建自动裂变增长引擎,实现业绩10倍增长!
大数据·人工智能·短剧·短剧系统·推客系统·推客小程序·推客系统开发
王小王-1235 小时前
基于Hadoop的京东厨具商品数据分析及商品价格预测系统的设计与实现
hadoop·数据分析·京东厨具·厨具分析·商品分析
蚂蚁数据AntData5 小时前
从性能优化赛到社区Committer,走进赵宇捷在Apache Fory的成长之路
大数据·开源·apache·数据库架构
谷新龙0017 小时前
大数据环境搭建指南:基于 Docker 构建 Hadoop、Hive、HBase 等服务
大数据·hadoop·docker