安装Hadoop并运行WordCount程序

一、安装 Java

Hadoop 依赖 Java,首先需要安装 Java 开发工具包(JDK)。以 Ubuntu 为例:

bash

复制代码
sudo apt update
sudo apt install openjdk-8-jdk

安装后,设置环境变量:

bash

复制代码
echo 'export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64' >> ~/.bashrc
echo 'export PATH=$PATH:$JAVA_HOME/bin' >> ~/.bashrc
source ~/.bashrc

二、安装 Hadoop

  1. 下载 Hadoop

bash

复制代码
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
tar -xzf hadoop-3.3.6.tar.gz
mv hadoop-3.3.6 /opt/hadoop
  1. 配置环境变量

bash

复制代码
echo 'export HADOOP_HOME=/opt/hadoop' >> ~/.bashrc
echo 'export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin' >> ~/.bashrc
source ~/.bashrc
  1. 配置 Hadoop
    • core-site.xml

      xml

      复制代码
      <configuration>
          <property>
              <name>fs.defaultFS</name>
              <value>hdfs://localhost:9000</value>
          </property>
      </configuration>
    • hdfs-site.xml

      xml

      复制代码
      <configuration>
          <property>
              <name>dfs.replication</name>
              <value>1</value>
          </property>
          <property>
              <name>dfs.namenode.name.dir</name>
              <value>file:/opt/hadoop/data/namenode</value>
          </property>
          <property>
              <name>dfs.datanode.data.dir</name>
              <value>file:/opt/hadoop/data/datanode</value>
          </property>
      </configuration>

三、启动 Hadoop

  1. 格式化 NameNode

bash

复制代码
hdfs namenode -format
  1. 启动 HDFS 和 YARN

bash

复制代码
start-dfs.sh
start-yarn.sh
  1. 验证服务
    访问 http://localhost:9870 查看 HDFS 界面,http://localhost:8088 查看 YARN 界面。

四、运行 WordCount 程序

  1. 准备输入数据

bash

复制代码
echo "Hello Hadoop World" > input.txt
hdfs dfs -mkdir -p /user/input
hdfs dfs -put input.txt /user/input
  1. 执行 WordCount

bash

复制代码
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount /user/input /user/output
  1. 查看结果

bash

复制代码
hdfs dfs -cat /user/output/part-r-00000
相关推荐
desond4 小时前
杭州抖音代运营公司怎么选?品牌来杭考察前的选择参考
大数据·产品运营
数智化精益手记局5 小时前
拆解复杂项目管理流程:用项目管理流程解决跨部门协作低效难题
大数据·运维·数据库·人工智能·产品运营
xhtdj5 小时前
Uber 如何通过批处理实现单账户每秒30+次更新
大数据·数据库·人工智能·安全·动态规划
湘美书院--湘美谈教育5 小时前
湘美谈教育AI赋能系列经验集锦:学好唐诗宋词的点滴心得体会
大数据·人工智能·深度学习·神经网络·机器学习
暴躁小师兄数据学院6 小时前
【AI大数据工程师特训笔记】第15讲:大数据环境安装
大数据·hadoop·flink·spark
挨踢诗人6 小时前
领星ERP集成金蝶云星空
大数据·信息可视化
andafaAPS6 小时前
安达发|汽车零部件行业aps生产排程:人工排产之困到智能调度之变
大数据·人工智能·汽车·aps生产排程·计划排产软件·自动排单软件
Promise微笑6 小时前
精准微阻测量:微欧计的分类、场景应用与高效选型决策指南
大数据·运维·网络·人工智能
QiLinkOS6 小时前
QiLink开源生态的三维重构:基于时间、空间与社会价值的底层规则创新白皮书
大数据·c++·人工智能·科技·算法·gitee·开源
qq_436962186 小时前
从“技术稀缺”到“人人可用”:奥威BI+AI如何复刻工业革命级变革
大数据·人工智能