Hadoop之WordCount测试

1、Hadoop简介:

Hadoop是Apache旗下的一个用Java语言实现的开源软件框架,是一个开发和运行处理大规模数据的软件平台。

Hadoop的核心组件包括Hadoop分布式文件系统(HDFS)和MapReduce编程模型。HDFS是一个高度容错的系统,用于存储大规模数据集,具有高可靠性、高扩展性和高吞吐率的特点。MapReduce则是一个用于处理这些数据集的编程模型,它简化了并行编程的复杂性,使得开发者可以专注于业务逻辑的实现。

Hadoop的优势在于其高可靠性、高扩展性、高效性、高容错性以及低成本。它能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。此外,Hadoop还提供了一个完备的生态系统,包括了许多与之配合使用的开源工具和组件,如Hive、Pig、HBase、ZooKeeper等,这些工具可以快速地构建数据分析和处理系统。

很多Hadoop应用都是基于WordCount所代表的MapReduce编程模型变化而来,因此,WordCount可以算是入门Hadoop的"Helloworld"程序,本文将详细说明如何运行一个WordCount任务。

2、Ubuntu安装Hadoop

详见:Ubuntu安装Hadoop3.4-CSDN博客

3、WordCount测试

启动Hadoop:

bash 复制代码
start-all.sh

在Hadoop中创建测试文件夹

bash 复制代码
$ hdfs dfs -mkdir /user
$ hdfs dfs -mkdir /user/hadoop

上传本地文件至hadoop用作后续测试:

bash 复制代码
$ hdfs dfs -put /home/hadoop/training/hadoop-3.4.0/etc/hadoop /user/hadoop/input

查看上传的文件:

bash 复制代码
hdfs dfs -ls /user/hadoop/input

在share/hadoop目录中有一些示例jar包,我们将运行hadoop-mapreduce-examples-3.4.0.jar来完成词频统计任务。

bash 复制代码
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.4.0.jar wordcount /user/hadoop/input /user/hadoop/output

完成此任务需要一些时间,需要耐心等待,可以在终端看到运行过程。

WordCount任务完成后,将output下载至本地:

bash 复制代码
hdfs dfs -get /user/hadoop/output output

查看词频统计结果:

相关推荐
若雨叶36 分钟前
Kafka实现监听多个topic
分布式·kafka
HaoHao_01038 分钟前
云消息队列 Kafka 版
分布式·阿里云·kafka·云计算·云服务器
中东大鹅2 小时前
分布式数据存储基础与HDFS操作实践
大数据·linux·hadoop·分布式·hbase
zybishe2 小时前
免费送源码:Java+ssm++MVC+HTML+CSS+MySQL springboot 社区医院信息管理系统的设计与实现 计算机毕业设计原创定制
java·hadoop·sql·zookeeper·html·json·mvc
Y编程小白2 小时前
Git版本控制工具--基础命令和分支管理
大数据·git·elasticsearch
04Koi.4 小时前
Java项目--仿RabbitMQ的消息队列--网络通信协议设计
分布式·rabbitmq
不爱学习的YY酱4 小时前
【操作系统不挂科】<内存管理-文件系统实现(18)>选择题(带答案与解析)
java·大数据·数据库
guanpinkeji4 小时前
陪诊小程序搭建,打造一站式陪诊服务
大数据·小程序·小程序开发·陪诊·陪诊小程序
胡耀超5 小时前
如何从全局视角规划项目与战略决策(“精准接送”案例、技术架构设计与选型、业务逻辑及产品商业模式探讨)
大数据·数据挖掘·软件架构·商业模式·数据管理
Code apprenticeship5 小时前
RabbitMQ如何实现延时队列?
分布式·rabbitmq