MapReduce实验:分析和编写WordCount程序(对文本进行查重)

实验环境:已经部署好的Hadoop环境 Hadoop安装、配置与管理_centos hadoop安装-CSDN博客

实验目的:对输入文件统计单词频率

实验过程:

1、准备文件

test.txt文件,它是你需要准备的原始数据文件,存放在你的 Linux 系统(运行 Hadoop 命令的机器)本地磁盘上的某个位置。文件内容可以是任意文本数据,比如一些段落、句子、单词等,以便进行词频统计(wordcount)等操作。(里面可以随便复制一些相同的单词,可以进行文件内容查重统计)

新建一个测试数据文件test.txt ,上传到Linux虚拟机的/sample/test.txt目录(若没有目录则创建一个)

2、启动 Hadoop 服务

start-dfs.sh

start-yarn.sh

3、上传数据到 HDFS

在HDFS上创建目录,并将待处理的数据文件上传到该目录:

hdfs dfs -mkdir -p /sample/input

hdfs dfs -mkdir -p /sample/output

hdfs dfs -put /sample/test.txt /sample/input //将txt文件保存在/sample/input目录里

4、进行测试

先查找Hadoop-mapreduce-examples-2.7.3.jar解压包的位置

find / -name "hadoop-mapreduce-examples-2.7.3.jar"


hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /sample/input/test.txt /sample/test-result

/usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar //解压包的位置

/sample/input/test.txt //txt在hdfs里面的位置

/sample/test-result //文件查重之后生成文件所放的目录

5、结果验证

查找以 part- 开头的结果文件: hdfs dfs -ls /sample/test-result

使用命令查看文件得到单词的词频统计结果:

hdfs dfs -cat /sample/test-result/part-r-00000

每行的格式是 "单词 词频",中间以制表符分隔。这个结果是 MapReduce 作业成功执行后,对输入文本中单词出现次数的统计汇总。

相关推荐
B站_计算机毕业设计之家1 小时前
计算机视觉:python车牌识别检测系统 YOLOv8 深度学习pytorch技术 LPRNet车牌识别算法 CCPD2020数据集 ✅
大数据·python·深度学习·机器学习·计算机视觉·数据分析·车牌识别
FreeBuf_4 小时前
从“策略对抗”到“模型对抗”:朴智平台如何重塑金融风控新范式?
大数据·人工智能
HitpointNetSuite5 小时前
连锁餐饮行业ERP如何选择:为何Oracle NetSuite成为增长新引擎
大数据·运维·数据库·oracle·netsuite
EasyCVR10 小时前
从汇聚到智能:解析视频融合平台EasyCVR视频智能分析技术背后的关键技术
大数据·人工智能
hqyjzsb12 小时前
2025文职转行AI管理岗:衔接型认证成为关键路径
大数据·c语言·人工智能·信息可视化·媒体·caie
sniper_fandc12 小时前
Elasticsearch从入门到进阶——分布式特性
大数据·分布式·elasticsearch
YangYang9YangYan13 小时前
大专计算机技术专业就业方向:解读、规划与提升指南
大数据·人工智能·数据分析
扫地的小何尚14 小时前
AI创新的火花:NVIDIA DGX Spark开箱与深度解析
大数据·人工智能·spark·llm·gpu·nvidia·dgx
B站_计算机毕业设计之家14 小时前
spark实战:python股票数据分析可视化系统 Flask框架 金融数据分析 Echarts可视化 大数据技术 ✅
大数据·爬虫·python·金融·数据分析·spark·股票
hzp66614 小时前
spark动态分区参数spark.sql.sources.partitionOverwriteMode
大数据·hive·分布式·spark·etl·partitionover