十四、运行经典案例 wordcount

1、新建一个文本

  • 执行命令:
bash 复制代码
vim wordcount.txt
  • 输入以下内容:
bash 复制代码
Hello Hadoop
Bye Hadoop

2、上传文本到 HDFS

  • 在正式上传前,要先开启服务啊(已开启的可以忽略):
bash 复制代码
start-all.sh
  • 在 HDFS 文件系统中新建一个 input 目录:
bash 复制代码
hdfs dfs -mkdir /input
  • 确认 input 目录是否创建成功:
bash 复制代码
hdfs dfs -ls /
  • 上传 wordcount.txt 文件到 input 目录:
bash 复制代码
hdfs dfs -put wordcount.txt /input
  • 确认文件是否上传成功:
bash 复制代码
hdfs dfs -ls /input

3、运行 wordcount

进入 Hadoop 自带的经典案例目录:

bash 复制代码
cd /opt/module/hadoop-3.2.1/share/hadoop/mapreduce

执行 wordcount 并将结果输出值 output 目录:

bash 复制代码
hadoop jar hadoop-mapreduce-examples-3.2.1.jar wordcount /input /output

这条命令是在 Hadoop 环境中运行 MapReduce 示例程序中的 "词频统计(wordcount)" 任务,各部分含义如下:

  • hadoop: HADOOP_HOME/bin 下的 shell 脚本

  • jar: Hadoop 脚本需要的命令参数

  • hadoop jar:Hadoop 提供的用于运行 JAR 包中 MapReduce 程序的命令。

  • hadoop-mapreduce-examples-3.2.1.jar:Hadoop 自带的 MapReduce 示例程序 JAR 包(版本号 3.2.1,需与实际 Hadoop 版本对应),其中包含了 wordcount 等经典示例。

  • wordcount:指定要运行的示例程序类名,这里即词频统计程序,作用是统计输入文本中每个单词出现的次数。

  • /input:HDFS 上的输入目录路径,该目录下存放待统计的文本文件(需提前通过hdfs dfs -put等命令上传)。

  • /output:HDFS 上的输出目录路径,程序运行成功后,统计结果会写入该目录(注意:该目录必须是不存在的,否则会报错,需提前删除或更换名称)。

执行后,MapReduce 会自动完成 "映射(Map)" 和 "归约(Reduce)" 过程,最终在/output目录下生成结果文件(通常是part-r-00000),包含每个单词及其出现次数。

4、查看结果

查看运行结果所在的目录:

bash 复制代码
hdfs dfs -ls /output

查看 wordcount 运行结果:

bash 复制代码
hdfs dfs -cat /output/part-r-00000
相关推荐
2401_858936887 分钟前
【Linux C 编程】标准 IO 详解与实战:从基础接口到文件操作实战
linux·c语言
玄同76518 分钟前
Git常用命令指南
大数据·git·elasticsearch·gitee·github·团队开发·远程工作
Roc.Chang19 分钟前
Ubuntu 下 VLC 无法启动(Segmentation fault)终极解决方案
linux·ubuntu·vlc·媒体播放
松涛和鸣1 小时前
72、IMX6ULL驱动实战:设备树(DTS/DTB)+ GPIO子系统+Platform总线
linux·服务器·arm开发·数据库·单片机
简单中的复杂1 小时前
【避坑指南】RK3576 Linux SDK 编译:解决 Buildroot 卡死在 host-gcc-final 的终极方案
linux·嵌入式硬件
wVelpro2 小时前
如何在Pycharm 2025.3 版本实现虚拟环境“Make available to all projects”
linux·ide·pycharm
瑞华丽PLM2 小时前
电子行业国产PLM系统功能差异化对比表
大数据·plm·国产plm·瑞华丽plm·瑞华丽
程序员老舅2 小时前
C++高并发精髓:无锁队列深度解析
linux·c++·内存管理·c/c++·原子操作·无锁队列
雨中风华2 小时前
Linux, macOS系统实现远程目录访问(等同于windows平台xFsRedir软件的目录重定向)
linux·windows·macos
深圳市恒星物联科技有限公司3 小时前
水质流量监测仪:复合指标监测的管网智能感知设备
大数据·网络·人工智能