经典hadoop案例应用（命令实现版）

黄金矿工Kingliu2026-05-14 10:33

1.wordcount 词频

hadoop jar ./share/hadoop-example.jar wordcount /input /output

$root@node01 \~$ # hadoop jar /opt/bigdata/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount /input /output2

2.pi

hadoop jar ./share/hadoop-examples.jar pi 100 100000000

第1个100指的是要运行100次map任务

第2个数字指的是每个map任务，要投掷多少次

3.sudoku 九宫图

hadoop jar ./hadoop-mapreduce-examples-2.7.1.jar sudoku /home/bigdata/data/

puzzle（源数据）

8 5 ? 3 9 ? ? ? ?

? ? 2 ? ? ? ? ? ?

? ? 6 ? 1 ? ? ? 2

? ? 4 ? ? 3 ? 5 9

? ? 8 9 ? 1 4 ? ?

3 2 ? 4 ? ? 8 ? ?

9 ? ? ? 8 ? 5 ? ?

? ? ? ? ? ? 2 ? ?

? ? ? ? 4 5 ? 7 8

teragen 按照kv自动的生成数据用的。

描述一下：每一行，是一条数据。每一条，由2部分组成，前面是一个由10个随即字符组成的key，后面是一个80个字符组成的value。

排序的任务：按照key的顺序排。

1TB排序通常用于衡量分布式数据处理框架的数据处理能力。Terasort是Hadoop中的的一个排序作业，在2008年，Hadoop在1TB排序基准评估中赢得第一名，耗时209秒。

hadoop jar hadoop-0.20.1-examples.jar teragen 1000000 /output

grep 查找文本中出现的自定关键字的数量

hadoop jar hadoop-mapreduce-examples-2.7.1.jar grep /bigdata/input/file /bigdata/output/out5 'd'

SecondarySort 二次排序

hadoop jar hadoop-mapreduce-examples-2.7.1.jar secondarysort /bigdata/input/file2 /bigdata/output/out13

源数据：

20 21

50 51

50 52

50 53

50 54

60 51

60 53

60 52

60 56

60 57

70 58

60 61

70 54

70 55

70 56

70 57

70 58

1 2

3 4

5 6

7 82

203 21

50 512

50 522

50 53

530 54

40 511

20 53

20 522

60 56

60 57

740 58

63 61

730 54

71 55

71 56

73 57

74 58

12 211

31 42

50 62

7 8