1.wordcount 词频
hadoop jar ./share/hadoop-example.jar wordcount /input /output
root@node01 \~\]# hadoop jar /opt/bigdata/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount /input /output2 2.pi hadoop jar ./share/hadoop-examples.jar pi 100 100000000 第1个100指的是要运行100次map任务 第2个数字指的是每个map任务,要投掷多少次 3.sudoku 九宫图 hadoop jar ./hadoop-mapreduce-examples-2.7.1.jar sudoku /home/bigdata/data/ puzzle(源数据) 8 5 ? 3 9 ? ? ? ? ? ? 2 ? ? ? ? ? ? ? ? 6 ? 1 ? ? ? 2 ? ? 4 ? ? 3 ? 5 9 ? ? 8 9 ? 1 4 ? ? 3 2 ? 4 ? ? 8 ? ? 9 ? ? ? 8 ? 5 ? ? ? ? ? ? ? ? 2 ? ? ? ? ? ? 4 5 ? 7 8 4. teragen 按照kv自动的生成数据用的。 描述一下:每一行,是一条数据。每一条,由2部分组成,前面是一个由10个随即字符组成的key,后面是一个80个字符组成的value。 排序的任务:按照key的顺序排。 1TB排序通常用于衡量分布式数据处理框架的数据处理能力。Terasort是Hadoop中的的一个排序作业,在2008年,Hadoop在1TB排序基准评估中赢得第一名,耗时209秒。 hadoop jar hadoop-0.20.1-examples.jar teragen 1000000 /output 5. grep 查找文本中出现的自定关键字的 数量 hadoop jar hadoop-mapreduce-examples-2.7.1.jar grep /bigdata/input/file /bigdata/output/out5 'd' 5. SecondarySort 二次排序 hadoop jar hadoop-mapreduce-examples-2.7.1.jar secondarysort /bigdata/input/file2 /bigdata/output/out13 源数据: 20 21 50 51 50 52 50 53 50 54 60 51 60 53 60 52 60 56 60 57 70 58 60 61 70 54 70 55 70 56 70 57 70 58 1 2 3 4 5 6 7 82 203 21 50 512 50 522 50 53 530 54 40 511 20 53 20 522 60 56 60 57 740 58 63 61 730 54 71 55 71 56 73 57 74 58 12 211 31 42 50 62 7 8