经典hadoop案例应用(命令实现版)

1.wordcount 词频

hadoop jar ./share/hadoop-example.jar wordcount /input /output

root@node01 \~# hadoop jar /opt/bigdata/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount /input /output2

2.pi

hadoop jar ./share/hadoop-examples.jar pi 100 100000000

第1个100指的是要运行100次map任务

第2个数字指的是每个map任务,要投掷多少次

3.sudoku 九宫图

hadoop jar ./hadoop-mapreduce-examples-2.7.1.jar sudoku /home/bigdata/data/

puzzle(源数据)

8 5 ? 3 9 ? ? ? ?

? ? 2 ? ? ? ? ? ?

? ? 6 ? 1 ? ? ? 2

? ? 4 ? ? 3 ? 5 9

? ? 8 9 ? 1 4 ? ?

3 2 ? 4 ? ? 8 ? ?

9 ? ? ? 8 ? 5 ? ?

? ? ? ? ? ? 2 ? ?

? ? ? ? 4 5 ? 7 8

  1. teragen 按照kv自动的生成数据用的。

描述一下:每一行,是一条数据。每一条,由2部分组成,前面是一个由10个随即字符组成的key,后面是一个80个字符组成的value。

排序的任务:按照key的顺序排。

1TB排序通常用于衡量分布式数据处理框架的数据处理能力。Terasort是Hadoop中的的一个排序作业,在2008年,Hadoop在1TB排序基准评估中赢得第一名,耗时209秒。

hadoop jar hadoop-0.20.1-examples.jar teragen 1000000 /output

  1. grep 查找文本中出现的自定关键字的 数量

hadoop jar hadoop-mapreduce-examples-2.7.1.jar grep /bigdata/input/file /bigdata/output/out5 'd'

  1. SecondarySort 二次排序

hadoop jar hadoop-mapreduce-examples-2.7.1.jar secondarysort /bigdata/input/file2 /bigdata/output/out13

源数据:

20 21

50 51

50 52

50 53

50 54

60 51

60 53

60 52

60 56

60 57

70 58

60 61

70 54

70 55

70 56

70 57

70 58

1 2

3 4

5 6

7 82

203 21

50 512

50 522

50 53

530 54

40 511

20 53

20 522

60 56

60 57

740 58

63 61

730 54

71 55

71 56

73 57

74 58

12 211

31 42

50 62

7 8

相关推荐
大大大大晴天3 天前
Hudi技术内幕:RecordPayload到RecordMerger
大数据
SelectDB4 天前
秒级弹性、最高降本 70%:SelectDB Serverless 如何重塑云数仓资源效率
大数据·后端·云原生
WhoAmI4 天前
MapReduce框架原理解析一:InputFormat
大数据·hadoop
WhoAmI4 天前
MapReduce框架原理解析三:OutputFormat
大数据·hadoop
WhoAmI4 天前
MapReduce框架原理解析二:Shuffle
大数据·hadoop
大大大大晴天5 天前
Hudi技术内幕:Key Generation原理与实践
大数据
zzzzzz3105 天前
9K Star 炸裂开源!这个 C 语言写的代码知识图谱,把 Linux 内核索引压缩到了 3 分钟
linux·服务器·sql
得物技术8 天前
从埋点需求到规则资产:Hermes Agent 重构得物数仓工作流
大数据·llm·ai编程
久美子8 天前
AI驱动数仓建设的Harness工程实践——本体建模、知识分层与上下文工程
大数据
大树889 天前
金刚石散热越强,管路越先见顶
大数据·运维·服务器·人工智能·ai