经典hadoop案例应用(命令实现版)

1.wordcount 词频

hadoop jar ./share/hadoop-example.jar wordcount /input /output

root@node01 \~# hadoop jar /opt/bigdata/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount /input /output2

2.pi

hadoop jar ./share/hadoop-examples.jar pi 100 100000000

第1个100指的是要运行100次map任务

第2个数字指的是每个map任务,要投掷多少次

3.sudoku 九宫图

hadoop jar ./hadoop-mapreduce-examples-2.7.1.jar sudoku /home/bigdata/data/

puzzle(源数据)

8 5 ? 3 9 ? ? ? ?

? ? 2 ? ? ? ? ? ?

? ? 6 ? 1 ? ? ? 2

? ? 4 ? ? 3 ? 5 9

? ? 8 9 ? 1 4 ? ?

3 2 ? 4 ? ? 8 ? ?

9 ? ? ? 8 ? 5 ? ?

? ? ? ? ? ? 2 ? ?

? ? ? ? 4 5 ? 7 8

  1. teragen 按照kv自动的生成数据用的。

描述一下:每一行,是一条数据。每一条,由2部分组成,前面是一个由10个随即字符组成的key,后面是一个80个字符组成的value。

排序的任务:按照key的顺序排。

1TB排序通常用于衡量分布式数据处理框架的数据处理能力。Terasort是Hadoop中的的一个排序作业,在2008年,Hadoop在1TB排序基准评估中赢得第一名,耗时209秒。

hadoop jar hadoop-0.20.1-examples.jar teragen 1000000 /output

  1. grep 查找文本中出现的自定关键字的 数量

hadoop jar hadoop-mapreduce-examples-2.7.1.jar grep /bigdata/input/file /bigdata/output/out5 'd'

  1. SecondarySort 二次排序

hadoop jar hadoop-mapreduce-examples-2.7.1.jar secondarysort /bigdata/input/file2 /bigdata/output/out13

源数据:

20 21

50 51

50 52

50 53

50 54

60 51

60 53

60 52

60 56

60 57

70 58

60 61

70 54

70 55

70 56

70 57

70 58

1 2

3 4

5 6

7 82

203 21

50 512

50 522

50 53

530 54

40 511

20 53

20 522

60 56

60 57

740 58

63 61

730 54

71 55

71 56

73 57

74 58

12 211

31 42

50 62

7 8

相关推荐
小此方1 天前
Re:Linux系统篇(二十六)进程篇·十一:从底层原理到 exec* 家族:彻底搞懂 Linux 进程程序替换
linux·运维·服务器
wgc2k1 天前
Node.js游戏服务器项目移植 3-手撸简单的内存泄露监控
服务器·游戏·node.js
Unbelievabletobe1 天前
解决了股票api接口盘后数据更新慢的问题
大数据·开发语言·python
tedcloud1231 天前
DeepSeek-TUI部署教程:打造CLI AI助手环境
服务器·人工智能·word·excel·dreamweaver
Promise微笑1 天前
2026年中国驱鸟器市场格局与主流品牌技术
大数据·人工智能
无情的西瓜皮1 天前
MCP协议实战:用Python从零搭建一个AI Agent工具服务器(保姆级教程)
服务器·人工智能·python·mcp
万能的知了1 天前
服务器托管 vs 云主机 vs 裸金属:一个决策故事
运维·服务器·云计算
幽络源小助理1 天前
最新知识付费系统网站源码 PC+H5双端 附安装教程 – 幽络源源码网
大数据·数据库
luweis1 天前
企智孪生 ETA(3.3 认知算法层:ETA 的思维内核 3.4 基础架构:算力与弹性)【浙江联保网络 卢伟舜】
大数据·运维·线性代数·ai·矩阵·学习方法