经典hadoop案例应用(命令实现版)

1.wordcount 词频

hadoop jar ./share/hadoop-example.jar wordcount /input /output

root@node01 \~\]# hadoop jar /opt/bigdata/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount /input /output2 2.pi hadoop jar ./share/hadoop-examples.jar pi 100 100000000 第1个100指的是要运行100次map任务 第2个数字指的是每个map任务,要投掷多少次 3.sudoku 九宫图 hadoop jar ./hadoop-mapreduce-examples-2.7.1.jar sudoku /home/bigdata/data/ puzzle(源数据) 8 5 ? 3 9 ? ? ? ? ? ? 2 ? ? ? ? ? ? ? ? 6 ? 1 ? ? ? 2 ? ? 4 ? ? 3 ? 5 9 ? ? 8 9 ? 1 4 ? ? 3 2 ? 4 ? ? 8 ? ? 9 ? ? ? 8 ? 5 ? ? ? ? ? ? ? ? 2 ? ? ? ? ? ? 4 5 ? 7 8 4. teragen 按照kv自动的生成数据用的。 描述一下:每一行,是一条数据。每一条,由2部分组成,前面是一个由10个随即字符组成的key,后面是一个80个字符组成的value。 排序的任务:按照key的顺序排。 1TB排序通常用于衡量分布式数据处理框架的数据处理能力。Terasort是Hadoop中的的一个排序作业,在2008年,Hadoop在1TB排序基准评估中赢得第一名,耗时209秒。 hadoop jar hadoop-0.20.1-examples.jar teragen 1000000 /output 5. grep 查找文本中出现的自定关键字的 数量 hadoop jar hadoop-mapreduce-examples-2.7.1.jar grep /bigdata/input/file /bigdata/output/out5 'd' 5. SecondarySort 二次排序 hadoop jar hadoop-mapreduce-examples-2.7.1.jar secondarysort /bigdata/input/file2 /bigdata/output/out13 源数据: 20 21 50 51 50 52 50 53 50 54 60 51 60 53 60 52 60 56 60 57 70 58 60 61 70 54 70 55 70 56 70 57 70 58 1 2 3 4 5 6 7 82 203 21 50 512 50 522 50 53 530 54 40 511 20 53 20 522 60 56 60 57 740 58 63 61 730 54 71 55 71 56 73 57 74 58 12 211 31 42 50 62 7 8

相关推荐
企查查数据服务39 分钟前
融资租赁尽调自动化:我是如何用 API 实现金规25号文的穿透式核查
大数据·ai·企业数据api
大江东去浪淘尽千古风流人物42 分钟前
【Kimera】MIT SPARK 实时度量-语义 SLAM 全栈解析:VIO + 鲁棒 PGO + 语义网格四模块架构与 EuRoC 实测深度剖析
大数据·架构·spark
Sandy_Star43 分钟前
1.7 税务行政法律救济
大数据·单元测试
|_⊙1 小时前
Linux 深入理解文件(IO)
linux·运维·服务器
GIS数据转换器1 小时前
蓄能电力大数据监管平台
大数据·人工智能·分布式·数据挖掘·数据分析·智慧城市
大江东去浪淘尽千古风流人物1 小时前
【Kimera-VIO】MIT SPARK 实时度量-语义 VIO/SLAM:六模块并行架构与智能因子图优化深度解析
大数据·架构·spark
largecode1 小时前
给用户打电话,怎么在对方手机显示为“XX旅游”?号码认证办理教程
linux·服务器·容器·智能手机·ssh·旅游·vagrant
guslegend1 小时前
第8节:工程初始化-后端骨架与公共基础设施
大数据·人工智能
大江东去浪淘尽千古风流人物1 小时前
【Kimera-Semantics】实时三维语义重建深度解析:Fast/Merged 双路积分、对数概率体素 Bayesian 融合与 ROS 全链路实现
大数据·架构·spark