【分布式计算框架 MapReduce】高级编程—多任务数据分析

目录

[一、对于 sogou_500w_utf 数据,使用 MapReduce 编程模型完成对以下数据的分析任务。](#一、对于 sogou_500w_utf 数据,使用 MapReduce 编程模型完成对以下数据的分析任务。)

[1. 统计搜索的关键字查询频度,找出搜索次数超过 20 次的关键字的个数。](#1. 统计搜索的关键字查询频度,找出搜索次数超过 20 次的关键字的个数。)

[① 运行截图](#① 运行截图)

[② 源代码](#② 源代码)

[二、改造 WordCount 程序,使得结果的排序规则为按照单词词频从大到小排序。](#二、改造 WordCount 程序,使得结果的排序规则为按照单词词频从大到小排序。)

[1. 输入](#1. 输入)

[2. 输出](#2. 输出)

[3. 源代码](#3. 源代码)


一、对于 sogou_500w_utf 数据,使用 MapReduce 编程模型完成对以下数据的分析任务。

1. 统计搜索的关键字查询频度,找出搜索次数超过 20 次的关键字的个数。

① 运行截图

bash 复制代码
hadoop jar /home/2130502441ryx/SogouKeyWord.jar org/ryx/KeyWordDriver /sogou.500.utf8 /output8

查看输出文件

bash 复制代码
hdfs dfs -ls /output8

查看运行结果:(前四十条)

bash 复制代码
hdfs dfs -cat /output8/part-r-00000 | head -n 40

② 源代码

KeyWordMapper.java

KeyWordReducer.java

KeyWordDriver.java

二、改造 WordCount 程序,使得结果的排序规则为按照单词词频从大到小排序。

1. 输入

bash 复制代码
hdfs dfs -cat /input2

2. 输出

bash 复制代码
hadoop jar /home/2130502441ryx/MapReduceTest.jar org/ryx/WordCount /input2 /output9
bash 复制代码
hdfs dfs -ls /output9

hdfs dfs -cat /output9/part-r-00000

3. 源代码

相关推荐
dblens 数据库管理和开发工具12 小时前
我给 SQLite 做了一个带 Agent 的桌面工具
数据库·sqlite
m0_4636722012 小时前
如何理解闭包对内存的影响并手动解除引用防止泄漏
jvm·数据库·python
逸Y 仙X12 小时前
文章二十八:ElasticSearch 运用指标聚合快速统计数值
java·大数据·elasticsearch·搜索引擎·全文检索
m0_7364393012 小时前
如何处理无法修改主键列的问题_先删除AUTO_INCREMENT再移除主键的顺序
jvm·数据库·python
TENSORTEC腾视科技12 小时前
腾视科技重磅发布AD03行车记录仪DashCam!全维守护,智驭出行新生态
大数据·网络·人工智能·科技·ai·无人叉车解决方案·无人叉车及智能调度系统解决方案
学编程的小程12 小时前
WHERE 子句里的“暗雷“:当函数副作用撞上数据库优化器
数据库
容智信息12 小时前
不写SQL,不拉Excel:数据分析用“问”的
数据库·人工智能·笔记·数据分析·excel·知识图谱·知识库
2401_8987176612 小时前
如何在 SvelteKit 中为动态加载的图片正确实现悬停显示覆盖层
jvm·数据库·python
HalvmånEver12 小时前
MySQL视图
linux·数据库·学习·mysql·视图
森普智慧农业12 小时前
乡村振兴标杆之浙江安吉余村,智慧农业+生态振兴标杆
大数据·科技·生活