【分布式计算框架 MapReduce】高级编程—多任务数据分析

目录

[一、对于 sogou_500w_utf 数据,使用 MapReduce 编程模型完成对以下数据的分析任务。](#一、对于 sogou_500w_utf 数据,使用 MapReduce 编程模型完成对以下数据的分析任务。)

[1. 统计搜索的关键字查询频度,找出搜索次数超过 20 次的关键字的个数。](#1. 统计搜索的关键字查询频度,找出搜索次数超过 20 次的关键字的个数。)

[① 运行截图](#① 运行截图)

[② 源代码](#② 源代码)

[二、改造 WordCount 程序,使得结果的排序规则为按照单词词频从大到小排序。](#二、改造 WordCount 程序,使得结果的排序规则为按照单词词频从大到小排序。)

[1. 输入](#1. 输入)

[2. 输出](#2. 输出)

[3. 源代码](#3. 源代码)


一、对于 sogou_500w_utf 数据,使用 MapReduce 编程模型完成对以下数据的分析任务。

1. 统计搜索的关键字查询频度,找出搜索次数超过 20 次的关键字的个数。

① 运行截图

bash 复制代码
hadoop jar /home/2130502441ryx/SogouKeyWord.jar org/ryx/KeyWordDriver /sogou.500.utf8 /output8

查看输出文件

bash 复制代码
hdfs dfs -ls /output8

查看运行结果:(前四十条)

bash 复制代码
hdfs dfs -cat /output8/part-r-00000 | head -n 40

② 源代码

KeyWordMapper.java

KeyWordReducer.java

KeyWordDriver.java

二、改造 WordCount 程序,使得结果的排序规则为按照单词词频从大到小排序。

1. 输入

bash 复制代码
hdfs dfs -cat /input2

2. 输出

bash 复制代码
hadoop jar /home/2130502441ryx/MapReduceTest.jar org/ryx/WordCount /input2 /output9
bash 复制代码
hdfs dfs -ls /output9

hdfs dfs -cat /output9/part-r-00000

3. 源代码

相关推荐
小陈phd14 小时前
langGraph从入门到精通(六)——基于 LangGraph 实现结构化输出与智能 Router 路由代理
android·网络·数据库
安当加密14 小时前
电力系统如何防“明文传输”?某电网公司用SM2+UKey构建“端到端加密”实战
服务器·数据库·安全·阿里云
BD_Marathon14 小时前
动态SQL(六)foreach标签2
数据库·sql
小豪GO!14 小时前
数据库-八股
数据库
IT大白14 小时前
1、一条SQL是如何执行的
数据库·sql
变身缎带14 小时前
Unity里基于Luban的buff系统
数据库·unity·游戏引擎
北京地铁1号线14 小时前
2.2 向量数据库
数据库·elasticsearch·milvus·faiss·向量数据库·hnsw
悟能不能悟14 小时前
查找oracle,存储过程包含某个单词的存储过程名称
数据库·oracle
HXDGCL14 小时前
大会观察 | 破除创新链堵点:论“工厂直供”模式如何加速自动化核心部件迭代
大数据·人工智能·自动化·自动化生产线·环形导轨
马克学长14 小时前
SSM学生综合考评系统b8vlm(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面
数据库·ssm 框架·学生综合考评系统·高校学生管理、