【分布式计算框架 MapReduce】高级编程—多任务数据分析

目录

[一、对于 sogou_500w_utf 数据,使用 MapReduce 编程模型完成对以下数据的分析任务。](#一、对于 sogou_500w_utf 数据,使用 MapReduce 编程模型完成对以下数据的分析任务。)

[1. 统计搜索的关键字查询频度,找出搜索次数超过 20 次的关键字的个数。](#1. 统计搜索的关键字查询频度,找出搜索次数超过 20 次的关键字的个数。)

[① 运行截图](#① 运行截图)

[② 源代码](#② 源代码)

[二、改造 WordCount 程序,使得结果的排序规则为按照单词词频从大到小排序。](#二、改造 WordCount 程序,使得结果的排序规则为按照单词词频从大到小排序。)

[1. 输入](#1. 输入)

[2. 输出](#2. 输出)

[3. 源代码](#3. 源代码)


一、对于 sogou_500w_utf 数据,使用 MapReduce 编程模型完成对以下数据的分析任务。

1. 统计搜索的关键字查询频度,找出搜索次数超过 20 次的关键字的个数。

① 运行截图

bash 复制代码
hadoop jar /home/2130502441ryx/SogouKeyWord.jar org/ryx/KeyWordDriver /sogou.500.utf8 /output8

查看输出文件

bash 复制代码
hdfs dfs -ls /output8

查看运行结果:(前四十条)

bash 复制代码
hdfs dfs -cat /output8/part-r-00000 | head -n 40

② 源代码

KeyWordMapper.java

KeyWordReducer.java

KeyWordDriver.java

二、改造 WordCount 程序,使得结果的排序规则为按照单词词频从大到小排序。

1. 输入

bash 复制代码
hdfs dfs -cat /input2

2. 输出

bash 复制代码
hadoop jar /home/2130502441ryx/MapReduceTest.jar org/ryx/WordCount /input2 /output9
bash 复制代码
hdfs dfs -ls /output9

hdfs dfs -cat /output9/part-r-00000

3. 源代码

相关推荐
喜欢猪猪8 分钟前
Spring Boot 3.0响应式编程:订阅与发布、Flow的使用场景及优势解析
大数据
fajianchen29 分钟前
当Elasticsearch索引数据量过多时,可以采取以下措施进行优化和部署
大数据·elasticsearch·搜索引擎
WhoisXMLAPI1 小时前
新的 WhoisXML API 白皮书重点分析了主要 gTLD 和 ccTLD 注册趋势
运维·服务器·网络·数据库·网络协议·安全
viperrrrrrrrrr71 小时前
大数据学习(32)-spark基础总结
大数据·学习·spark
张声录12 小时前
Redis Exporter 安装与配置指南(v1.67.0)
数据库·redis·缓存
人总该做点什么2 小时前
【数据库】一、数据库系统概述
数据库·sql·mysql·sqlserver
头发多的码农3 小时前
mysql、postgresql、druid链接池踩坑记录
数据库·mysql·postgresql
leegong231113 小时前
PostgreSQL 中级学习
数据库·学习·postgresql
LifeEnjoyer3 小时前
数据库汇总3(SQL with 关系代数)
数据库·sql·oracle
曹二7473 小时前
MySQL 视图 存储过程与存储函数
数据库·mysql