【分布式计算框架 MapReduce】高级编程—多任务数据分析

目录

[一、对于 sogou_500w_utf 数据,使用 MapReduce 编程模型完成对以下数据的分析任务。](#一、对于 sogou_500w_utf 数据,使用 MapReduce 编程模型完成对以下数据的分析任务。)

[1. 统计搜索的关键字查询频度,找出搜索次数超过 20 次的关键字的个数。](#1. 统计搜索的关键字查询频度,找出搜索次数超过 20 次的关键字的个数。)

[① 运行截图](#① 运行截图)

[② 源代码](#② 源代码)

[二、改造 WordCount 程序,使得结果的排序规则为按照单词词频从大到小排序。](#二、改造 WordCount 程序,使得结果的排序规则为按照单词词频从大到小排序。)

[1. 输入](#1. 输入)

[2. 输出](#2. 输出)

[3. 源代码](#3. 源代码)


一、对于 sogou_500w_utf 数据,使用 MapReduce 编程模型完成对以下数据的分析任务。

1. 统计搜索的关键字查询频度,找出搜索次数超过 20 次的关键字的个数。

① 运行截图

bash 复制代码
hadoop jar /home/2130502441ryx/SogouKeyWord.jar org/ryx/KeyWordDriver /sogou.500.utf8 /output8

查看输出文件

bash 复制代码
hdfs dfs -ls /output8

查看运行结果:(前四十条)

bash 复制代码
hdfs dfs -cat /output8/part-r-00000 | head -n 40

② 源代码

KeyWordMapper.java

KeyWordReducer.java

KeyWordDriver.java

二、改造 WordCount 程序,使得结果的排序规则为按照单词词频从大到小排序。

1. 输入

bash 复制代码
hdfs dfs -cat /input2

2. 输出

bash 复制代码
hadoop jar /home/2130502441ryx/MapReduceTest.jar org/ryx/WordCount /input2 /output9
bash 复制代码
hdfs dfs -ls /output9

hdfs dfs -cat /output9/part-r-00000

3. 源代码

相关推荐
NiceCloud喜云3 小时前
Opus 4.8 的 Effort Control 怎么选:Low 到 Max 五档策略
android·java·大数据·前端·c++·python·spring
ccddsdsdfsdf3 小时前
DBeaver怎么链接mongoDB
数据库·mongodb
Are_You_Okkk_3 小时前
基于MonkeyCode解析AI研发新模式,根治开发低效痛点
大数据·人工智能·开源·ai编程
丷丩4 小时前
Postgresql基础实践教程(十一)各种Join
数据库·postgresql·join
星夜夏空994 小时前
FreeRTOS学习(4)——内存映射
数据库·学习·mongodb
科技AI训练师4 小时前
2026高压清洗泵厂家选择指南:判断标准与选购要点
大数据·人工智能
Percent_bigdata4 小时前
“模数共振”开启产业AI新阶段,重新定义数据治理
大数据·人工智能
TheRouter5 小时前
AI Agent 记忆体系建设实战:短期、长期与工作记忆的工程实现
数据库·人工智能·oracle
Omics Pro5 小时前
首个!外源天然产物综合性代谢图谱
数据库·人工智能·算法·机器学习·r语言
狒狒热知识6 小时前
2026年AI传播新闻软文营销发布当下178软文网领衔发展路径
大数据·人工智能