【分布式计算框架 MapReduce】高级编程—多任务数据分析

目录

[一、对于 sogou_500w_utf 数据,使用 MapReduce 编程模型完成对以下数据的分析任务。](#一、对于 sogou_500w_utf 数据,使用 MapReduce 编程模型完成对以下数据的分析任务。)

[1. 统计搜索的关键字查询频度,找出搜索次数超过 20 次的关键字的个数。](#1. 统计搜索的关键字查询频度,找出搜索次数超过 20 次的关键字的个数。)

[① 运行截图](#① 运行截图)

[② 源代码](#② 源代码)

[二、改造 WordCount 程序,使得结果的排序规则为按照单词词频从大到小排序。](#二、改造 WordCount 程序,使得结果的排序规则为按照单词词频从大到小排序。)

[1. 输入](#1. 输入)

[2. 输出](#2. 输出)

[3. 源代码](#3. 源代码)


一、对于 sogou_500w_utf 数据,使用 MapReduce 编程模型完成对以下数据的分析任务。

1. 统计搜索的关键字查询频度,找出搜索次数超过 20 次的关键字的个数。

① 运行截图

bash 复制代码
hadoop jar /home/2130502441ryx/SogouKeyWord.jar org/ryx/KeyWordDriver /sogou.500.utf8 /output8

查看输出文件

bash 复制代码
hdfs dfs -ls /output8

查看运行结果:(前四十条)

bash 复制代码
hdfs dfs -cat /output8/part-r-00000 | head -n 40

② 源代码

KeyWordMapper.java

KeyWordReducer.java

KeyWordDriver.java

二、改造 WordCount 程序,使得结果的排序规则为按照单词词频从大到小排序。

1. 输入

bash 复制代码
hdfs dfs -cat /input2

2. 输出

bash 复制代码
hadoop jar /home/2130502441ryx/MapReduceTest.jar org/ryx/WordCount /input2 /output9
bash 复制代码
hdfs dfs -ls /output9

hdfs dfs -cat /output9/part-r-00000

3. 源代码

相关推荐
倔强的石头_2 天前
《Kingbase护城河》——数据库存储空间全景探测与精细化瘦身实战
数据库
冬奇Lab2 天前
每日一个开源项目(第134篇):Zvec - 阿里开源的嵌入式向量数据库,向量搜索界的 SQLite
数据库·人工智能·llm
ClouGence3 天前
Oracle CDC 架构优化:从主库直连到 DataGuard 备库同步
数据库·后端·oracle
得物技术3 天前
从埋点需求到规则资产:Hermes Agent 重构得物数仓工作流
大数据·llm·ai编程
久美子3 天前
AI驱动数仓建设的Harness工程实践——本体建模、知识分层与上下文工程
大数据
无响应de神3 天前
三、用户与权限管理
数据库·mysql
大树884 天前
金刚石散热越强,管路越先见顶
大数据·运维·服务器·人工智能·ai
大志哥1234 天前
ES和Logstash日志链路系统上线后遭遇切片爆炸(解决)
大数据·elasticsearch
果丁智能4 天前
物联网智能锁赋能集中式住宿:身份核验与远程权限管控的全链路技术实践
大数据·人工智能·物联网·智能家居
麦聪聊数据4 天前
数据服务化时代:企业数据能力输出的核心路径
数据库