【分布式计算框架 MapReduce】高级编程—搜索日志数据分析

目录

[一、对于 sogou_500w_utf 数据,使用 MapReduce 编程模型完成对以下数据的分析任务](#一、对于 sogou_500w_utf 数据,使用 MapReduce 编程模型完成对以下数据的分析任务)

[1. 统计 2011-12-30 日搜索记录,每个时间段的搜索次数](#1. 统计 2011-12-30 日搜索记录,每个时间段的搜索次数)

(1)运行截图

[(2) 源代码](#(2) 源代码)

[2. 统计 2011-12-30 日 3 点至 4 点之间,哪些 UID 访问了搜狗引擎。](#2. 统计 2011-12-30 日 3 点至 4 点之间,哪些 UID 访问了搜狗引擎。)

(1)运行截图

(2)源代码

[二、有两个输入文件 A 和 B,使用 MapReduce 编程合并文件,得到输出文件 C](#二、有两个输入文件 A 和 B,使用 MapReduce 编程合并文件,得到输出文件 C)

[1. 输入文件A和B如下](#1. 输入文件A和B如下)

[2. 通过MapReduce编程合并文件得到outputC](#2. 通过MapReduce编程合并文件得到outputC)

[3. 源代码](#3. 源代码)


一、对于 sogou_500w_utf 数据,使用 MapReduce 编程模型完成对以下数据的分析任务

1. 统计 2011-12-30 日搜索记录,每个时间段的搜索次数

(每小时为一个单位,比如 0 点钟多少次,1 点钟多少次,2 点钟多少次,一直到 23 点多少次)

(1)运行截图

bash 复制代码
hadoop jar /home/2130502441ryx/SearchCountJob.jar org/ryx/SearchCountJob /sogou.500.utf8 /output5
bash 复制代码
hdfs dfs -ls /output5

hdfs dfs -cat /output5/part-r-00000

(2) 源代码

① SearchCountMapper

② SearchCountReduct

③ SearchCountJob

2. 统计 2011-12-30 日 3 点至 4 点之间,哪些 UID 访问了搜狗引擎。

(1)运行截图

bash 复制代码
hadoop jar /home/2130502441ryx/UIDCountJob.jar org/ryx/SogouDriver /sogou.500.utf8 /output7

(下面截图贴错了,上面的运行命令才是正确的)

bash 复制代码
hdfs dfs -ls /output7

hdfs dfs -cat /output7/part-r-00000

(2)源代码

SogouMapper.java

SogouReducer.java

SogouDriver.java

二、有两个输入文件 A 和 B,使用 MapReduce 编程 合并文件 ,得到 输出文件 C

输入文件 A 的样例如下:

20150101 x

20150102 y

20150103 x

20150104 y

20150105 z

20150106 x

输入文件 B 的样例如下:

20150101 y

20150102 y

20150103 x

20150104 z

20150105 y

根据输入文件 A 和 B 合并得到的输出文件 C 的样例如下:

20150101 x

20150101 y

20150102 y

20150103 x

20150104 y

20150104 z

20150105 y

20150105 z

20150106 x

1. 输入文件A和B如下

bash 复制代码
hdfs dfs -cat /inputA
bash 复制代码
hdfs dfs -cat /inputB

2. 通过MapReduce编程合并文件得到outputC

bash 复制代码
hadoop jar /home/2130502441ryx/MergeFiles.jar org/ryx/MergeFiles /inputA /inputB /outputC
bash 复制代码
hdfs dfs -cat /outputC/part-r-00000

3. 源代码

① MergeMapper

② MergeReducer

③ MergeFiles

相关推荐
2601_9577875837 分钟前
企业级内容矩阵的安全合规体系构建与技术实现
大数据·安全·矩阵
百胜软件@百胜软件3 小时前
破局存量时代:消费电子品牌的数字化突围与增长密码
大数据·零售数字化·数智中台·珠宝行业
小王毕业啦4 小时前
2009-2025年 华证ESG年度季度评级评分数据 xlsx
大数据·人工智能·数据挖掘·数据分析·社科数据·实证分析·经管数据
_codemonster4 小时前
系统分析师案例刷题(五)系统分析、系统设计和需求工程
大数据
2601_957787584 小时前
数据驱动的多平台内容矩阵运营效果分析与闭环优化技术
大数据·人工智能·矩阵
189228048614 小时前
NV265固态MT29F32T08GSLBHL8-24QMES:B
大数据·服务器·人工智能·科技·缓存
一切皆是因缘际会5 小时前
AI技术新风口:边缘计算与智能体协同,解锁产业落地新范式
大数据·人工智能·安全·ai·架构·语音识别
znhb996 小时前
从分治到协同:一体化联合脱硫脱硝的技术逻辑与实践路径
大数据
冯RI375II694877 小时前
机械产品CE-MD认证怎么申请
大数据
淡海水8 小时前
ComfyUI全面掌握-知识点详解——基础示例:文生图与图生图实操(参数+案例)
大数据·人工智能·算法·comfyui