MapReduce经典案例-词频统计。

孙尚香蕉2025-01-10 10:32

已知有如下格式的日志文件，请统计每天的error次数。

2022-03-01 error:no boot disk has been detected

2022-03-01 warning:hardware failure detected

2022-03-01 error:flash download failed

2022-03-02 error:1d returned 1exit status

2022-03-05 error:expected expression

2022-03-05 warning:the high memory area

1.本地模式

（1）自定义mapper组件，map()方法指定的处理逻辑为:首先将每个键值对中的值转换为String类型，即获取数据块的每行数据；然后根据分隔符空格将每行数据拆分为多个单词，并将这些单词存放到数组；最后遍历数组以获取每个单词，将每个单词与值1组合成新的键值对<单词，1>,并输出到Reduce Task. 代码如下：

（2）自定义reducer组件，使用reducer组件处理数据，对mapper自建输出到reducer组件的数据进行处理，将相同对应的值累加，从而统计每个单词的出现次数，具体代码如下：

（3）编写驱动类，具体代码如下：

（4）运行结果：

2.集群模式

（1）mapper组件和reducer组件的定义和本地模式一样。

（2）驱动类需要将local改为yarn，文件的路径改为args $0$ 和args $1$ ，代码如下：

（3）双击package将本项目打包成jar文件。

（4）将jar文件重命名：

（5）使用start-all.sh命令开启集群：

（6）使用rz命令上传jar文件：

（7）在HDFS上创建input文件夹：

（8）编写txt文件，并将该文件上传到HDFS上的/input目录下：

（9）在jar文件所在目录执行如下命令，将MapReduce程序提交到YARN集群运行：

（10）运行结果：

上一篇：网站运营数据pv、uv、ip

下一篇：Unity-Mirror网络框架-从入门到精通之AdditiveScenes 示例

热门推荐

0100 Debian字符界面如何支持中文 02GitHub 镜像站点 03如何新建文件夹？电脑新建文件夹的4种方法 04国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）052026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 06微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 072026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？08AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 092026开年大模型最新对比解析及场景落地指南 10Agnes AI 免费 API 接入指南：文本、生图、生视频，一套接口全免费