Java技术栈 ------ Hadoop入门(二)
- 一、用MapReduce对统计单词个数
-
- [1.1 项目流程](#1.1 项目流程)
- [1.2 可能遇到的问题](#1.2 可能遇到的问题)
- [1.3 代码勘误](#1.3 代码勘误)
- [1.4 总结](#1.4 总结)
一、用MapReduce对统计单词个数
1.1 项目流程
(1) 上传jar包。
(2) 上传
words.txt
文件。(3) 用hadoop执行jar包的代码,对
words.txt
进行分析。
参考文章或视频链接 |
---|
重点看这篇文章 [1] 《Hadoop实战------MapReduce对英文单词文本进行统计和排序(超详细教学,算法分析)》- CSDN |
[2] Hadoop实战项目源码集合 - gitee |
[3] HDFS文件系统的根目录和用户主目录解析 - CSDN |
1.2 可能遇到的问题
(1) 无法Download结果文件。 这个问题看参考文章[1]-[3],有两个点要注意,注意你的hosts文件有没有配对,以及有没有开启
dfs.webhdfs.enabled
。
(2) 删除不了hadoop下的文件夹。 这个问题的解决方案看本节参考文章[4],不过我要提醒你的是,他那篇文章里的summer
对应与你当前的Linux用户,我这里就叫programmer
,然后重启hadoop,dr.who
是谁可以看参考文章[5]。
(3) 更改用户后还是无法删除文件夹。 解决方案看本节参考文章[6],先关闭安全模式再删除。
shell# 进入安全模式 hdfs dfsadmin -safemode enter # 退出安全模式 hdfs dfsadmin -safemode leave
1.3 代码勘误
本章节代码作者有个地方写错了,注意下即可。
java
//WordReduce.java文件里应该这样写
System.out.println(new Date().toGMTString() + ":" + key + "出现了" + sum);
1.4 总结
MapReduce也没那么神神秘秘(世界上没有事物是不可认识的,只有还有待认识的事物),总结起来就还是四个字,分工+协作 ,或者可以理解为民主集中制 的基本原则之一:"个别酝酿,集体决定" 。
Map
是拆分开来,各自计算各自思考,而Reduce
就是将结果集中起来,看看大家提出的意见到底如何,并对结果按照具体需求进行排序。在MapReduce这个思想上,共产党人走在这帮搞技术的老外的前面。