在聊 MapReduce
之前不妨先看个例子:假设某短视频平台日活用户大约在7000万左右,若平均每一个用户产生3条行为日志:点赞、转发、收藏;这样就是两亿条行为日志,再假设每条日志大小为100个字节,那么一天就会产生将近20个GB左右的数据;
面对这么大的数据量,如何对这些数做一些统计分析呢?
以Java
为例:如果写一个程序,从一个近20个GB的日志文件里,一条一条读取日志并计算,直到两亿数据全部计算完毕,你认为会花费多长时间?
不妨做个实验,随机生产从0到100的数字,并将其写入文件当中,最终生成一个大小为20个GB左右的文件:
java
public void generateData() throws IOException {
File file = new File("D:\\微信公众号\菜鸟进阶站.txt");
if (!file.exists()) {
try {
file.createNewFile();
} catch (IOException e) {
e.printStackTrace();
}
}
BufferedWriter bos = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(file, true)));
for (long i = 1; i < Integer.MAX_VALUE * 3.4; i++) {
String data = String.valueOf(random.nextInt(100)+1);
bos.write(data);
if (i % 1000000 == 0) {
bos.write("\n");
}
}
bos.close();
}
使用代码来统计哪一个数字出现的次数最多(执行过程忘记截图了),最后得出结论:整个统计过程大概用了12分钟左右;目前还仅仅是 GB级别
,如果是 TB、PB
呢?
作为科技巨头的大佬:Google(谷歌)对该问题给出了答案;
谷歌从2003年到2006年先后发表了三篇论文:GFS、MapReduce和Big Table
。俗称三架马车,也正是这三驾马车正式打开了大数据的大门;今天我们主要聊一聊其中的MapReduce
;
该模型可以让开发者不用去考虑复杂的分布式架构,使得编写分布式代码就像单机版一样简单,自动将大任务拆分成小任务,分发到不同的机器上面进行并行计算;
简单来说 MapReduce
的核心思想就是分而治之;
说到分而治之,就让我想起来小时候语文老师给我们的留的作业,抄写鲁迅的所有文章。这工作量可算是巨大的了;
为了能按时提交作业,我便将作业撕成了3份,张三一份、李四一份、王五一份;让他们分别区抄写其中的一部分,最后由我将3份作业订装在一起交给老师;这整个过程中:将作业撕开分别交给3个人便是 Map
,最后我把作业组装起来便是 Reduce
;
上述过程只是一个笼统的概念。细的说,其实 MapReduce
大致话可以分为 Map、shuffle、Reduce
3个过程:
首先根据数据量大小,生产多个 Map
任务,每个 Map
任务会读取原数据并进行逻辑处理,最终生产一个 KV
键值对;同时对每条数据根据 key
的值计算所属分区,并打上一个逻辑标识,用来决定改数据回去到哪一个 Reduce
;
Shuffle
过程包含在 Map
和 Reduce
的两端,Map
端的 Shuffle
会对数据进行一个排序,得到一个有序的文件,该文件按照分区排序,并且每个分区内部的键值对都按照 Key
的值进行升序排序;Reduce
端的 Shuffle
,会去拉取属于自己分区的数据,并进行一个合并排序; Reduce
端根据业务需求,会对数据做进一步的处理并输出结果;
从上述过程中可以看出,Reduce
数量也就是分区的数量,分区相同的数据会经过 Shuffle
到达同一个 Reduce
当中;
以 WordCount
为例,该程序用来统计每个单词出现的次数:现在假设有份巨大的文件,我们将该文件进行切分,切分成三个 Map
任务,每个 Map
会对每行的内容按空格切分,每切下一个单词我们就将其组成一个 KV
键值对,其中 Key
代表这个单词 ,Value
代表该单词出现的次数;
![](https://i-blog.csdnimg.cn/img_convert/3fcd0b4a3bf31e2977e3481b8a1792fd.png)
由于我们的目标是统计每个单词出现的次数,因此我们只需要一个 Reduce
即可,在经过 MapShuffle
排序后,在每个 Map
端会生成一个有序的文件;
![](https://i-blog.csdnimg.cn/img_convert/977dd542cfec28f4460c8fc1be209300.png)
Reduce
端的 Shuffle
会去拉取属于自己分区的数据,并作为一个合并排序,最后 Reduce
会遍历每个单词对于的数组进行累加,并进行结果的直接输出;
![](https://i-blog.csdnimg.cn/img_convert/86df8c616813bccfe9a0b4fcc5785480.png)