hadoop-mapreduce词频统计

一、Map Reduce主要阶段

二、词频统计示例

0.MapReduce 词频统计(Word Count)示例图

1. Input 阶段(输入阶段)

输入数据是一段文本,如下:

复制代码
Hadoop is a big data framework.
Hadoop can store vast data.
Hadoop processes big data.
Hadoop can analyze vast data.
Hadoop is easy.

2. Split 阶段(数据分割阶段)

输入数据被切分为更小的部分 ,每个部分对应一行文本。
作用: 将输入数据分配给不同的 Mapper 任务,实现并行处理。

复制代码
Split 1: Hadoop is a big data framework.
Split 2: Hadoop can store vast data.
Split 3: Hadoop processes big data.
Split 4: Hadoop can analyze vast data.
Split 5: Hadoop is easy.

3. Mapper Phase(映射阶段)

每个 Mapper 任务读取一个输入块,应用用户定义的 Map 函数。

Map 函数会将输入文本解析为单词,并为每个单词输出一个键值对 (Key-Value Pair),形式为 <单词, 1>。
**例如:

  • 输入:Hadoop is a big data framework.

  • 输出:<Hadoop, 1>, <is, 1>, <a, 1>, <big, 1>, <data, 1>, <framework, 1>
    作用:**Map 阶段的任务是将原始数据转化为键值对,并提取有用信息。

    Mapper 输出:

    Split 1: <Hadoop, 1>, <is, 1>, <a, 1>, <big, 1>, <data, 1>, <framework, 1>
    Split 2: <Hadoop, 1>, <can, 1>, <store, 1>, <vast, 1>, <data, 1>
    Split 3: <Hadoop, 1>, <processes, 1>, <big, 1>, <data, 1>
    Split 4: <Hadoop, 1>, <can, 1>, <analyze, 1>, <vast, 1>, <data, 1>
    Split 5: <Hadoop, 1>, <is, 1>, <easy, 1>

4. Shuffle and Sort 阶段(洗牌和排序阶段)

洗牌(Shuffle):

将 Mapper 阶段输出的键值对,根据键(单词)进行分组

所有相同键的键值对被发送到同一个 Reducer 任务。
例如:来自不同 Mapper 的 <Hadoop, 1> 被收集到一起:<Hadoop, [1, 1, 1, 1, 1]>

排序(Sort):

对每个键值对按照键排序(升序)。

图中展示了 Hadoop、is、a 等单词被分组和排序。

作用:实现数据分布和排序,为 Reduce 阶段的处理做好准备。

5. Reduce Phase(归约阶段)

Reduce 函数对每个键及其关联的值列表进行聚合计算
**示例:

  • 输入:<Hadoop, [1, 1, 1, 1, 1]>
  • Reduce 计算:对列表中的值进行累加:1 + 1 + 1 + 1 + 1 = 5
  • 输出:<Hadoop, 5>**

其他 Reduce 结果:

  • <is, 2>

  • <a, 1>

  • <big, 2>

  • <data, 4>

  • <framework, 1>

  • <easy, 1>

作用:Reduce 阶段将分组后的数据进行汇总、聚合、统计,生成最终结果。

6. output阶段(输出阶段)

复制代码
a, 1
analyze, 1
big, 2
can, 2
data, 4
easy, 1
framework, 1
Hadoop, 5
is, 2
processes, 1
store, 1
vast, 2

三、过程总结

参考资料

https://www.youtube.com/watch?v=aReuLtY0YMI

相关推荐
TTBIGDATA2 小时前
【Ambari开启Kerberos】Step1-KDC服务初始化安装-适合Ubuntu
运维·数据仓库·hadoop·ubuntu·ambari·hdp·bigtop
TTBIGDATA12 小时前
【Ambari开启Kerberos】KERBEROS SERVICE CHECK 报错
大数据·运维·hadoop·ambari·cdh·bigtop·ttbigdata
超级无敌大好人1 天前
mapreduce源码解读
大数据·mapreduce
码·蚁1 天前
SpringMVC
数据仓库·hive·hadoop
杂家2 天前
Hadoop完全分布式部署(超详细)
大数据·hadoop·分布式
BD_Marathon2 天前
【Hadoop】hadoop3.3.1完全分布式配置
大数据·hadoop·分布式
Q26433650232 天前
【有源码】基于Hadoop+Spark的起点小说网大数据可视化分析系统-基于Python大数据生态的网络文学数据挖掘与可视化系统
大数据·hadoop·python·信息可视化·数据分析·spark·毕业设计
yumgpkpm2 天前
CMP(类Cloudera CDP 7.3 404版华为泰山Kunpeng)和Apache Doris的对比
大数据·hive·hadoop·spark·apache·hbase·cloudera
yumgpkpm4 天前
Doris在CMP7(类Cloudera CDP 7 404版华为Kunpeng)启用 Kerberos部署Doris
大数据·hive·hadoop·python·oracle·flink·cloudera
数据牧羊人的成长笔记4 天前
Hadoop 分布式计算MapReduce和资源管理Yarn
hadoop·eclipse·mapreduce