Hadoop MapReduce

MapReduce 分为两个阶段,分为Map 阶段和Reduce 阶段,可以自定义map函数reduce函数

map函数 的输入是行在文件的字节偏移量 ,value是文件的一行数据

reduce函数 的输入是key 和对应key的value组 ,然后reduce函数 可以对这一组数据进行处理

再来看mapreduce是如何实现的,因为可以知道reduce阶段value是一组 的,包括mapreduce还发生了文件读取写入文件的操作,包括一些序列化

有一个文件 时,文件 在底层操作系统 是很多个数据块

map 是以数据切片 逻辑进行处理 的,所以当读取文件数据 时,会对物理文件 进行逻辑切片 ,然后一个切片 就对应一个MapTask尽量 保证切片大小等于数据块大小 ,让一个MapTask 直接本地处理加快处理速度

Map 阶段处理逻辑 ,map读入文件的每行数据 ,然后以key-value 的方式处理输出到一个分区 ,输出到哪个分区 取决于默认 的还是自定义分区处理 了,默认 是根据键的哈希值确定分区

分区 其实是先保存到一个环形缓存区 ,当环形缓存区达到一定阈值 的时候,就会把缓冲区数据落盘落盘前 会对分区内数据 进行快速排序 ,如果有多个小文件 ,会对多个小文件进行归并排序 ,合成一个大文件,然后分区和reduceTask的数量一样

reduce 阶段,reduce可会读取所有mapTask 对应分区的所有文件 ,如果有多个文件 ,也会进行归并排序 ,这样就保证了Reduce函数的输入里的value,是一个相同Key的value集合 。然后经过reduceTask函数进行数据处理,最终输出,输出文件数 也跟reduceTask的个数 相关,reduceTask的数目不能大于分区数目

相关推荐
毕设源码-朱学姐12 分钟前
【开题答辩全过程】以 基于大数据技术的电商推荐系统的设为例,包含答辩的问题和答案
大数据
远方160916 分钟前
115-使用freesql体验Oracle 多版本特性
大数据·数据库·sql·ai·oracle·database
上海蓝色星球1 小时前
造价机器人CER V2.0正式上线!
大数据·人工智能·智慧城市·运维开发
八角Z1 小时前
AI价值跃迁的核心:输出责任转移与新兴工种的精准重塑
大数据·人工智能·科技·机器学习·计算机视觉·服务发现
无忧智库1 小时前
某流域“十五五”国家水网骨干工程智慧水利调度系统项目深度解析:构建数字孪生流域的顶层设计与实施路径(WORD)
大数据
ZKNOW甄知科技1 小时前
深度对标ServiceNow:燕千云如何破解企业全球化运维难题?
大数据·运维·人工智能·科技·ai·自动化·运维开发
瑞华丽PLM2 小时前
通用与专业PLM选型对比 (1)
大数据·人工智能·plm·瑞华丽plm·瑞华丽
低调小一3 小时前
OpenClaw 从安装到可用:把 Tools/Skills 变成“可控操控面板”,并用飞书做远程入口
java·大数据·人工智能·飞书·openclaw·clawbot·skil
八月瓜科技3 小时前
擎策·知海全球专利数据库 凭差异化优势 筑科技创新检索壁垒
大数据·数据库·人工智能·科技·深度学习·机器人
职豚求职小程序3 小时前
东软集团题库笔试测评系统练习笔试2026新版
大数据·汇编·人工智能