【Hadoop 02】企业级解决方案

1 小文件问题

问题描述

由于在HDFS中,每一个小文件在NameNode中都会占用150字节的内存空间,而且每个小文件都是一个Block,会产生一个InputSplit,这样就会产生一个Map任务,同时启动多个Map任务消耗性能,影响MapReduce执行效率。

解决方案

HDFS提供两种类型的容器,分别是SequenceFile和MapFile。

  • SequenceFile:将<key,value>对序列化到文件中。
  • MapFile:是排序后的SequenceFile,主要由两部分组成,分别是index和data;index作为文件的数据索引,主要记录了每个Record的key值,以及该Record在文件中的偏移位置。在MapFile被访问的时候,索引文件会被加载到内存,通过索引映射关系可迅速定位到指定Record所在文件位置,因此,相对SequenceFile而言,MapFile的检索效率是高效的,缺点是会消耗一部分内存来存储index数据。

2 数据倾斜问题

问题描述

需要统计的数据很集中,比如有一个文件,有1000W条数据,这里面的值主要都是数字(1,2,3,4,5,6,7,8,9,10),希望统计出来每个数字出现的次数,其中值为5的数据有910w条左右,剩下的9个数字一共只有90w条。

解决方案

把倾斜的数据打散

  1. 设置Reduce任务个数
java 复制代码
job.setNumReduceTasks(Integer.parseInt(args[2]));
  1. 将数据打散
java 复制代码
String key = words[0];
if ("5".equals(key)) {
 //把倾斜的key打散,分成10份
 key = "5" + "_" + random.nextInt(10);
}

3 YARN

3.1 YARN架构分析

  • YARN主要负责**++集群资源++** 的管理和调度,支持主从架构,主节点最多可以有1个,从节点可以有多个
  • ResourceManager:主节点主要负责集群资源的分配和管理
  • NodeManager:从节点主要负责当前机器资源管理

3.2 YARN资源管理模型

  • YARN主要++管理内存和CPU++这两种资源类型
  • NodeManager启动时,会向ResourceManager注册,注册信息中包含该节点可分配的CPU和内存总量
  • yarn.nodemanager.resource.memory-mb:单节点可分配的物理内存总量,默认是8MB*1024,即8G
  • yarn.nodemanager.resource.cpu-vcores:单节点可分配的虚拟CPU个数,默认是8

3.3 YARN中的调度器

  • FIFO Scheduler:先进先出(first in, first out)调度策略
  • Capacity Scheduler:FIFO Scheduler的多队列版本
  • Fair Scheduler:多队列,多用户共享资源

3.4 案例:YARN多资源队列配置和使用

需求描述

增加2个队列,一个是online队列,一个是offline队列,然后向offline队列中提交一个mapreduce任务,其中online队列里面运行实时任务,offline队列里面运行离线任务

解决方法

  1. 修改etc/hadoop目录下的capacity-scheduler.xml配置文件
XML 复制代码
<property>
 <name>yarn.scheduler.capacity.root.queues</name>
 <value>default,online,offline</value>
 <description>
   The queues at the this level (root is the root queue).
 </description>
</property>
<property>
 <name>yarn.scheduler.capacity.root.default.capacity</name>
 <value>70</value>
 <description>Default queue target capacity.</description>
</property>
<property>
 <name>yarn.scheduler.capacity.root.online.capacity</name>
 <value>10</value>
 <description>Online queue target capacity.</description>
</property>
<property>
 <name>yarn.scheduler.capacity.root.offline.capacity</name>
 <value>20</value>
 <description>Offline queue target capacity.</description>
</property>
<property>
 <name>yarn.scheduler.capacity.root.default.maximum-capacity</name>
 <value>70</value>
 <description>
   The maximum capacity of the default queue.
 </description>
</property>
<property>
 <name>yarn.scheduler.capacity.root.online.maximum-capacity</name>
 <value>10</value>
 <description>
   The maximum capacity of the online queue.
 </description>
</property>
<property>
 <name>yarn.scheduler.capacity.root.offline.maximum-capacity</name>
 <value>20</value>
 <description>
   The maximum capacity of the offline queue.
 </description>
</property>

该配置文件定义了三队列:default、online和offline。每个队列有一个目标容量(capacity)和最大容量(maximum-capacity)。

  • yarn.scheduler.capacity.root.queues:定义了根队列下的子队列,即default、online和offline队列。
  • yarn.scheduler.capacity.root.default.capacity:默认队列目标容量为70%。
  • yarn.scheduler.capacity.root.online.capacity:在线队列的标容量为10%。
  • yarn.scheduler.capacity.root.offline.capacity:离线队列的目标容量为20%。
  • yarn.scheduler.capacity.root.default.maximum-capacity:默认队列的最大容量70%。
  • yarn.scheduler.capacity.root.online.maximum-capacity:在线队列的最大容量为10%。
  • yarn.scheduler.capacity.root.offline.maximum-capacity:离线队的最大容量为20%。

这些配置项可以根据实际需求进行调整。它们决定每个队列可以使用的资源比例,以及队列间的优先级限制。通过合理配置队列的容量和最大容量,可以实现对同类型任务的资源分配和调度制。

  1. 重启Hadoop
XML 复制代码
stop-all.sh
start-all.sh
相关推荐
你觉得2054 分钟前
浙江大学朱霖潮研究员:《人工智能重塑科学与工程研究》以蛋白质结构预测为例|附PPT下载方法
大数据·人工智能·机器学习·ai·云计算·aigc·powerpoint
益莱储中国19 分钟前
世界通信大会、嵌入式展及慕尼黑上海光博会亮点回顾
大数据
爱的叹息35 分钟前
主流数据库的存储引擎/存储机制的详细对比分析,涵盖关系型数据库、NoSQL数据库和分布式数据库
数据库·分布式·nosql
Loving_enjoy1 小时前
基于Hadoop的明星社交媒体影响力数据挖掘平台:设计与实现
大数据·hadoop·数据挖掘
浮尘笔记1 小时前
go-zero使用elasticsearch踩坑记:时间存储和展示问题
大数据·elasticsearch·golang·go
千层冷面1 小时前
RabbitMQ 发送者确认机制详解
分布式·rabbitmq·ruby
ChinaRainbowSea1 小时前
3. RabbitMQ 的(Hello World) 和 RabbitMQ 的(Work Queues)工作队列
java·分布式·后端·rabbitmq·ruby·java-rabbitmq
敖正炀2 小时前
基于RocketMQ的可靠消息最终一致性分布式事务解决方案
分布式
碳基学AI2 小时前
哈尔滨工业大学DeepSeek公开课:探索大模型原理、技术与应用从GPT到DeepSeek|附视频与讲义免费下载方法
大数据·人工智能·python·gpt·算法·语言模型·集成学习
一个天蝎座 白勺 程序猿3 小时前
大数据(4.6)Hive执行引擎选型终极指南:MapReduce/Tez/Spark性能实测×万亿级数据资源配置公式
大数据·hive·mapreduce