Yarn--三大调度策略
FIFO(先进先出): 目前几乎已经没有人使用了.
类似于: 单行道.
好处:
每个计算任务能独享集群100%的资源.
弊端:
不能并行执行, 如果大任务过多, 会导致小任务执行时间过长.
Capacity(容量调度): 我们用的Apache Hadoop(社区版Hadoop), Yarn的底层默认用的就是这种调度器.
类似于: 多车道.
好处:
-
可以当多任务, 并行执行, 提高计算效率.
-
可以借调资源.
弊端:
-
每个计算任务不能独享集群100%的资源, 存在着资源闲置(浪费)的情况.
-
如果出现了资源借调的情况, 可能也会出现无法"及时"归还资源的情况.
Fair(公平调度): FaceBook推出的, 后续要用的CDH(Cloudera公司提供的Hadoop, 商业版)的Yarn调度器就是这个.
类似于: 潮汐车道.
好处:
-
多任务可以并行执行, 提高计算效率.
-
如果只要1个任务, 则它可以共享集群100%的资源.
弊端:
每个任务获取集群的资源, 都是公平的, 均分的, 例如: 1个任务, 就占用 100%资源,
2个任务, 各占50%的资源
3个任务, 各占33.3333....%的资源
.......
如果小任务过多, 会导致大任务迟迟无法执行结束的问题.
Zookeeper--简介
概述:
它是一款非常好用的 大数据分布式协调服务组件, 主要是用来帮助我们管理大数据进群的, 例如: 主备切换, 选举机制, 全局数据一致性...
吉祥物是: 1个拿着铁锹的小人.
本质:
ZK本身也是1个小型的分布式文件存储系统, 采用ZNode节点的方式来存储数据, 底层是: 树形结构. 每个节点的大小不能超过: 1MB.
回顾: 树形结构特点:
-
有且只能有1个根节点.
-
每个节点都有若干个子节点及1个父节点(根节点除外)
-
没有子节点的节点称之为: 叶子节点.
Znode节点的分类:
永久(无序)节点: Persistent
客户端的会话结束, 节点依旧存在.
临时(无序)节点: Ephemeral
客户端的会话结束, 节点小时(会被自动删除).
永久有序节点:
Persistent + Sequential
客户端的会话结束, 节点依旧存在, 会在节点名后边加10位数字, 升序递增. 0000000000, 0000000001...
临时有序节点:
Ephemeral + Sequential
客户端的会话结束, 节点消失, 会在节点名后边加10位数字, 升序递增. 0000000000, 0000000001...
细节:
临时节点不能有子节点.
Zookeeper--架构介绍
Leader: 主节点
-
管理整个ZK集群, 负责: 全局数据一致性.
-
负责处理 数据事务操作(增, 删, 改)
-
负责转发 数据非事务操作(查) 给 Follower
Follower:
-
实时和Leader同步, 保证: 全局数据一致性.
-
负责处理 数据非事务操作(查)
-
负责转发 数据事务操作(增, 删, 改) 给 Leader
-
有选举权.
ObServer:
除了没有选举权, 剩下的和 Follower一样. 大公司, 大规模集群, 才会考虑部署ObServer.
Zookeeper--Shell操作
常用Shell命令:
help -- 查看ZK支持的所有Shell命令
create [-s] [-e] path data -- Sequential(有序), Ephemeral(临时), 创建节点.
delete path [version] -- 删除节点, 只能删除(叶子节点)
rmr path -- 删除节点及其字节
set path data [version] -- 修改节点的内容
get path [watch] -- 查看节点内容
ls path [watch] -- 查看节点简单信息
ls2 path [watch] -- 查看节点详细信息
history -- 查看历史命令
redo 历史命令编号 -- 根据编号, 重新执行对应的 命令.
Zookeeper--数据模型
-
Znode兼具有文件 和 目录的功能, 既能存储数据, 也能有子级.
-
Znode操作具有原子性, 无论在哪台机器修改了节点值, 其它机器再查也是修改后的.
-
Znode存储数据有大小限制, 每个节点不超过1MB.
细节: 我们用ZK不是用它存数据的功能, 而是管理大数据集群.
- Znode节点必须通过 绝对路径的写法才可以获取, 即: /aa
Zookeeper--特点
-
全局数据一致性.
-
可靠性.
-
顺序性.
-
数据更新原子性.
-
实时性.
Zookeeper--watch监听机制
-
先注册, 后监听.
-
当事件触发后, 会将触发结果告知 监听者.
-
异步发送监听结果的.
-
监听是一次性触发, 之后在触发响应的内容, 也不会给 监听者发送消息了.
Zookeeper--选举机制
过半原则, 某个机器获取的票数超过集群总数的一半, 它就是Leader, 剩下的是Follower.
选举机制的方式:
新集群: 参考myid值, 优先投票给myid值大的机器.
旧集群: 参考(节点)最后一次更新的事务id, 优先投票给事务id大的节点(机器), 如果事务id一致, 则参考 myid值, 投票给myid值大的机器.