Redis: Sentinel节点管理,故障迁移一致性以及TILT模式

节点管理

  • 节点管理指的是在我们环境正常的情况下,我们想要动态的去添加或者删除节点

1 )添加 Sentinel

添加单个 Sentinel

  • 如果在一个环境中,我们想要去添加 Sentinel,实际上是非常简单的
  • 因为基于 Sentinel 自动发现的机制
    • 我们只需要启动配置了 sentinel monitor mymaster 这个配置项的一个新的 Sentinel 即可
  • 在10秒内 Sentinel 将会获得其他 Sentinel 列表以及被监控的 master 的所有内部的相关信息
    • 这就是它的便捷之处
    • 因为他们内部要 PING 和 PONG, 要 INFO
    • 有定时任务在那,所以你只需要把配置文件配好
    • 启动这个Sentinel就十秒内一般就集成到这个环境中

添加多个Sentinel

  • 有时候我们可能想要添加多个,建议一个一个去添加
  • 因为我们每添加一个Sentinel的时候
    • 我们要保证它跟我们环境中其他的Sentinel节点都已经完全建立了通信关系
    • 再去添加下一个,否则频繁的快速的添加多个的时候,可能会导致有的Sentinel就会增加失败
    • 这样可能就会导致环境出问题
  • 如果你想要有效的保证大多数的 Sentinel 都是正常的
    • 一般建议每30秒添加一个,尤其是添加完了以后
    • 最好是使用 SENTINEL MASTER mastername 这个命令
      • 这个 mastername 替换成自己配置的,比如 mymaster
      • 在返回中,有相关的信息,可以查看对比
      • 检查所有Sentinel是否已经完全获取到所有 Master 信息
      • 去查看一下你当前Sentinel的节点和你的主从的信息

2 )删除 Sentinel

  • Sentinel 不会完全清除已经添加过的Sentinel信息
    • 因为你如果要删 Sentinel,Sentinel的配置文件里边记入了所有的Sentinel相关环境的信息
    • 启动 Sentinel 的时候,要指定配置文件,否则它会拒绝启动
    • 因为它要通过配置文件来读取当前的环境,因为他把环境全部写到这个配置文件里边去了
    • 比如说我要删除一个节点,这个配置文件里边有它找到的其他的Sentinel节点的信息
    • 正因为这个机制,它不会频繁的去修改自己的配置
    • 它内部尽量减少 Sentinel 配置版本的一个更新
    • 所以,即使咱们的 Sentinel 很长时间无法访问,它也不会把这个信息给清掉
  • 如果说我们真的要删这些信息,应遵循以下步骤
    • 第一步,停止要删除的 Sentinel 进程
    • 第二步,SENTINEL RESET * 向其他的Sentinel实例发送重置命令。
      • 这个 * 代表的是你要重置的一个主机
      • 可以用确切的主机来代替
      • 如果要删除多个,则一个接一个的去执行,就跟添加一样
      • 我建议是30秒,最好删完了去查看一下,每个Sentinel之间的数据数量是不是一致了
      • 再去执行下一个,这样的话得重置一下,配置就会相当于重新的去添加一下
      • 就会永久的把你想删的Sentinel给删掉了
      • 否则它内部的机制是不会频繁去修改配置的
      • 这个需要谨慎操作
  • 一般我们就是在最初的时候确定好环境了,就不再动它了
    • 尽可能就是添加,那万一删除操作不当可能会对我们环境会有很大的影响

3 )删除旧的 Master 或者无法访问的 Slave

  • 比如说, 按照我们的主从环境,并发上来了之后是可以动态的去添加从节点的
  • 而且添加从节点也非常简单,只需要启动一个新的Redis,其配置文件里边有 slaveof 或 replicaof
    • 就是让它去复制谁,它就会加入到咱们的主从环境里
  • 现在我想要把它删除掉,同样的配置文件里边,它会记住这些信息
  • 这里和上面一样,谨慎操作,遵循以下步骤
    • 将当前无用的 Slave 进程停止后,向所有 Sentinel 发送命令 SENTINEL RESET mastername
    • 重置 mastername 所有状态信息,重置当前主从信息,停掉的 Slave 就不会被加载进来了

故障迁移一致性

  • 这里用到了分布式一致性的算法 Raft 共识算法,就是怎样选举 Sentinel 节点为领头节点

1 ) Sentinel自动故障迁移使用Raft算法来选举领头(leader)Sentinel, 从而确保在一个给定的周期(epoch)里,只有一个领头产生

2 ) 这表示在同一个周期中,不会有两个Sentinel同时被选中为领头,并且各个Sentinel在同一个节点中只会对一个领头进行投票

3 ) 更高的配置节点总是优于较低的节点,因此每个Sentinel都会主动使用更新的节点来代替自己的配置。

简单来说,我们可以将Sentinel配置看作是一个带有版本号的状态。一个状态会以最后写入者胜出 (last-write-wins) 的方式(也即是,最新的配置总是胜出) 传播至所有其他 Sentinel

TILT模式

  • 因为Sentinel是比较严重的依赖系统时间的,在配置文件里边,它有很多跟时间相关的配置

  • 如果拿不到系统时间,我怎么判断这个时间是不是超时了

  • 怎么判断这个故障迁移是不是已经超出了规定时间

  • 它一般会记录最后一次回复PING的时间,并和当前的时间进行判断

  • 但是假如现在系统时间出了问题了,比如说某些原因,服务器压力很大

  • 因为你获取系统时间,它际际上也是一个进程,可能会被阻塞,拿不到系统时间

  • 为了确保这个问题能得到有效的解决, Redis 的作者就增加了一个TILT模式

  • 该模式是一种特殊的保护模式,就是说如果有一个Sentinel 节点拿不到系统时间了

  • 然后就会让这个节点抓紧进入TITL模式,它实际上是一种保护模式

  • 当处于TITL模式,Sentinel 或持续监控所有状态,但:

    • 停止处理请求
    • 当有实例向这个Sentinel发送 SENTINEL is-master-down-by-addr 命令时,Sentinel返回负值:因为这个Sentinel所进行的下线判断已经不再准确
  • 如果TILT可以正常维持30秒钟 (SENTINEL_TILT_PERIOD时长,默认为30s), 那么Sentinel 退出TILT模式,TITL模式是Sentinel的被动模式

  • 如果说退出之后,仍然还是拿不到系统时间,可能还是有问题,它就会再重新进去。

    • 假如说,现在在TILT模式里边,我们可能还要去做一些跟时间相关的判断
    • 无法判断,它就会延长TILT的模式的一个时长,默认是30秒

总结

  • raft 共识算法保证了故障迁移一致性
    • 在同一个周期里边,不会产生多个领头者
    • 也就不会产生多个故障迁移
    • 保证了故障迁移的一致性
  • TILT模式
    • 是当前节点如果服务器压力大,或者说因为某些其他的原因导致获取不到系统时间
    • 没有办法有效的做出命令的回复的一个间隔判断,那么它就会进入TILT这个保护模式
    • 当这个保护模式正常运行 30 秒钟,它就会退出
    • 如果在这个保护模式期间仍然要做时间判断,还是没有办法去处理,它会延长TILT的这个模式
相关推荐
hanbarger11 分钟前
nosql,Redis,minio,elasticsearch
数据库·redis·nosql
弗罗里达老大爷37 分钟前
Redis
数据库·redis·缓存
DT辰白15 小时前
基于Redis的网关鉴权方案与性能优化
数据库·redis·缓存
木子七16 小时前
Redis-十大数据类型
redis
黄油饼卷咖喱鸡就味增汤拌孜然羊肉炒饭19 小时前
聊聊volatile的实现原理?
java·jvm·redis
灯火不休➴19 小时前
[Redis] 在Linux中安装Redis并连接图形化工具详细过程(附下载链接)
linux·数据库·redis
bohu8320 小时前
sentinel学习笔记7-熔断降级
笔记·sentinel·熔断降级·degradeslot·circuitbreaker
呆呆小雅1 天前
C#关键字volatile
java·redis·c#
miss writer1 天前
Redis分布式锁释放锁是否必须用lua脚本?
redis·分布式·lua
亽仒凣凣1 天前
Windows安装Redis图文教程
数据库·windows·redis