ELK中segemntmerge操作对写入性能的影响以及控制策略和优化方法

**背景:**数据进入到Elasticsearch当中之后,如何才能让数据被更快的检索使用,用一句话概括就是"开新文件",但是每一秒都在打开新文件,一天有86400秒,设想一下,每次请求都要扫描86400个文件,这个性能肯定好不了。

归并线程

segment归并的过程,需要先读取segment,归并计算,再写一遍segment,最后刷到磁盘。这是一个非常消耗磁盘和IO的任务,所以我们需要对归并线程进行限速,默认配置是20MB,这对于写入量大,磁盘转速高,这个配置明显是过低的,所以我们需要提高限速。

bash 复制代码
# curl -XPuT http://127.0.0.1:9200/cluster/settings -d'
"persistent":{
"indices.store.throttle.maxbytes per sec":"100mb"

归并策略

归并线程是按照一定的运行策略来挑选segment 进行归并的主要为以下几条:

  • index.merge.policy.floor_segment 默认 2MB,小于这个大小的 segment,优先被归并
  • index.merge.policy.max merge at once 默认一次最多归并10个segment。
  • index.merge.policy.max merge _at once_explicit 默认 forcemerge 时一次最多归并 30个segment.
  • index.merge.policy.max_merged segment默认5 GB,大于这个大小的segment,不用参与归并。optimize 除外。

shard的allocate控制

以下几种情况会触发分配动作:

  • 新索引生成
  • 索引的删除。
  • 新增副本分片
  • 节点增减引发的数据均衡。

Elasticsearch 提供了一系列参数详细控制这部分逻辑:

  • cluster.routing.allocation.enable 参数用来控制允许分配哪种分片。默认是 all。可选项还包括 primaries和new_primaries。none 则彻底拒绝分片。
  • cluster.routing.allocation.allow rebalance 参数用来控制什么时候允许数据均衡。默认是indicesall active,即要求所有分片都正常启动成功以后,才可以进行数据均衡操作,否则的话,在集群重启阶段,会浪费太多流量了。
  • cluster.routing.allocation.cluster concurrent rebalance参数用来控制集群内同时运行的数据均衡任务个数。默认是2个。如果有节点增减,且集群负载压力不高的时候可以适当加大。
  • cluster.routing.allocation.node initial primaries recoveries参数用来控制节点重启时允许同时恢复几个主分片。默认是4个。如果节点是多磁盘,且I0压力不大,可以适当加大。
  • cluster.routing.allocation.node concurrent recoveries参数用来控制节点除了主分片重启恢复以外其他情况下,允许同时运行的数据恢复任务。默认是2个。所以,节点重启时可以看到主分片迅速恢复完成,副本分片的恢复却很慢。除了副本分片本身数据要通过网络复制以外,并发线程本身也减少了一半。当然,主分片一定是本地恢复,副本分片却需要走网络,带宽是有限的。
  • indices.recovery.concurrent streams参数**用来控制节点从网络复制恢复副本分片时的数据流个数。**默认是3个。
  • indices.recovery.max_bytes_per _sec参数用来控制节点恢复时的速率。默认是 40MB。也可根据上面配置加大

分片分配控制策略

磁盘限额 --为了保护节点数据安全,Elasticsearch会定时(cluster.info.update.interval,默认 30秒)检查一下各节点的数据目录磁盘使用情况。

在达到clusterrouting.allocation.disk.watermark.low(默认85%) 的时候,新索引分片就不会再分配到这个节点上了。在达到**cluster.routing.allocation.disk.watermark.high(默认 90%)**的时候,就会触发该节点现存分片的数据均衡,把数据挪到其他节点上去。这两个值不但可以写百分比,还可以写具体的字节数。出于成本考虑,对磁盘使用率有一定的要求,需要适当抬高这个配置:

bash 复制代码
# curl-XPuT localhost:9200/cluster/settings -d'{"transient":{
"cluster,routing.allocation.disk.watermark.low""85%"
"cluster.routing.allocation.disk.watermark.high":"10qb"
"cluster.info.update.interval":"1m"

热索引分片不均--默认情况下,Elasticsearch集群的数据均衡策略是以各节点的分片总数(indicesall active)作为基准的。这对于搜索服务来说无疑是均衡搜索压力提高性能的好办法。但是对于ELKstack场景,一般压力集中在新索引的数据写入方面。正常运行的时候,也没有问题。但是当集群扩容时,新加入集群的节点,分片总数远远低于其他节点。这时候如果有新索引创建,Elasticsearch的默认策略会导致新索引的所有主分片几乎全分配在这台新节点上。整个集群的写人压力,压在一个节点上,结果很可能是这个节点直接被压死,集群出现异常。所以,对于ELKstack场景,建议预先计算好索引的分片数后,配置好单节点分片的限额。比如,一个5节点的集群,索引主分片10个,副本1份。则平均下来每个节点应该有4个分片,那么就配置:

bash 复制代码
#curl-s-XPuT http://127.0.0.1:9200/logstash-2015.05.08/ settings -d '{"index":{"routing.allocation.total shards per node" :"5"

注意,这里配置的是5而不是4。因为我们需要预防有机器故障,分片发生迁移的情况如果写的是4,那么分片迁移会失败。

  • cluster.routing.allocation.balance.shard节点上分配分片的权重,默认值为 0.45。数值越大越倾向于在节点层面均衡分片。
  • cluster.routing.allocation.balance.index每个索引往单个节点上分配分片的权重,默认值为0.55。数值越大越倾向于在索引层面均衡分片。
  • cluster.routing.allocation.balance.threshold 大于阈值则触发均衡操作。默认值为1。
相关推荐
cv-daily10 分钟前
通过docker overlay2目录名查找容器名和容器ID
运维·docker·容器
Lin_Miao_091 小时前
RocketMQ优势剖析-集成云原生环境
云原生·rocketmq
努力的小T1 小时前
基于 Bash 脚本的系统信息定时收集方案
linux·运维·服务器·网络·云计算·bash
夜光小兔纸1 小时前
Oracle 普通用户连接hang住处理方法
运维·数据库·oracle
moton20172 小时前
云原生:构建现代化应用的基石
后端·docker·微服务·云原生·容器·架构·kubernetes
爱敲代码的边芙2 小时前
Linux:信号的保存[2]
linux·运维·服务器
苏苏大大2 小时前
zookeeper
java·分布式·zookeeper·云原生
阿俊仔(摸鱼版)2 小时前
Python 常用运维模块之OS模块篇
运维·开发语言·python·云服务器
工程师焱记2 小时前
Linux 常用命令——系统设置篇(保姆级说明)
linux·运维·服务器
chian-ocean3 小时前
探索Linux中的进程控制:从启动到退出的背后原理
linux·运维·服务器