Elasticsearch 磁盘水位线详解:从触发只读到安全解锁

前言

在运维 Elasticsearch (ES) 集群时,你是否遇到过这样的场景:业务数据突然无法写入,日志报错 cluster_block_exception: index read-only?这通常不是 Bug,而是 ES 在拼命拉住你,防止磁盘写满导致节点崩溃。

本文将带你深入了解 ES 的磁盘水位线机制,并手把手教你如何正确、安全地解除"只读模式"。

一、现象:集群为何突然"罢工"?

当你的 ES 集群磁盘使用率过高时,你会看到如下报错:

复制代码
{
  "error": {
    "type": "cluster_block_exception",
    "reason": "blocked by: [FORBIDDEN/12/index read-only / allow delete (api)];"
  }
}

此时,Kibana 只能查询历史数据,无法写入新日志,索引健康状态可能变为 YellowRed

二、核心机制:ES 的三道防线

ES 通过三个水位线阈值来保护集群,防止磁盘被写满:

水位线 默认阈值 触发行为
Low (低水位) 85% 停止向该节点分配新的分片。
High (高水位) 90% 尝试将该节点上的分片迁移到其他节点。
Flood Stage (洪水期) 95% 强制将所有索引设为只读 ( read_only_allow_delete),禁止写入。

注意: 我们遇到的"无法写入"问题,正是因为磁盘使用率超过了 95% 的洪水期水位线。

三、诊断:确认是否触发水位线
  1. 检查磁盘使用率
    使用以下命令查看各节点的磁盘使用情况:

    curl -X GET "http://127.0.0.1:9200/_cat/allocation?v"

  2. 关注 disk.percent 列,如果任何节点超过 95%,说明已触发洪水期保护。

  3. 检查索引是否被设为只读
    确认索引的 read_only_allow_delete 属性:

    curl -X GET "http://127.0.0.1:9200/_all/_settings?pretty" | grep "read_only_allow_delete"

  4. 如果返回结果中包含 "read_only_allow_delete" : "true",则说明索引已被锁定。

四、解决:四步安全解锁法

切记:不要一看到报错就急着解锁!不先清理空间直接解锁,无异于饮鸩止渴。

  1. 第一步:立刻清理磁盘空间
    这是解决问题的根本。删除过期或不需要的索引。

    警告:此操作不可逆,请谨慎执行

    curl -X DELETE "http://127.0.0.1:9200/old-logs-2024-*"

  2. 在执行删除前,可以先用 curl -X GET "http://127.0.0.1:9200/_cat/indices?v&s=store.size:desc" 查看占用空间最大的索引。

  3. 第二步:确认磁盘使用率下降
    再次执行 curl -X GET "http://127.0.0.1:9200/_cat/allocation?v",确保磁盘使用率已降至 95% 以下(建议低于 90%)。

  4. 第三步:安全解除只读限制
    在确保磁盘空间已释放后,手动移除索引的只读属性。

    curl -X PUT "http://127.0.0.1:9200/_all/_settings" -H 'Content-Type: application/json' -d'
    {
    "index.blocks.read_only_allow_delete": null
    }'

  5. 成功执行后,你会看到返回 {"acknowledged": true}

  6. 第四步:验证解锁结果
    再次检查索引设置,确认 read_only_allow_delete 标志已消失:

    curl -X GET "http://127.0.0.1:9200/_all/_settings?pretty" | grep "read_only_allow_delete"

  7. 如果没有任何输出,说明解锁成功,集群已恢复正常。

五、进阶:动态调整水位线

如果你的业务需要,可以动态调整水位线阈值,无需重启集群。

示例:将水位线调整为更宽松的阈值

复制代码
curl -X PUT "http://127.0.0.1:9200/_cluster/settings" -H 'Content-Type: application/json' -d'
{
  "persistent": {
    "cluster.routing.allocation.disk.watermark.low": "90%",
    "cluster.routing.allocation.disk.watermark.high": "95%",
    "cluster.routing.allocation.disk.watermark.flood_stage": "97%"
  }
}'

警告: 将水位线设置得过高(如 99%)是极高风险的操作,可能导致磁盘写满,节点崩溃。

六、预防:建立长期防护机制
  1. 启用索引生命周期管理 (ILM)
    配置 ILM 策略,让 ES 自动滚动创建新索引并删除过期旧索引,从根源上管理磁盘空间。

  2. 配置监控告警
    使用 Prometheus + Grafana 等工具监控磁盘使用率,设置告警规则(如磁盘使用率 > 80% 时报警),以便提前干预。

  3. 限制 Docker 日志大小
    如果是 Docker 部署,务必配置日志轮转,防止 Docker 自身日志占满磁盘。修改宿主机的 /etc/docker/daemon.json 文件:

    {
    "log-driver": "json-file",
    "log-opts": {
    "max-size": "10m",
    "max-file": "3"
    }
    }

总结

ES 的磁盘水位线机制是保护集群的"安全气囊"。遇到问题时,正确的处理流程是:先清理空间,再解除限制,最后建立长效预防机制。切勿本末倒置,否则只会让问题雪上加霜。

相关推荐
清溪5496 分钟前
Erlang-SSH未授权(CVE-2025-32433)复现
安全·ssh
计算机安禾8 分钟前
【算法分析与设计】第26篇:参数化算法与固定参数可解性理论
大数据·人工智能·算法·机器学习·剪枝
清溪5499 分钟前
DataEase H2 JDBC-RCE(CVE-2025-32966)复现
数据库·安全
liushangzaibeijing10 分钟前
Superpower 使用大纲
大数据·elasticsearch·搜索引擎
weixin_3077791341 分钟前
面向高性能保密计算的定制 Linux 系统构建与自动部署方案
linux·安全·网络安全·性能优化·系统安全
Elastic 中国社区官方博客1 小时前
每次操作一个 API 调用:Elastic Cloud Hosted 如何让大规模部署管理变得可行
大数据·运维·数据库·elasticsearch·搜索引擎·serverless
代码飞一会儿2 小时前
CTF之跟我一起逆向得到flag吧
安全
志栋智能4 小时前
超自动化安全:实现安全运营现代化的关键
大数据·运维·网络·安全·自动化
渣渣盟4 小时前
MySQL DDL操作全解析:从入门到精通,包含索引视图分区表等全操作解析
大数据·数据库·mysql
unclejet4 小时前
颠覆传统开发!AI根治软件工程技术债务顽疾
大数据·人工智能·软件工程