故障处理--kuboard无法访问,etcd磁盘空间不足

问题现象:

kuboard页面报错

排查过程:

1、查看kuboard是否正常。

2、查看kuboard容器的日志:

powershell 复制代码
docker logs -f  --tail=10  kuboard
大概内容如下:
level=error msg="failed to rotate keys: etcdserver: mvcc: database space exceeded"

表示etcd磁盘空间不足,etcd默认的空间配额限制为2G,超出空间配额限制就会影响服务,需要定期清理。

3、查看etcd的启动配置entrypoint.sh,发现没有设置etcd磁盘大小,默认为2G

处理过程:

1、查看kuboard信息,找到kuboard-data的位置

2、查看etcd-data大小。发现db大于2G

3、进入容器内部,查看告警信息。alarm:nospace,也表示空间不足

4、查看etcd告警

powershell 复制代码
[root@master1 etcd-data]# docker exec -it kuboard /bin/sh
# ETCDCTL_API=3 etcdctl --endpoints="http://127.0.0.1:2379" alarm list
memberID:6460912315094810421 alarm:NOSPACE 

5、按照如下步骤临时处理

powershell 复制代码
# 备份db
etcdctl snapshot save backup.db
# 查看当前版本
rev=$(ETCDCTL_API=3 etcdctl --endpoints=http://127.0.0.1:2379 endpoint status --write-out="json" | egrep -o '"revision":[0-9]*' | egrep -o '[0-9].*')
# 压缩旧版本
ETCDCTL_API=3 etcdctl --endpoints=http://127.0.0.1:2379 compact $rev
# 整理多余的空间
ETCDCTL_API=3 etcdctl --endpoints=http://127.0.0.1:2379 defrag
# 取消告警信息(之前有nospace的告警)
ETCDCTL_API=3 etcdctl --endpoints=http://127.0.0.1:2379 alarm disarm
# 再次查看etcd的状态(发现ERROR字段已为空)
ETCDCTL_API=3 etcdctl --endpoints="http://127.0.0.1:2379" --write-out=table endpoint status

整理多余的空间时有如下报错

错误原因

etcdctl 的默认命令超时为 5 秒,但碎片整理花费的时间比这更长。

解决方案

指定超时时间 --command-timeout

powershell 复制代码
# 整理多余的空间
# ETCDCTL_API=3 etcdctl --endpoints=http://127.0.0.1:2379 --command-timeout=30s defrag
Finished defragmenting etcd member[http://127.0.0.1:2379]
# 取消告警信息,不取消告警,ectd一样不可用
# ETCDCTL_API=3 etcdctl --endpoints=http://127.0.0.1:2379 alarm disarm
memberID:6460912315094810421 alarm:NOSPACE 
# 再次查看ETCD存储使用情况
# ETCDCTL_API=3 etcdctl --endpoints="http://127.0.0.1:2379" --write-out=table endpoint status

故障解决:

再次查看etcd-data文件大小

相关推荐
重生之绝世牛码15 分钟前
Linux软件安装 —— PostgreSQL高可用集群安装(postgreSQL + repmgr主从复制 + keepalived故障转移)
大数据·linux·运维·数据库·postgresql·软件安装·postgresql高可用
数据知道15 分钟前
PostgreSQL 实战:详解 UPSERT(INSERT ON CONFLICT)
数据库·python·postgresql
源力祁老师38 分钟前
Odoo日志系统核心组件_logger
网络·数据库·php
洋不写bug2 小时前
数据库基础核心操作——CRUD,超详细解析,搭配表格讲解和需求的实现。
数据库
马猴烧酒.2 小时前
JAVA后端用户登录与鉴权详解
java·数据库·sql
heartbeat..2 小时前
Redis 常用命令全解析:基础、进阶与场景化实战
java·数据库·redis·缓存
数据知道2 小时前
PostgreSQL 实战:一文掌握如何优雅的进行递归查询?
大数据·数据库·postgresql
陌上丨2 小时前
MySQL8.0高可用集群架构实战
数据库·mysql·架构
重生之绝世牛码3 小时前
Linux软件安装 —— ClickHouse单节点安装(rpm安装、tar安装两种安装方式)
大数据·linux·运维·数据库·clickhouse·软件安装·clickhouse单节点
一只自律的鸡3 小时前
【MySQL】第十一章 存储过程和存储函数
数据库·mysql