这几天centreon监控频频报警,提示ceph pg 错误,用 ceph health detail 确定不一致的pgs,然后用指令 ceph pg repair pg_num 进行修复,通过查看系统日志,有IO错误,修复一次,能管半天,提醒决策人买新硬盘换上,不理睬,今天终于挂掉了,虽然不影响业务,但资源总体利用率超过70%,一旦节点挂掉,虚拟机连漂移的机会都没有。
Ceph OSD磁盘自己down了,不打算在mount。
系统自己在那里做平衡操作呢!
这几天centreon监控频频报警,提示ceph pg 错误,用 ceph health detail 确定不一致的pgs,然后用指令 ceph pg repair pg_num 进行修复,通过查看系统日志,有IO错误,修复一次,能管半天,提醒决策人买新硬盘换上,不理睬,今天终于挂掉了,虽然不影响业务,但资源总体利用率超过70%,一旦节点挂掉,虚拟机连漂移的机会都没有。
Ceph OSD磁盘自己down了,不打算在mount。
系统自己在那里做平衡操作呢!