8块硬盘故障的存储异常恢复案例一则

关键词

  • 华为存储、硬盘域、LUN
  • 热备冗余、重构、预拷贝
  • oracle rac、多路径

There are many things that can not be broken!

如果觉得本文对你有帮助,欢迎点赞、收藏、评论!

一、问题现象

近期遇到的一个案例,现象是一套oracle rac数据库双节点全挂了,原因是后端存储无法识别;然后运维人员登录到华为存储上,是不看不知道,一看吓一跳。存储日志记录显示,从20年开始,同一个硬盘域下,陆续坏了有8块盘!!在第8块盘坏的时候,硬盘域已经没有多余空间进行数据重构,硬盘域处于故障状态,下面所有LUN无法读写;显然这台存储是一直处于无人管理的状态下啊,几年里的坏盘都无人问津。

二、问题处理

针对这一情况,以前遇到过类似情形,只是同时坏2-3块盘的raid掉线,本次虽然有8块盘异常,本质上情形还是一样,只是这台存储使用的空间不多,有足够的冗余空间够磁盘多坏几块。前期写过一篇关于这类故障情况华为存储的处理建议,参考如下:

https://vincentwong.blog.csdn.net/article/details/135291665

本次故障介入处理时,运维已经备新盘到现场,准备进行更换,更换前拔除了最后一块坏的硬盘。此时查看硬盘域处于重构过程中挂了,担心最后一块盘上还有数据,故让插回该硬盘,准备手动去拉起下该硬盘看下。

结果,硬盘插回后,存储又重新正常识别了该硬盘,并标记成good状态,说明硬盘可能只是存在部分坏块,还没有彻底坏掉。因为老硬盘上数据还在,存储硬盘域的重构也很快完成,硬盘域立马恢复正常状态,LUN组也恢复成正常可用状态。

紧接着就是依次对存储其他坏盘进行更换,恢复硬盘域的冗余保护。

存储恢复正常后,业务oracle rac集群未能自动恢复,原因是存储异常时,rac集群触发了系统重启,重启后的磁盘识别一直不正常,当存储恢复后,没法自动恢复。此时对两台主机节点再次重启系统后,数据库实例均恢复正常,数据未丢失,不幸中万幸。

三、结论总结

1、存储硬盘域的好处就是可以把所有硬盘空间混在一起,热备的冗余可以不只是某几块固定硬盘的空间,只要存储使用不够多,剩余空间都可以用来冗余。

2、遇事不要慌,按步骤进行去恢复尝试,遇到不清楚的地方也可以再去找下官方售后技术支持,总能找到解决的办法。

3、日常运维过程中,第一步还是要对你所运维的对象做个盘点,一个也不能少,不然说不定哪天给你捅个大篓子啊!

相关推荐
码农小白猿27 分钟前
IACheck优化电梯定期检验报告:自动化术语审核提升合规性与效率
大数据·运维·人工智能·ai·自动化·iacheck
huoxingwen29 分钟前
Ubuntu 22.04 上 VMware Workstation 点击虚拟机窗口就消失的解决历程
linux·运维·ubuntu
姚青&1 小时前
Linux 常用命令之基本命令
linux·运维·服务器
一路往蓝-Anbo1 小时前
【第05期】数据的微观世界 (五) —— 浮点数 vs 定点数:MCU的数学课
linux·stm32·单片机·嵌入式硬件·物联网
G_H_S_3_1 小时前
【网络运维】企业级监控平台Zabbix:部署与实践指南
linux·运维·网络·zabbix
小周学学学1 小时前
Vcenter Auto Deploy安装与使用
linux·运维·服务器
微爱帮监所写信寄信1 小时前
微爱帮监狱写信寄信工具服务器【Linux篇章】再续:TCP协议——用技术隐喻重构网络世界的底层逻辑
linux·服务器·开发语言·网络·网络协议·小程序·监狱寄信
Ydwlcloud1 小时前
AWS国际云服务器新用户优惠全解析:如何聪明地迈出上云第一步?
服务器·人工智能·云计算·aws
VekiSon2 小时前
Linux网络编程——IO多路复用
linux·运维·网络
好记忆不如烂笔头abc2 小时前
Ubuntu 20.04.6上实现远程桌面连接
服务器·网络·数据库