8块硬盘故障的存储异常恢复案例一则

关键词

  • 华为存储、硬盘域、LUN
  • 热备冗余、重构、预拷贝
  • oracle rac、多路径

There are many things that can not be broken!

如果觉得本文对你有帮助,欢迎点赞、收藏、评论!

一、问题现象

近期遇到的一个案例,现象是一套oracle rac数据库双节点全挂了,原因是后端存储无法识别;然后运维人员登录到华为存储上,是不看不知道,一看吓一跳。存储日志记录显示,从20年开始,同一个硬盘域下,陆续坏了有8块盘!!在第8块盘坏的时候,硬盘域已经没有多余空间进行数据重构,硬盘域处于故障状态,下面所有LUN无法读写;显然这台存储是一直处于无人管理的状态下啊,几年里的坏盘都无人问津。

二、问题处理

针对这一情况,以前遇到过类似情形,只是同时坏2-3块盘的raid掉线,本次虽然有8块盘异常,本质上情形还是一样,只是这台存储使用的空间不多,有足够的冗余空间够磁盘多坏几块。前期写过一篇关于这类故障情况华为存储的处理建议,参考如下:

https://vincentwong.blog.csdn.net/article/details/135291665

本次故障介入处理时,运维已经备新盘到现场,准备进行更换,更换前拔除了最后一块坏的硬盘。此时查看硬盘域处于重构过程中挂了,担心最后一块盘上还有数据,故让插回该硬盘,准备手动去拉起下该硬盘看下。

结果,硬盘插回后,存储又重新正常识别了该硬盘,并标记成good状态,说明硬盘可能只是存在部分坏块,还没有彻底坏掉。因为老硬盘上数据还在,存储硬盘域的重构也很快完成,硬盘域立马恢复正常状态,LUN组也恢复成正常可用状态。

紧接着就是依次对存储其他坏盘进行更换,恢复硬盘域的冗余保护。

存储恢复正常后,业务oracle rac集群未能自动恢复,原因是存储异常时,rac集群触发了系统重启,重启后的磁盘识别一直不正常,当存储恢复后,没法自动恢复。此时对两台主机节点再次重启系统后,数据库实例均恢复正常,数据未丢失,不幸中万幸。

三、结论总结

1、存储硬盘域的好处就是可以把所有硬盘空间混在一起,热备的冗余可以不只是某几块固定硬盘的空间,只要存储使用不够多,剩余空间都可以用来冗余。

2、遇事不要慌,按步骤进行去恢复尝试,遇到不清楚的地方也可以再去找下官方售后技术支持,总能找到解决的办法。

3、日常运维过程中,第一步还是要对你所运维的对象做个盘点,一个也不能少,不然说不定哪天给你捅个大篓子啊!

相关推荐
电鱼智能的电小鱼4 分钟前
产线视觉检测设备技术方案:基于EFISH-SCB-RK3588/SAIL-RK3588的国产化替代赛扬N100/N150全场景技术解析
linux·人工智能·嵌入式硬件·计算机视觉·视觉检测·实时音视频
子非衣19 分钟前
Ubuntu系统挂载磁盘并配置开机自动挂载
linux·运维·ubuntu
yyy00020028 分钟前
BGP选路实验
运维·网络
Lizhihao_43 分钟前
TCP实现安全传输的核心机制 + TCP的报文讲解(全程图文讲解)
服务器·网络·网络协议·tcp/ip
风暴智能1 小时前
问题处理——在ROS2(humble)+Gazebo+rqt下,无法显示仿真无人机的相机图像
linux·无人机
唐志远19971 小时前
VMware虚拟机 安装 CentOS 7
linux·运维·centos
酷炫码神1 小时前
C#数据类型
java·服务器·c#
众乐乐_20082 小时前
Uniapp中小程序调用腾讯地图(获取定位地址)
linux·服务器·apache
power 雀儿2 小时前
Linux的进程管理和用户管理
linux·运维·服务器
.小墨迹2 小时前
Apollo学习——键盘控制速度
linux·开发语言·c++·python·学习·计算机外设