服务器raid5坏盘-换盘-修复阵列过程

目录

背景

服务器除尘之后文件服务器部分文件不能访问了,部分文件夹内容为空,起初以为是新配置的权限的问题,排查之后发现不仅仅是权限问题

jumpserver访问服务器发现部分文件显示"???"

此时想到可能是服务器硬件故障了,随即查看

服务器显示内容:

服务器灯2号黄灯闪烁,5号8号灯不亮,显然不是好的预兆

原因分析

1、文件夹为空可能是阵列出现了问题

2、没有权限访问应该是修改了Samba的配置文件

初步分析

文件夹为空:这通常与存储介质(如硬盘)上的数据丢失或不可访问有关。在RAID环境中,这可能是由于某个或多个物理磁盘(PD)故障或RAID配置问题导致的。

无权限访问:虽然最初怀疑是Samba配置问题,但考虑到是在除尘后出现的,这更可能是由硬件或RAID阵列状态变化导致的文件系统权限或所有权问题。

解决步骤

名词解释

首先对raid界面的几个名词了解一下

diskgroup:磁盘组,这里相当于是阵列,例如配置了一个raid5,就是一个磁盘组

vd(virtual disk):虚拟磁盘,虚拟磁盘可以不使用阵列的全部容量,也就是说一个磁盘组可以分为多个vd

pd(physical disk):物理磁盘

hs:hotspare 热备

mgmt:管理

进入raid管理界面

CTRl+r 进入raid

VD mgmt:2号和4号missing,8号不见了

PD mgmt:2号和4号 Foreign

解释一下这里的foreign,RAID控制器识别到的一个不属于其当前配置或管理域的存储配置。这可能是从另一个系统迁移过来的硬盘,或者是在没有正确初始化或导入到当前系统的情况下插入的硬盘。

Foreign View界面:多了一个阵列DISk Group 2,显示4号 Online

这里也可以说明4号不属于当前配置或管理域的存储配置,应该是从另一个系统迁移过来的硬盘(前两天刚刚把4号盘换了,但是仅仅换了,而没有配置,和显示的情况一致)

换回旧4号,进行import

上面说4号是之前换掉的(这里称它为新4号,为了和替换掉的旧4号区分),所以又把之前认为坏掉的旧4号取回来(当时旧4号状态灯不亮了,所以认为它坏掉了,直接找了一块不用的盘放了进去,从上面的可以看出来, 新4号之前在其他raid中进行过配置),放了进去

在VD 界面,F2

import之后,没有foreign view了,也就是没有外来盘了

2号online,4号offline

  1. Online(在线):
    ○ 硬盘或RAID卷是活动的,并且可以被系统访问。
    ○ 数据可以从该硬盘或RAID卷中读取,也可以写入其中(如果它是可写的)。
    ○ 通常,当系统启动时,所有健康的硬盘和RAID卷都会自动变为在线状态。
  2. Offline(离线):
    ○ 硬盘或RAID卷当前不可用或不可访问。
    ○ 这可能是由于多种原因,例如硬盘故障、RAID控制器问题、配置错误或管理员手动将其设置为离线。
    ○ 当硬盘或RAID卷处于离线状态时,不能从其中读取或写入数据。
    ○ 在某些情况下,管理员可能会选择将硬盘或RAID卷设置为离线,以便进行维护、更换或重新配置。
    这里显然不是我故意把4号设置成offline的

再看一下PD Mgmt界面,没有4号,仍旧没有8号(一会儿再解决8号问题)

旧4号这里就是坏掉了,取下旧4号,这里是热插拔,4号位置显示Missing

再次更换4号盘

这里使用了一块没有做过raid的盘放到了4号位置,直接rebuild了

到这里,阵列再重建了,8号暂时不解决,等阵列彻底修复之后,再进行一下备份,再解决8号和2号问题.

总结

Foreign View:当RAID控制器识别到不属于其当前配置或管理域的硬盘时,会显示为Foreign。这通常意味着硬盘来自另一个RAID配置或系统。

Import:当将旧4号硬盘换回并成功导入后,Foreign View消失,这表明RAID控制器现在能够识别并管理这块硬盘。

在RAID阵列中,当一个或多个磁盘发生故障或丢失时,确实需要进行重建以恢复数据的冗余和完整性。

最后再说一下整体分析过程和解决步骤
1、确认RAID级别和配置
2、替换故障磁盘
3、等待重建完成:

RAID重建是一个耗时的过程,具体取决于RAID级别、磁盘容量、RAID控制器性能以及替换磁盘的写入速度。要耐心等待重建完成。
4、备份数据:

在阵列重建完成后,强烈建议立即备份所有数据。虽然RAID提供了数据冗余,但备份仍然是最可靠的数据保护方式。
5、解决其他丢失的磁盘:

这里还有8号和2号磁盘存在问题。在解决了4号磁盘的问题后,按照类似的步骤来处理这些磁盘。但是,如果RAID阵列中的多个磁盘同时发生故障,可能会导致数据丢失的风险增加。
6、检查硬件和连接:

确保所有磁盘都正确连接在RAID控制器上,并且没有物理损坏或连接问题。有时,磁盘丢失可能是由于电缆松动、连接器脏污或硬件故障引起的。
7、检查RAID控制器和驱动程序

切记,在进行任何可能影响数据完整性的操作之前,始终确保有可靠的数据备份。这将是在出现问题时恢复数据的最后一道防线。

相关推荐
sdm0704271 小时前
yum和开发工具vim/gcc
linux·服务器·centos
zhaoyufei1331 小时前
RK3568-11.0 设置WiFi p2p静态IP
服务器·tcp/ip·p2p
Leinwin6 小时前
OpenClaw 多 Agent 协作框架的并发限制与企业化规避方案痛点直击
java·运维·数据库
2401_865382506 小时前
信息化项目运维与运营的区别
运维·运营·信息化项目·政务信息化
漠北的哈士奇6 小时前
VMware Workstation导入ova文件时出现闪退但是没有报错信息
运维·vmware·虚拟机·闪退·ova
如意.7596 小时前
【Linux开发工具实战】Git、GDB与CGDB从入门到精通
linux·运维·git
运维小欣7 小时前
智能体选型实战指南
运维·人工智能
yy55277 小时前
Nginx 性能优化与监控
运维·nginx·性能优化
爱吃土豆的马铃薯ㅤㅤㅤㅤㅤㅤㅤㅤㅤ8 小时前
Linux 查询某进程文件所在路径 命令
linux·运维·服务器
05大叔9 小时前
网络基础知识 域名,JSON格式,AI基础
运维·服务器·网络