国产ZYJ服务器RAID 5重建完整流程

【问题现状】

当前使用的是国产浪潮品牌的 ZYJ服务器,RAID卡型号为MR9361-8i,原配置为8块2.4TB SAS硬盘组成的RAID 5阵列。近期其中一块硬盘发生故障,导致阵列降级;由于该RAID控制器在单盘故障后未能维持RAID 5冗余状态,而是将剩余7块硬盘自动降级为RAID 0模式(即条带化、无冗余),致使数据完全丧失容错能力。

本次RAID 5单盘故障变RAID 0大概率是RAID卡无BBU/电容,还开启了WriteBack模式导致(后续和厂商确认了,标准版都不带该模块)。若有需要,可以采购带BBU的RAID卡或是关闭WriteBack模式。

目前故障硬盘已完成更换,新硬盘已安装到位;同时,全部业务数据已成功备份至外部安全存储介质。现计划在确保数据安全的前提下,将当前处于RAID 0状态的7块硬盘(含新盘)重新构建为标准的8盘RAID 5阵列(需确认新盘是否已纳入并完成同步准备)。

【具体参数】

Controller=0------控制器编号 0

Status=Success------状态是启用

Product Name------raid 卡具体型号

Serial Number------SN 序列号

FW Package Build------固件的版本号

BIOS Version ------raid 卡 BIOS 版本

FW Version------FW 版本

Current Personality------当前模式

Physical Drivers------当前接有磁盘数量

【RAID5重建基础流程】(重要前提,执行前一条必须完成)

1.完整备份损坏磁盘的原始数据;

rsync -avzP 备份

2.备份当前 RAID 配置信息;

storcli64 /c0 show all

storcli64 /c0/e252/s0 show(查看控制器为 0 背板为 252 槽位号为 0 的磁盘)

storcli64 /c0/eall/sall show(查看控制器 0 所有背板及背板上的所有磁盘信息)

3.记录物理磁盘路径、序号、型号及槽位信息;

lsscsi

df -h

fdisk -l

4.关闭无关服务:停止服务器上的业务服务、数据库、定时任务,避免操作中磁盘被读写;

5.卸载已损坏raid上的文件系统;

vim /etc/fstab (将/u01那一行注释掉)

umount /u01(若失败,按照下面命令操作卸载,成功执行下一步)

findmnt /dev/sdb1

df -hT | grep /dev/sdb1

umount /dev/sdb1

umount -l /dev/sdb1

fuser -m /dev/sdb1

lsof /dev/sdb1

kill -9 进程ID

6.删除已顺坏 raid 上的 lvm 管理映射;

cat /proc/mdstat

md5 : inactive sdb14(s)

mdadm -S /dev/dm5

官方给出的命令是

dmsetup remove /dev/p1/* (p1 为 raid 上存储池名) ;

echo 1 > /sys/block/sdb/device/delete (sdb 为实际区下)

7.停止并删除原 RAID 阵列(因为我这里是8块RAID 0,所以要删除8块);

storcli64 /c0/v0 delete force

storcli64 /c0/v1 delete force

storcli64 /c0/v2 delete force

storcli64 /c0/v3 delete force

storcli64 /c0/v4 delete force

storcli64 /c0/v5 delete force

storcli64 /c0/v6 delete force

storcli64 /c0/v7 delete force

8.创建新 RAID5 阵列(推荐7数据+1热备);

storcli64 /c0 add vd r5 name=raid5 drives=252:0-6(因为一共8块硬盘,将0-6号设置为RAID5,7号设置为GHS全局热备盘)

/storcli64 /c0/e252/s7 add hotsparedrive

storcli64 /c0 /eall/sall show

9.检查RAID阵列状态并初始化(在确认磁盘都是online状态Consist为No后,初始化磁盘);

storcli64 /c0 /v0 start init

RAID 5(5 块以上)和 RAID 6(6 块以上)在进行快速初始化时会转到后台进行初始化,查看后台初始化

storcli64 /c0/v0 show bgi

10.执行RAID一致性校验;

开启初始化

storcli64 /c0/v0 start cc

查看初始化

storcli64 /c0/v0 show cc

11.parted硬盘分区;

parted /dev/sdb

mklabel gpt

mkpart primary 0% 100%

quit

partprobe

12.mkfs格式化与文件系统创建(大文件推荐xfs);

mkfs.xfs /dev/sdb1

13.挂载磁盘并配置开机自动挂载旧的挂载点;

mount /dev/sdb1 /u01

echo "$(blkid -s UUID -o value /dev/sdb1) /data xfs defaults 0 0" >> /etc/fstab

mount -a

14.恢复数据;

15.重启验证(检查 RAID 状态、挂载、服务是否正常);

16.恢复业务;

【温馨提示】

  • 全程建议在 救援模式(Rescue Mode)或维护终端 下操作,避免系统盘干扰;

  • RAID5 重建耗时长(TB级可达数小时至数天),请勿中断电源或强制重启;

  • 生产环境强烈建议使用 RAID5 / RAID6等具备更强容错能力的方案;

  • 每步操作后建议截图或记录输出,便于回溯。

拔盘热备和 1 块数据盘恢复

将盘插回去 查看磁盘状态 storcli64 /cx/ex/sall show all 磁盘状态为 ubad

设置磁盘状态为 good storcli64 /c0/ex/sx set good

查看磁盘状态 storcli64 /cx/ex/sx show 磁盘状态为 UGOOD -F

导入磁盘 storcli64 /cx/fall import

查看磁盘状态 storcli64 /cx/ex/sx show 磁盘状态为 UGOOD - 磁盘为可用状态

相关推荐
AskHarries7 小时前
权限模型:Shell、Browser、文件读写的安全边界
服务器·前端·网络
团象科技8 小时前
外贸站选海外服务器 拆解跨境运营中常被忽略的核心性能细节
运维·服务器
AI帮小忙8 小时前
主机安全排查
linux·服务器·安全
程序员老舅9 小时前
从内核视角,看Linux文件读写过程
linux·服务器·c++·内核·linux内核·vfs·linux内存
李少兄9 小时前
Linux服务器IP地址查询
linux·服务器·tcp/ip
liulilittle9 小时前
TCP KCC v1.0(卡尔曼拥塞控制)
linux·服务器·网络·tcp/ip·计算机网络·tcp·通信
三雷科技9 小时前
Rsync 命令详解:Linux 文件同步与备份的艺术
linux·运维·服务器
j_xxx404_10 小时前
MySQL库操作硬核解析:字符集、校验规则、大小写比较、备份恢复与连接排查
运维·服务器·数据库·人工智能·mysql·ai·oracle
机汇五金_10 小时前
影响交换机箱体使用寿命的几个关键因素
运维·服务器·网络·python
bkspiderx11 小时前
Boa Web服务器HTTPS支持的源码改造方案
服务器·前端·https·web服务器·boa·https支持