oracle:记一次磁盘头故障处理

背景:集群宕机以后,重启报错,DATADG1磁盘组无法启动

1.手动挂起DATADG1磁盘组 报错

sql 复制代码
alter diskgroup datadg1 mount

后台ASM报错

根据报错 found 0 disks 怀疑 是磁盘组里的磁盘有问题,没有启动

2.查询磁盘状态

sql 复制代码
select name,path,STATE,MODE_STATUS from v$asm_disk;

发现磁盘都在,但是磁盘组没法跟磁盘对应起来

3.硬件工程师检查硬盘、以及存储网关都正常,磁盘权限也正常

4.怀疑是磁盘头损坏了,导致磁盘组跟磁盘无法对应

sql 复制代码
select group_Number,disk_number,mount_status ,header_status from v$asm_disk;

发现2,3磁盘头状态为CANDIDATE

5.使用kfed查看磁盘头

sql 复制代码
kfed read /dev/rhdiskpower2

kfbh.type显示异常 正常情况下应该是KFBTYP_DISKHEAD

6.修复2,3磁盘头

从版本10.2.0.5开始ASM 会对disk header做一个额外的备份。即第二AU 的倒数第二个block中备份了一份KFBTYP_DISKHEAD。这个ASM Disk header的作用是当真的KFBTYP_DISKHEAD被意外覆盖或损坏时可以使用Oracle 工具 KFED使用repair选项来修复Disk header

kfed repair //dev/rhdiskpower2

此时检查 磁盘头状态正常,显示为KFBTYP_DISKHEAD

7.一节点的数据库反复重启

修复磁盘头以后,磁盘能够正常挂起,并且数据库能够拉起

但是数据库在运行一段时间后 ,出现宕机

数据库日志显示 IO错误

由于操作系统为AIX,排查两个节点的磁盘参数

sql 复制代码
lsattr -El hdisk20 | grep reserve

发现二节点并没有设置no_reserve

这个参数的作用:这个参数其实是表示操作系统是否持有存储卷的共享锁方式

设置

sql 复制代码
chdev -l hdisk21 -a reserve_policy=no_reserve

设置完成后,一节点能够正常运行

8.二节点gpnpd服务无法启动

根据gipcd 日志信息

匹配到官方文档Doc ID 2034669.1

删除以上三个目录的缓存,重启rac,二节点启动成功

相关推荐
一屉大大大花卷22 分钟前
初识Neo4j之入门介绍(一)
数据库·neo4j
叁沐36 分钟前
MySQL 08 详解read view:事务到底是隔离的还是不隔离的?
mysql
周胡杰1 小时前
鸿蒙arkts使用关系型数据库,使用DB Browser for SQLite连接和查看数据库数据?使用TaskPool进行频繁数据库操作
前端·数据库·华为·harmonyos·鸿蒙·鸿蒙系统
wkj0011 小时前
navicate如何设置数据库引擎
数据库·mysql
ladymorgana1 小时前
【Spring Boot】HikariCP 连接池 YAML 配置详解
spring boot·后端·mysql·连接池·hikaricp
赵渝强老师1 小时前
【赵渝强老师】Oracle RMAN的目录数据库
数据库·oracle
暖暖木头1 小时前
Oracle注释详解
数据库·oracle
御控工业物联网1 小时前
御控网关如何实现MQTT、MODBUS、OPCUA、SQL、HTTP之间协议转换
数据库·sql·http
GJCTYU3 小时前
spring中@Transactional注解和事务的实战理解附代码
数据库·spring boot·后端·spring·oracle·mybatis
MicroTech20253 小时前
微算法科技(NASDAQ: MLGO)探索Grover量子搜索算法,利用量子叠加和干涉原理,实现在无序数据库中快速定位目标信息的效果。
数据库·科技·算法