磁盘故障处理

目录

[🔍 一、初步检查:确认磁盘状态与内核报错](#🔍 一、初步检查:确认磁盘状态与内核报错)

[✅ 二、确认挂载状态与可写性](#✅ 二、确认挂载状态与可写性)

[🔍 三、只读坏道扫描(安全,不破坏数据)](#🔍 三、只读坏道扫描(安全,不破坏数据))

[🔧 四、深度检查:SMART 信息(整个磁盘)](#🔧 四、深度检查:SMART 信息(整个磁盘))

[✅ 五、后续建议](#✅ 五、后续建议)


🔍 一、初步检查:确认磁盘状态与内核报错

1.1 查看磁盘挂载与分区信息

复制代码
lsblk
df -h

1.2 检查内核是否已上报 I/O 错误(重点)

复制代码
dmesg | grep -i 'sdd1' | tail -50

⚠️ 关注以下关键词(说明已触发内核级 I/O 错误):

  • Buffer I/O error on dev sdd1, logical block 12345
  • lost page write due to I/O error on sdd1
  • EXT4-fs error
  • remounting filesystem read-only
✅ 二、确认挂载状态与可写性

2.1 检查挂载点是否正确

复制代码
mount | grep sdd1

期望输出

复制代码
/dev/sdd1 on /apsarapangu/disk8 type ext4 (rw,relatime,data=ordered)
  • ✅ 有输出且挂载点为 /apsarapangu/disk8,说明挂载正常。
  • ❌ 无输出 → 用 lsblk -fblkid 确认设备名是否正确。

2.2 验证文件系统是否可写

复制代码
cd /apsarapangu/disk8
echo "test" > test_write
cat test_write
rm test_write
  • ✅ 能正常读写,说明文件系统层未受保护。
  • ❌ 报错如:
    • Read-only file system → 文件系统被内核保护为只读。
    • Input/output error → 可能已出现坏道或文件系统损坏。
🔍 三、只读坏道扫描(安全,不破坏数据)
复制代码
sudo badblocks -sv /dev/sdd1
  • -s:显示进度
  • -v:详细输出
  • 默认只读模式,不会写入,安全

正常输出

复制代码
Pass completed, 0 bad blocks found.

异常输出(示例):

复制代码
12345
67890

这些数字是 逻辑块地址(LBA),表示读取失败的块。

🔧 四、深度检查:SMART 信息(整个磁盘)
复制代码
sudo smartctl -a /dev/sdd

⚠️ 注意:是 /dev/sdd(整个盘),不是 /dev/sdd1(分区)

重点字段

|--------------------------|-----------|-------|
| 字段名 | 含义 | 正常值 |
| Reallocated_Sector_Ct | 已重映射的坏扇区 | 0 |
| Current_Pending_Sector | 待映射的疑似坏扇区 | 0 |
| Offline_Uncorrectable | 无法修复的扇区 | 0 |

⚠️ 任一字段 非零 ,说明磁盘已出现 物理坏道即将失效 ,建议尽快更换磁盘

✅ 五、后续建议

|--------------------|--------------------------------------------------|
| 场景 | 建议 |
| badblocks 发现坏道 | 标记坏道(e2fsck -c),或更换磁盘 |
| SMART 指标异常 | 立即上报,准备换盘 |
| 文件系统只读 | 先卸载,执行 fsck -y /dev/sdd1,再重新挂载 |
| 盘古节点 | 若磁盘为数据盘,建议触发 ChunkServer 下线 → 换盘 → 上线 → 数据均衡 |

相关推荐
海棠AI实验室2 小时前
第 3 篇:服务编排与自启动——把 Mac 变成“稳定可运维”的家庭 AI 机房
运维·人工智能·macos
山峰哥2 小时前
SQL调优实战:让查询效率飙升10倍的降本密码
服务器·前端·数据库·sql·编辑器·深度优先
JANG10242 小时前
【Linux】进程通信
linux·运维·chrome
Solar20252 小时前
工程材料企业数据采集系统十大解决方案深度解析:从技术挑战到架构实践
java·大数据·运维·服务器·架构
UR的出不克2 小时前
基于 mitmproxy 的大众点评数据采集实战:自动化抓取景点与评论数据
运维·爬虫·python·自动化
viqjeee3 小时前
RK3288设备树介绍和配置
linux·设备树
chinesegf3 小时前
docker迁移镜像并运行
运维·docker·容器
末日汐3 小时前
Linux进程信号
linux·运维·服务器
无垠的广袤3 小时前
【工业树莓派 CM0 NANO 单板计算机】YOLO26 部署方案
linux·python·opencv·yolo·树莓派·目标识别