浅谈故障复盘

天翼云开发者社区2025-08-22 16:00

本文分享自天翼云开发者社区《浅谈故障复盘》，作者：朱****静

一、完善项目排障机制，做好预防性措施

1、完善项目内评审机制，关键操作执行前反复验证，如：是否抛出异常、返回值是否正确、确认操作结果是否符合预期等；

2、制定排障预案，严格按照排障流程执行操作；

3、研发人员需要输出详细的操作手册，手册详细记录操作内容、操作步骤、测试信息、回退方案等，确保现场人员根据操作手册可无误准确的执行操作；

4、增加hdfs清理回收站过期数据保留时长，降低数据丢失风险。

二、完善现场操作流程，严守部门故障修复制度

1、在程序上线前完整全面地进行checklist，变更事时至少2名研发人员在场，操作与检查同步进行；

2、检查待部署机器上的程序和新程序是否互相影响，包括环境变量、资源、工具包或本地库；

3、正式上线后，在生产环境操作时，故障发生后，严格遵守部门故障报送流程执行操作；

4、正式上线后，在生产环境操作时，上线、问题故障修复，严格遵守部门SOP及CCB变更流程操作执行。

三、提升技术能力，增强风险意识

1、研发人员具备风险识别意识，能够快速形成应急预案；

2、提升研发人员的排障能力和组件运维能力；

3、现场加强现场巡检，增加巡检频次。