浅谈故障复盘

本文分享自天翼云开发者社区《浅谈故障复盘》,作者:朱****静

一、完善项目排障机制,做好预防性措施

1、完善项目内评审机制,关键操作执行前反复验证,如:是否抛出异常、返回值是否正确、确认操作结果是否符合预期等;

2、制定排障预案,严格按照排障流程执行操作;

3、研发人员需要输出详细的操作手册,手册详细记录操作内容、操作步骤、测试信息、回退方案等,确保现场人员根据操作手册可无误准确的执行操作;

4、增加hdfs清理回收站过期数据保留时长,降低数据丢失风险。

二、完善现场操作流程,严守部门故障修复制度

1、在程序上线前完整全面地进行checklist,变更事时至少2名研发人员在场,操作与检查同步进行;

2、检查待部署机器上的程序和新程序是否互相影响,包括环境变量、资源、工具包或本地库;

3、正式上线后,在生产环境操作时,故障发生后,严格遵守部门故障报送流程执行操作;

4、正式上线后,在生产环境操作时,上线、问题故障修复,严格遵守部门SOP及CCB变更流程操作执行。

三、提升技术能力,增强风险意识

1、研发人员具备风险识别意识,能够快速形成应急预案;

2、提升研发人员的排障能力和组件运维能力;

3、现场加强现场巡检,增加巡检频次。

相关推荐
PXM的算法星球1 小时前
并发安全的轮询下标设计:用取模消灭越界与状态依赖
安全
优选资源分享1 小时前
PDF Anti-Copy Pro v2.6.2.4:PDF 防拷贝工具
网络·安全·pdf
三块可乐两块冰2 小时前
【无标题】
安全
边际效应2 小时前
第十三章:Native层安全深度剖析
安全
边际效应2 小时前
第四章:Unidbg原理与环境搭建
安全
yintele2 小时前
类人机器人BMS的静电防护
网络·安全·机器人
●VON3 小时前
AI 保险机制:为智能时代的不确定性兜底
人工智能·学习·安全·制造·von
Bruce_Liuxiaowei3 小时前
内网探测常用技术方法整理
网络·安全·网络安全
乾元4 小时前
如何把 CCIE / HCIE 的实验案例改造成 AI 驱动的工程项目——从“实验室能力”到“可交付系统”的完整迁移路径
大数据·运维·网络·人工智能·深度学习·安全·机器学习
GC_ESD4 小时前
为芯片穿上“防弹衣”:PERC如何守护先进制程下的ESD安全
安全