浅谈故障复盘

本文分享自天翼云开发者社区《浅谈故障复盘》,作者:朱****静

一、完善项目排障机制,做好预防性措施

1、完善项目内评审机制,关键操作执行前反复验证,如:是否抛出异常、返回值是否正确、确认操作结果是否符合预期等;

2、制定排障预案,严格按照排障流程执行操作;

3、研发人员需要输出详细的操作手册,手册详细记录操作内容、操作步骤、测试信息、回退方案等,确保现场人员根据操作手册可无误准确的执行操作;

4、增加hdfs清理回收站过期数据保留时长,降低数据丢失风险。

二、完善现场操作流程,严守部门故障修复制度

1、在程序上线前完整全面地进行checklist,变更事时至少2名研发人员在场,操作与检查同步进行;

2、检查待部署机器上的程序和新程序是否互相影响,包括环境变量、资源、工具包或本地库;

3、正式上线后,在生产环境操作时,故障发生后,严格遵守部门故障报送流程执行操作;

4、正式上线后,在生产环境操作时,上线、问题故障修复,严格遵守部门SOP及CCB变更流程操作执行。

三、提升技术能力,增强风险意识

1、研发人员具备风险识别意识,能够快速形成应急预案;

2、提升研发人员的排障能力和组件运维能力;

3、现场加强现场巡检,增加巡检频次。

相关推荐
泽济天下2 小时前
【经验分享】JWE 详解:比 JWT 更安全的令牌技术
网络·经验分享·安全
云手机掌柜9 小时前
技术深度解析:指纹云手机如何通过设备指纹隔离技术重塑多账号安全管理
大数据·服务器·安全·智能手机·矩阵·云计算
德迅云安全杨德俊11 小时前
SCDN-保护网站安全的有效方案
网络·安全·web安全·ddos
独行soc15 小时前
2025年渗透测试面试题总结-100(题目+回答)
网络·安全·web安全·网络安全·adb·渗透测试·安全狮
静渊谋17 小时前
攻防世界-Check
java·安全·网络安全
酷柚易汛智推官18 小时前
2025软件供应链安全实战:从漏洞修补到风险预测的转型指南
安全
没有bug.的程序员21 小时前
MySQL 安全与权限管理:从基础到生产级安全实践
java·mysql·安全·adb·权限
weixin_4462608521 小时前
探索高效安全的去中心化应用——Solana区块链
安全·去中心化·区块链
大数据检索中心1 天前
个人数据泄露有哪些法律与安全风险?
大数据·安全
脚底儿1 天前
网络安全常见敏感目录字典
安全·web安全