浅谈故障复盘

本文分享自天翼云开发者社区《浅谈故障复盘》,作者:朱****静

一、完善项目排障机制,做好预防性措施

1、完善项目内评审机制,关键操作执行前反复验证,如:是否抛出异常、返回值是否正确、确认操作结果是否符合预期等;

2、制定排障预案,严格按照排障流程执行操作;

3、研发人员需要输出详细的操作手册,手册详细记录操作内容、操作步骤、测试信息、回退方案等,确保现场人员根据操作手册可无误准确的执行操作;

4、增加hdfs清理回收站过期数据保留时长,降低数据丢失风险。

二、完善现场操作流程,严守部门故障修复制度

1、在程序上线前完整全面地进行checklist,变更事时至少2名研发人员在场,操作与检查同步进行;

2、检查待部署机器上的程序和新程序是否互相影响,包括环境变量、资源、工具包或本地库;

3、正式上线后,在生产环境操作时,故障发生后,严格遵守部门故障报送流程执行操作;

4、正式上线后,在生产环境操作时,上线、问题故障修复,严格遵守部门SOP及CCB变更流程操作执行。

三、提升技术能力,增强风险意识

1、研发人员具备风险识别意识,能够快速形成应急预案;

2、提升研发人员的排障能力和组件运维能力;

3、现场加强现场巡检,增加巡检频次。

相关推荐
青岑CTF4 小时前
攻防世界-Ics-05-胎教版wp
开发语言·安全·web安全·网络安全·php
合才科技6 小时前
【要闻周报】网络安全与数据合规 2-1
安全·web安全
one____dream7 小时前
【网安】Reverse-非常规题目
linux·python·安全·网络安全·ctf
雨季66610 小时前
Flutter 三端应用实战:OpenHarmony “专注时光盒”——在碎片洪流中守护心流的数字容器
开发语言·前端·安全·flutter·交互
青岑CTF10 小时前
攻防世界-Web_php_include-胎教版wp
开发语言·安全·web安全·网络安全·php
数说星榆18112 小时前
模型安全防御:对抗攻击与数据投毒的防护
安全
188号安全攻城狮12 小时前
【PWN】HappyNewYearCTF_9_ret2syscall
linux·汇编·安全·网络安全·系统安全
知识即是力量ol13 小时前
深度解析:基于 JWT + Redis 白名单的双令牌高安全认证架构
redis·安全·架构
HaiLang_IT13 小时前
网络安全与执法专业【精选选题表】优质选题参考
安全·web安全·php
青岑CTF13 小时前
moectf2023-了解你的座驾-胎教版wp
安全·web安全·网络安全