浅谈故障复盘

本文分享自天翼云开发者社区《浅谈故障复盘》,作者:朱****静

一、完善项目排障机制,做好预防性措施

1、完善项目内评审机制,关键操作执行前反复验证,如:是否抛出异常、返回值是否正确、确认操作结果是否符合预期等;

2、制定排障预案,严格按照排障流程执行操作;

3、研发人员需要输出详细的操作手册,手册详细记录操作内容、操作步骤、测试信息、回退方案等,确保现场人员根据操作手册可无误准确的执行操作;

4、增加hdfs清理回收站过期数据保留时长,降低数据丢失风险。

二、完善现场操作流程,严守部门故障修复制度

1、在程序上线前完整全面地进行checklist,变更事时至少2名研发人员在场,操作与检查同步进行;

2、检查待部署机器上的程序和新程序是否互相影响,包括环境变量、资源、工具包或本地库;

3、正式上线后,在生产环境操作时,故障发生后,严格遵守部门故障报送流程执行操作;

4、正式上线后,在生产环境操作时,上线、问题故障修复,严格遵守部门SOP及CCB变更流程操作执行。

三、提升技术能力,增强风险意识

1、研发人员具备风险识别意识,能够快速形成应急预案;

2、提升研发人员的排障能力和组件运维能力;

3、现场加强现场巡检,增加巡检频次。

相关推荐
課代表1 小时前
WindoWs 系统管理批处理脚本
windows·安全·脚本·注册表·bat·命令·组策略
哈乐2 小时前
网络安全应用题3:网络攻击与防范
安全·web安全·ddos
奔跑吧邓邓子5 小时前
【C语言实战(66)】筑牢防线:C语言安全编码之输入与错误处理
c语言·安全·开发实战·错误处理·输入验证
wanhengidc5 小时前
云手机中的数据信息会被泄露吗
运维·服务器·安全·智能手机·玩游戏
泷羽Sec-静安9 小时前
Less-7 GET-Dump into outfile-String
android·前端·网络·sql·安全·web安全
一瓢一瓢的饮 alanchan9 小时前
HTTPS接口国密安全设计-示例
网络协议·安全·https·国密 国家商用密码·数字签名 数字证书·sm2 sm4 sm3·对称加密 非对称加密
jenchoi41310 小时前
【2025-10-31】软件供应链安全日报:最新漏洞预警与投毒预警情报汇总
网络·安全·web安全·网络安全
民乐团扒谱机12 小时前
实验室安全教育与管理平台学习记录(四)机械建筑类安全
学习·安全
小虚竹13 小时前
使用仓颉语言实现 nanoid:一个安全的唯一 ID 生成器
运维·服务器·安全·鸿蒙
数安3000天1 天前
政务数据治理构建可知可管可控的API安全网关体系建设实践
安全·政务