浅谈故障复盘

本文分享自天翼云开发者社区《浅谈故障复盘》,作者:朱****静

一、完善项目排障机制,做好预防性措施

1、完善项目内评审机制,关键操作执行前反复验证,如:是否抛出异常、返回值是否正确、确认操作结果是否符合预期等;

2、制定排障预案,严格按照排障流程执行操作;

3、研发人员需要输出详细的操作手册,手册详细记录操作内容、操作步骤、测试信息、回退方案等,确保现场人员根据操作手册可无误准确的执行操作;

4、增加hdfs清理回收站过期数据保留时长,降低数据丢失风险。

二、完善现场操作流程,严守部门故障修复制度

1、在程序上线前完整全面地进行checklist,变更事时至少2名研发人员在场,操作与检查同步进行;

2、检查待部署机器上的程序和新程序是否互相影响,包括环境变量、资源、工具包或本地库;

3、正式上线后,在生产环境操作时,故障发生后,严格遵守部门故障报送流程执行操作;

4、正式上线后,在生产环境操作时,上线、问题故障修复,严格遵守部门SOP及CCB变更流程操作执行。

三、提升技术能力,增强风险意识

1、研发人员具备风险识别意识,能够快速形成应急预案;

2、提升研发人员的排障能力和组件运维能力;

3、现场加强现场巡检,增加巡检频次。

相关推荐
llxxyy卢32 分钟前
文件操作之文件下载读取全解
安全
虹科网络安全3 小时前
艾体宝洞察 | 利用“隐形字符”的钓鱼邮件:传统防御为何失效,AI安全意识培训如何补上最后一道防线
运维·网络·安全
冰敷逆向5 小时前
苏宁滑块VMP深入剖析(一):解混淆篇
javascript·爬虫·安全·web
小五传输5 小时前
隔离网闸的作用是什么?新型网闸如何构筑“数字护城河”?
大数据·运维·安全
石像鬼₧魂石7 小时前
内网渗透是网络安全渗透测试
安全·web安全
Neolnfra9 小时前
渗透测试标准化流程
开发语言·安全·web安全·http·网络安全·https·系统安全
奋飞安全10 小时前
给你的Ida插上翅膀
安全·逆向
llxxyy卢10 小时前
逻辑越权之找回机制接口安全
安全
pusheng202510 小时前
普晟传感直播预告 |重塑安全边界:储能与AI数据中心的锂电风险、气体探测技术革新与可量化风险管控
人工智能·安全
云计算练习生11 小时前
渗透测试行业术语扫盲(第十六篇)—— 红蓝对抗与演练类
网络·安全·网络安全·信息安全·渗透测试术语