浅谈故障复盘

本文分享自天翼云开发者社区《浅谈故障复盘》,作者:朱****静

一、完善项目排障机制,做好预防性措施

1、完善项目内评审机制,关键操作执行前反复验证,如:是否抛出异常、返回值是否正确、确认操作结果是否符合预期等;

2、制定排障预案,严格按照排障流程执行操作;

3、研发人员需要输出详细的操作手册,手册详细记录操作内容、操作步骤、测试信息、回退方案等,确保现场人员根据操作手册可无误准确的执行操作;

4、增加hdfs清理回收站过期数据保留时长,降低数据丢失风险。

二、完善现场操作流程,严守部门故障修复制度

1、在程序上线前完整全面地进行checklist,变更事时至少2名研发人员在场,操作与检查同步进行;

2、检查待部署机器上的程序和新程序是否互相影响,包括环境变量、资源、工具包或本地库;

3、正式上线后,在生产环境操作时,故障发生后,严格遵守部门故障报送流程执行操作;

4、正式上线后,在生产环境操作时,上线、问题故障修复,严格遵守部门SOP及CCB变更流程操作执行。

三、提升技术能力,增强风险意识

1、研发人员具备风险识别意识,能够快速形成应急预案;

2、提升研发人员的排障能力和组件运维能力;

3、现场加强现场巡检,增加巡检频次。

相关推荐
围炉聊科技1 小时前
筑牢大模型安全防线:京东JoySafety和Meta LlamaFirewall两款主流开源安全框架解析
安全·开源
光算科技1 小时前
网站被谷歌标记“不安全”(Not Secure)怎么处理?
安全·搜索引擎
半个西瓜.10 小时前
车联网NFC测试:NFC信号嗅探测试.
网络·安全·网络安全·车载系统
t***D26411 小时前
MySQL安全
数据库·mysql·安全
EasyDSS14 小时前
革新传统勘探:视频推流平台EasyDSS无人机推流如何赋能高效安全的地质考察?
安全·音视频·无人机
n***293215 小时前
PHP安全编程实践
开发语言·安全·php
翼龙云_cloud16 小时前
亚马逊云渠道商:aws安全组没有加ip用ip访问会有什么问题?
运维·tcp/ip·安全·云计算·aws
学网安的肆伍18 小时前
【033-安全开发篇】JavaEE应用&SQL预编译&Filter过滤器&Listener监听器&访问控制
安全·java-ee
tianyuanwo18 小时前
深入浅出:解读AD域认证与UAC,构建系统安全的两道防线
安全·系统安全·uac·ad域认证
-大头.19 小时前
Web安全攻防深度解析:从理论到实践的全方位防御指南
安全·web安全