经典名言
保持敬畏的人才能活得久!
从故障中认知自我
每一次的故障都是一个重新认知自我的过程,长时间不发生故障会让人产生自己很强大、很聪明的错觉。就像我们每天过马路或者开汽车,防御性驾驶永远是避免车祸的首要因素。打个比方,变更后不验证,跟过马路不看红绿灯一样,虽然可能不会立即出问题,但是出问题是早晚的事情。只有使用正确的方法做事,才可能让风险逐步收敛,这既是培养风险文化和风险意识的作用。
风险文化的核心价值
维度 无风险文化 有风险文化
故障响应 推诿责任、隐瞒问题 主动上报、快速响应
变更管理 走形式、事后补单 严格评审、充分验证
知识分享 经验私有化 主动沉淀、全员共享
演练态度 应付检查 认真对待、主动找茬
成本意识 资源浪费 精打细算、持续优化
风险文化框架
价值观层:稳定压倒一切!不带问题发布!
行为准则层:不隐瞒/不推诿
制度规范层:应急预案、变更规范
工具平台层:监控、自动化、演练
培养体系
CTO:
- 重大故障参与复盘
- 风险文化倡导者
- 资源投入决策支持
执行层(技术经理/TL、 架构师):
- 风险管理培训 (月度)
- 变更评审委员会
- 应急演练组织
- 团队风险文化建设
一线(开发、测试和运维)
- 风险意识培训 (入职 + 季度)
- 操作规范认证
- 演练参与
- 故障案例学习
课程体系
课程名称 目标人群 时长 频率 考核方式
风险意识入门 全员 2h 入职必训 在线测试
生产变更规范 开发/运维 4h 季度 实操认证
应急响应流程 全员 2h 半年 演练评估
故障复盘方法 TL/架构师 4h 季度 案例输出
混沌工程实践 SRE/开发 8h 年度 实验设计
容量规划方法 架构师/SRE 4h 年度 方案设计
安全合规要求 全员 2h 年度 在线测试
特色活动
- 故障模拟日
- 故障案例库建设
- 风险防控之星评选
风险文化成熟度评估模型
L5 优化级 │ 持续改进、主动预防、行业标杆
- 风险预测准确率>80%
- 主动发现风险>被动发现
L4 量化级 │ 数据驱动、量化管理 - 风险指标全面量化
- MTTR<30min、故障率<0.1%
L3 定义级 │ 流程标准化、制度完善 - 制度覆盖率>90%
- 培训覆盖率>95%
L2 管理级 │ 被动响应、事后处理 - 有基本流程
- 故障能恢复
L1 初始级 │ 无意识、救火式 - 无明确流程
- 故障频发