程序员黑话之故障专辑(中英文对照版)

去年出过一期「程序员黑话集」,一直想着更新一季,正好最近业内接连发生了几起影响比较大的故障,那我们就专门做一期「故障专辑」吧。

故障

故障有好几种叫法,比较正式的

  • 故障 - Outage
  • 事故 - Incident

不怎么严重的,时间很短的

  • 抖了一下 - Jitter(多用于网络)
  • Hiccup (中文翻译是打了个嗝,不过中文里貌似没有这个讲法)

通俗点的说法

  • 挂了/崩了- Down

500

当在请求某个网络资源时,服务器内部发生错误时,返回的错误编号。扩展为系统发生内部故障。

变更

虽然突然的流量暴涨,或者光缆被挖断,数据中心着火,被雷劈都有可能,但绝大多数时候,故障都是变更导致的。

变更分为三大类:

  • 代码变更 - Code Change
  • 配置变更 - Config Change
  • 数据库变更 - Database Change

左移 (shift-left)

降低变更风险的一个方法,就是做变更前检查,问题越早发现越好。因为变更的流水线是从左往右画的,起点在左边。所以左移就是把检查尽量靠近起点。

金丝雀 (Canary)

以前矿工下井,会带一只金丝雀,如果井下空气出现状况,更敏感的金丝雀会先有异常。这个概念也带到了软件研发里。会循序渐进地做变更。另外一种叫法是灰度 (Grayscale)。

单元化/区域化 (Regionalization)

在互联网公司逐渐普及的架构,主要由 AWS 发扬光大,把服务进行隔离。

爆炸半径 (Blast Radius)

金丝雀和单元化都是为了降低爆炸半径,减少故障的影响面。

值班 (On-call)

也叫 Carry the pager。以前带着的传呼机叫做 Pager。现在传呼机被手机/软件取代了,但 Pager 这个名字沿用了下来。

复盘 (Postmortem)

原义是尸检报告。在软件研发领域,指详细的故障分析报告。

惊群 (Thundering Herd)

打雷后,动物一下子被惊醒了,到处乱窜,造成混乱。在故障恢复阶段要小心的问题,很容易刚拉起一个服务,立马又被积压的请求打挂。

结语

船停在港口是最安全的,但那不是造船的目的。软件需要持续的变更迭代,变更就有风险。但研发团队可以通过引入工具,来降低风险,针对一开始变更的三种类型,市面上也有成熟的开源方案: 代码变更 - 老牌的有 Jenkins,新兴的有 Drone CI 和 Zadig

配置变更 - Apollo

数据库变更 - Bytebase

🍀好运!


💡 更多资讯,请关注 Bytebase 公号:Bytebase

相关推荐
.小小陈.7 分钟前
MySQL 入门到实战:从基础概念到核心存储引擎
数据库·mysql
IT邦德15 分钟前
Oracle 26ai 首发季度补丁 23.26.2.0.0 来了!单机版升级
数据库·oracle
yoyo_zzm17 分钟前
Laravel10.x新特性全解析
数据库·mysql·架构
许彰午24 分钟前
CacheSQL(五):桥接篇
java·数据库·缓存·系统架构
七夜zippoe30 分钟前
# DolphinDB分区策略:RANGE分区详解
数据库·策略·分区·range·dolphindb
地球资源数据云42 分钟前
中国陆地生态系统主要植物功能特征空间分布数据
大数据·数据库·人工智能·机器学习
吠品1 小时前
高性能JS数组操作:何时选用push、unshift、splice或扩展运算符?
linux·服务器·数据库
洛水水1 小时前
【Redis入门】一篇详解Redis五大数据结构
数据结构·数据库·redis
woodykissme1 小时前
日产汽车花键测绘,为什么总踩坑?
数据库·汽车·齿轮·渐开线花键
雨辰AI1 小时前
从 MySQL 迁移至人大金仓 V9 完整改造指南|分页 / 函数 / 语法兼容全部解决
java·开发语言·数据库·后端·mysql·政务