作为运维工作者,在遇到紧急故障时,你如何快速响应并解决问题?

多少次遇到问题时,你对着一片漆黑泛着几条微光命令行的显示器,后面站着几个,十几个领导或者业务上下游的工作伙伴。你自己的手机,台上的值班手机,其他同事的手机此起彼伏奏着催命的乐章。脑补一下这场景,如果定力不好一下子就慌了手脚。好在上述这种场景现在越来越少了,因为有各种网络冗余和备份手段,把以前出现过的坑给填上了。再遇到状况大多可以快速地把业务切换走,保障"先抢通后抢修"。然后,自己静静地拿张稿纸,开始画拓扑,沟通业务情况,回归基础捋顺原理,定位原因,检查状态,模拟复现故障,对前后配置,做全程记录......。这些非常综合,简单说是一种"定力"吧!对于随便成千上万用户的网络,要培养锻炼出一个能hold住这种场景的网工,成本还是很高的。

相信有超越认知的力量,有超越能力的力量。这股力量可以是我们头上的苍穹,也可以是我们心中的信念。当网工对网络规律有了一定知识储备和实战经验,这时特别要对网络运维抱有敬畏。遇到情况时,千万不可看都没看就下意识觉得自己没问题,一定是对方的问题,悲剧的种子往往在"自以为是"时种下。网工要保持良好沟通,在技术逻辑上梳理清晰,多倾听意见,友好对接。如果双方(多方)对一个问题交流不畅的话,能通过抓包,模拟实验复现等手段来加强沟通,效果可能会更好一些。所以这里又说网工是门手艺活,天天得做实验,敲指令,看代码。

"人总在念念不忘中把一些事情忘得一干二净。"无论现网运维还是实验测试,涉及的配置、指令、参数等都是非常多非常细节的东西。今天做一遍通了,有可能下次做就是下周、下月甚至几年后了,哪还能记得清啊!因此,网工养成复盘梳理、总结记录的习惯太太太重要了。无论运维排障还是知识学习,及时记录起来,后面再遇到的话,随时能检索到笔记。"好记性不如烂笔头",哪怕最最最最基础的知识,也值得记录。多年运维,每当有感悟和想法,我就赶紧找个地方把它们记录起来,可能每次就几句话。今晚的写作,就是零散记录的整理过程,也是总结提升的过程。

宝企通IT服务作为智能化工单系统龙头,拥有多年优化SLA经验,能够有效提高员工对IT的服务满意度。是一款支持SAAS、本地化部署、源码交付的运维工单系统(SAAS免费试用,企业微信--工作台--添加应用,搜索"IT服务",排名第一的就是。或添加顾问:添加我为微信好友)。目前是全网众多企业选择的工单类产品,支持手机验证码或账号验证,员工自助修改域账号密码,具备智能化派单模式工程师响应快减少员工等待时间。自定义知识库可提升工程师专业技能水平,帮助工程师迅速判断员工问题,极大提升员工报单体验。系统还能够大幅提升职能部门可以服务的用户数,有效降低专业人力成本开支,提高业务执行效率,展现工作成果。产品服务好能为用户免费开发个性化需求,连续多年被魔力象0评为leaders位置,市场占有率爆发式增长

相关推荐
蜜獾云17 分钟前
docker 安装雷池WAF防火墙 守护Web服务器
linux·运维·服务器·网络·网络安全·docker·容器
小屁不止是运维19 分钟前
麒麟操作系统服务架构保姆级教程(五)NGINX中间件详解
linux·运维·服务器·nginx·中间件·架构
Hacker_Oldv23 分钟前
WPS 认证机制
运维·服务器·wps
bitcsljl32 分钟前
Linux 命令行快捷键
linux·运维·服务器
ac.char35 分钟前
在 Ubuntu 下使用 Tauri 打包 EXE 应用
linux·运维·ubuntu
Youkiup1 小时前
【linux 常用命令】
linux·运维·服务器
qq_297504611 小时前
【解决】Linux更新系统内核后Nvidia-smi has failed...
linux·运维·服务器
_oP_i1 小时前
.NET Core 项目配置到 Jenkins
运维·jenkins·.netcore
weixin_437398211 小时前
Linux扩展——shell编程
linux·运维·服务器·bash
小燚~1 小时前
ubuntu开机进入initramfs状态
linux·运维·ubuntu