作为运维工作者,在遇到紧急故障时,你如何快速响应并解决问题?

多少次遇到问题时,你对着一片漆黑泛着几条微光命令行的显示器,后面站着几个,十几个领导或者业务上下游的工作伙伴。你自己的手机,台上的值班手机,其他同事的手机此起彼伏奏着催命的乐章。脑补一下这场景,如果定力不好一下子就慌了手脚。好在上述这种场景现在越来越少了,因为有各种网络冗余和备份手段,把以前出现过的坑给填上了。再遇到状况大多可以快速地把业务切换走,保障"先抢通后抢修"。然后,自己静静地拿张稿纸,开始画拓扑,沟通业务情况,回归基础捋顺原理,定位原因,检查状态,模拟复现故障,对前后配置,做全程记录......。这些非常综合,简单说是一种"定力"吧!对于随便成千上万用户的网络,要培养锻炼出一个能hold住这种场景的网工,成本还是很高的。

相信有超越认知的力量,有超越能力的力量。这股力量可以是我们头上的苍穹,也可以是我们心中的信念。当网工对网络规律有了一定知识储备和实战经验,这时特别要对网络运维抱有敬畏。遇到情况时,千万不可看都没看就下意识觉得自己没问题,一定是对方的问题,悲剧的种子往往在"自以为是"时种下。网工要保持良好沟通,在技术逻辑上梳理清晰,多倾听意见,友好对接。如果双方(多方)对一个问题交流不畅的话,能通过抓包,模拟实验复现等手段来加强沟通,效果可能会更好一些。所以这里又说网工是门手艺活,天天得做实验,敲指令,看代码。

"人总在念念不忘中把一些事情忘得一干二净。"无论现网运维还是实验测试,涉及的配置、指令、参数等都是非常多非常细节的东西。今天做一遍通了,有可能下次做就是下周、下月甚至几年后了,哪还能记得清啊!因此,网工养成复盘梳理、总结记录的习惯太太太重要了。无论运维排障还是知识学习,及时记录起来,后面再遇到的话,随时能检索到笔记。"好记性不如烂笔头",哪怕最最最最基础的知识,也值得记录。多年运维,每当有感悟和想法,我就赶紧找个地方把它们记录起来,可能每次就几句话。今晚的写作,就是零散记录的整理过程,也是总结提升的过程。

宝企通IT服务作为智能化工单系统龙头,拥有多年优化SLA经验,能够有效提高员工对IT的服务满意度。是一款支持SAAS、本地化部署、源码交付的运维工单系统(SAAS免费试用,企业微信--工作台--添加应用,搜索"IT服务",排名第一的就是。或添加顾问:添加我为微信好友)。目前是全网众多企业选择的工单类产品,支持手机验证码或账号验证,员工自助修改域账号密码,具备智能化派单模式工程师响应快减少员工等待时间。自定义知识库可提升工程师专业技能水平,帮助工程师迅速判断员工问题,极大提升员工报单体验。系统还能够大幅提升职能部门可以服务的用户数,有效降低专业人力成本开支,提高业务执行效率,展现工作成果。产品服务好能为用户免费开发个性化需求,连续多年被魔力象0评为leaders位置,市场占有率爆发式增长

相关推荐
运维&陈同学1 小时前
【zookeeper01】消息队列与微服务之zookeeper工作原理
运维·分布式·微服务·zookeeper·云原生·架构·消息队列
是阿建吖!1 小时前
【Linux】进程状态
linux·运维
明明跟你说过1 小时前
Linux中的【tcpdump】:深入介绍与实战使用
linux·运维·测试工具·tcpdump
Mr_Xuhhh2 小时前
重生之我在学环境变量
linux·运维·服务器·前端·chrome·算法
朝九晚五ฺ10 小时前
【Linux探索学习】第十四弹——进程优先级:深入理解操作系统中的进程优先级
linux·运维·学习
Kkooe11 小时前
GitLab|数据迁移
运维·服务器·git
久醉不在酒12 小时前
MySQL数据库运维及集群搭建
运维·数据库·mysql
虚拟网络工程师13 小时前
【网络系统管理】Centos7——配置主从mariadb服务器案例(下半部分)
运维·服务器·网络·数据库·mariadb
BLEACH-heiqiyihu13 小时前
RedHat7—Linux中kickstart自动安装脚本制作
linux·运维·服务器
MXsoft61814 小时前
华为服务器(iBMC)硬件监控指标解读
大数据·运维·数据库