作为运维工作者,在遇到紧急故障时,你如何快速响应并解决问题?

多少次遇到问题时,你对着一片漆黑泛着几条微光命令行的显示器,后面站着几个,十几个领导或者业务上下游的工作伙伴。你自己的手机,台上的值班手机,其他同事的手机此起彼伏奏着催命的乐章。脑补一下这场景,如果定力不好一下子就慌了手脚。好在上述这种场景现在越来越少了,因为有各种网络冗余和备份手段,把以前出现过的坑给填上了。再遇到状况大多可以快速地把业务切换走,保障"先抢通后抢修"。然后,自己静静地拿张稿纸,开始画拓扑,沟通业务情况,回归基础捋顺原理,定位原因,检查状态,模拟复现故障,对前后配置,做全程记录......。这些非常综合,简单说是一种"定力"吧!对于随便成千上万用户的网络,要培养锻炼出一个能hold住这种场景的网工,成本还是很高的。

相信有超越认知的力量,有超越能力的力量。这股力量可以是我们头上的苍穹,也可以是我们心中的信念。当网工对网络规律有了一定知识储备和实战经验,这时特别要对网络运维抱有敬畏。遇到情况时,千万不可看都没看就下意识觉得自己没问题,一定是对方的问题,悲剧的种子往往在"自以为是"时种下。网工要保持良好沟通,在技术逻辑上梳理清晰,多倾听意见,友好对接。如果双方(多方)对一个问题交流不畅的话,能通过抓包,模拟实验复现等手段来加强沟通,效果可能会更好一些。所以这里又说网工是门手艺活,天天得做实验,敲指令,看代码。

"人总在念念不忘中把一些事情忘得一干二净。"无论现网运维还是实验测试,涉及的配置、指令、参数等都是非常多非常细节的东西。今天做一遍通了,有可能下次做就是下周、下月甚至几年后了,哪还能记得清啊!因此,网工养成复盘梳理、总结记录的习惯太太太重要了。无论运维排障还是知识学习,及时记录起来,后面再遇到的话,随时能检索到笔记。"好记性不如烂笔头",哪怕最最最最基础的知识,也值得记录。多年运维,每当有感悟和想法,我就赶紧找个地方把它们记录起来,可能每次就几句话。今晚的写作,就是零散记录的整理过程,也是总结提升的过程。

宝企通IT服务作为智能化工单系统龙头,拥有多年优化SLA经验,能够有效提高员工对IT的服务满意度。是一款支持SAAS、本地化部署、源码交付的运维工单系统(SAAS免费试用,企业微信--工作台--添加应用,搜索"IT服务",排名第一的就是。或添加顾问:添加我为微信好友)。目前是全网众多企业选择的工单类产品,支持手机验证码或账号验证,员工自助修改域账号密码,具备智能化派单模式工程师响应快减少员工等待时间。自定义知识库可提升工程师专业技能水平,帮助工程师迅速判断员工问题,极大提升员工报单体验。系统还能够大幅提升职能部门可以服务的用户数,有效降低专业人力成本开支,提高业务执行效率,展现工作成果。产品服务好能为用户免费开发个性化需求,连续多年被魔力象0评为leaders位置,市场占有率爆发式增长

相关推荐
Chuncheng's blog1 分钟前
CentOS 7如何编译安装升级gcc至7.5版本?
linux·运维·c++·centos
aitav035 分钟前
⚡️ Linux Docker 基本命令参数详解
linux·运维·docker
Nazi637 分钟前
docker数据管理
运维·docker·容器
静水楼台x1 小时前
nginx日志的一点理解
运维·nginx
文牧之1 小时前
Oracle 审计参数:AUDIT_TRAIL 和 AUDIT_SYS_OPERATIONS
运维·数据库·oracle
代码程序猿RIP2 小时前
【Linux】(1)—进程概念-⑤进程调度
linux·运维
_lizhiqiang2 小时前
联想拯救者R9000P 网卡 Realtek 8852CE Ubuntu/Mint linux 系统睡眠后,无线网卡失效
linux·运维·ubuntu·r9000p·无线网卡·8852ce
我的golang之路果然有问题2 小时前
云服务器部署Gin+gorm 项目 demo
运维·服务器·后端·学习·golang·gin
心随_风动3 小时前
SUSE Linux 发行版全面解析:从开源先驱到企业级支柱
linux·运维·开源
christine-rr3 小时前
征文投稿:如何写一份实用的技术文档?——以软件配置为例
运维·前端·网络·数据库·软件构建