【运维面试100问】（三）说说你在故障排除方面的经历

本站以分享各种运维经验和运维所需要的技能为主

《python零基础入门》：python零基础入门学习

《python运维脚本》： python运维脚本实践

《shell》：shell学习

《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战

《k8》暂未更新

《docker学习》暂未更新

《ceph学习》ceph日常问题解决分享

《日志收集》ELK+各种中间件

《运维日常》运维日常

《linux》运维面试100问

说说你在故障排除方面的经历

方法论

在故障排除方面，我有以下经验：

故障分析和定位：我熟悉使用各种工具和技术来分析和定位故障。我会仔细查看日志文件、监控数据和错误报告，以确定故障发生的时间、位置和原因。我还会运用故障树分析、追踪技术和调试工具来帮助我定位问题。

问题解决和修复：一旦我定位到故障的根本原因，我会采取相应的措施来解决和修复问题。这可能包括修复代码错误、调整配置参数、更新软件版本或修复硬件故障等。我会遵循最佳实践和标准操作流程，确保问题得到有效解决。

与团队合作：故障排除通常需要与其他团队成员合作。我擅长与开发人员、网络管理员和数据库管理员等其他团队成员进行沟通和协作。我们共同分析和解决问题，确保故障得到及时解决。

故障预防和持续改进：除了解决当前的故障，我也非常注重故障的预防和持续改进。我会对故障进行根因分析，找出背后的潜在问题，并提出相应的改进措施。我还会审查和更新文档、流程和策略，以提高系统的可靠性和稳定性。

紧急响应和应急计划：在紧急情况下，我能够迅速响应并采取必要的行动。我熟悉制定和执行应急计划，包括故障转移、灾备恢复和紧急通知等方面。我会与团队密切合作，确保故障得到及时处理，最小化业务中断时间。

这些经验使我能够在故障排除过程中保持冷静、分析问题和采取适当的行动。我注重团队合作、持续学习和不断改进，以提高故障排除的效率和质量。

举例：当你公司的一个网站访问慢了，你的排查思路

这个问题考察你个人平时处理问题的格局以及有没有这个能力可以应对该类问题。

这里分享一下个人对于这个问题的排查思路，有什么不对的地方欢迎指点。

这里以云服务器为例子，如果是idc机房的，还要检查架构中网络问题，

是否存在物理线路以及网卡问题。

1.定位网站所在的机器，检查该网站程序的服务日志是否有明显报错，排查后端挤压的可能

2.还要检查该程序所使用的数据库，有没有慢查询，若有，需要把慢查询优化

3.还要检查中间缓存队列层，是否存在挤压现象

4.顺着藤往上摸，继续检查网站出口，是自建的ng还是通过云的elb负载均衡，如果是自建ng，

查看ng日志，如果是云的elb，查看监控是否超过elb的性能指标。

5.到出口外就是dns或者CDN的加速出现了问题，命中率低了，去找供应商排查