27 届运维实习笔记｜第三、四周：从流程熟练到故障排查，企业运维实战深化

前两周完成了从入职适配到基本工具使用，再到中间件熟悉延伸至工单处理、Jenkins 上线初体验，第三、四周进入高频实操、流程固化、原理理解、故障分析 的新阶段。这两周的日子，实操性得到大幅提升，使我在Linux系统的日常运维、定时项目发布、shell脚本优化、突发故障问题定位中持续深入，对Linux、Shell、SQL、Jenkins、Nginx、4A 合规、高可用架构的理解有了更加完整的体系认识，实现了从 "跟着做" 走向学着 "懂逻辑、会排查、能总结"的进阶探索。

一、日常运维：工单处理标准化，技能熟练度稳步提升

这两周我持续负责售后工单分析、权益平台排错、投诉平台查询 的日常处理，工作内容更复杂、场景更真实，也逐步形成了适合自己的标准化处理流程：

首先是通过 4A 平台，配置好网关，路由等设置登录内网·、进行权限核验，领取待处理工单；
梳理问题的描述，具体的业务模块归属，例如抓住用户号码、故障时间范围等关键信息作为排查关键线索；
编写 / 调用 Shell 脚本，连接数据库执行 SQL 查询，尽量使用grep、sed、awk对日志进行过滤、清洗、提取所需的关键信息，避免表中干扰信息过多影响判断，同时提高分析效率；
核对订单状态、业务记录、调取查询接口，核对返回结果是否符合工单述求，最终以快速完成问题定位、快速响应、解决问题并结果反馈，形成工单闭环。

同时，在实操中我进一步巩固了一些运维人员的基础但高频使用的技能：

1.熟练使用chmod调整脚本权限，避免执行报错，用explain分析 SQL 执行效率，优化查询速度

2.把重复查询逻辑封装成函数，提升脚本复用性，使得对多表关联、条件筛选、子查询等复杂 SQL 更加熟练

3.日志排查更精准，调用查询接口之后，能快速定位报错、超时、异常返回

这些日常工作让我深刻体会到：运维没有 "小操作"，每一条命令、每一次查询都必须严谨、可追溯、而且要符合合规要求，便于集团审计。

二、项目上线全流程巩固：Jenkins + Nginx + 高可用落地

这两周我多次参与项目上线，对CI/CD 自动化发布体系 和高可用架构 的理解更加清晰，透彻，从刚开始的"看流程" 变成 "跟流程、懂流程"，逐渐在日常项目上线中将理解运用到实际之中，增强运维部署经验；

1. 完整上线流程回顾

资源管控后台录入信息，核对服务器、权限、上线时间
邮件申请上线，完成审批流程
开发提交代码到 Git，Jenkins 自动拉取
构建、编译、打包，生成可部署制品
通过 Ansible 批量分发到多台服务器
执行 Shell 脚本完成备份、替换、启动、检查
Nginx 主备切换、流量调度、负载均衡
上线后巡检：服务状态、端口、进程、日志、数据库连接
确认业务正常，上线完成

2. Nginx 与高可用核心收获

理解 Nginx 作为流量入口、反向代理、负载均衡的作用
掌握nginx -s reload平滑重载，实现配置更新不中断业务
理解主备容灾、双中心部署的意义：保证业务不间断
看懂流量调度逻辑，明白上线为什么要 "切主备"
学会上线后检查服务是否正常接入流量

这部分让我真正理解：企业运维的核心不是 "能上线"，而是 "稳上线、无损上线、可回滚上线"。

三、脚本优化与合规意识：运维效率与安全双重提升

在这小半个月时间里，我继续对常用 Shell 脚本进行优化，让工单处理、查询、巡检更高效、更规范：

把 8 大高频数据库查询场景封装成传参式脚本，使得查询之中可以达到一键切换库、一键查询，更加灵活，提高查询效率；
使用grep匹配关键字，sed清洗冗余数据，输出整洁结果，所有高危操作全部放入脚本，禁止手动敲命令；
执行日志自动记录，满足集团审计与可追溯要求，更加合规和安全；

优化后明显感受到：

工单处理速度更快，shell脚本的复用率也使得人为失误更少；
操作更规范、更安全符合企业合规、审计、留痕的硬性要求；

四、记录遇到的故障分析

内网登陆的云平台在连接4A功能平台之后，出现平台功能异常，清缓存即恢复（实战复盘）

本周遇到一个非常典型、企业高频出现的问题，刚开始我以为是dns异常解析导致功能异常，但后续的梳理之中，通过团队求助，资料查询等方式弄明白了原因，彻底搞懂前端与登录态原理：

故障现象：

4A 平台页面可以正常打开，但某个功能按钮失效、点击无反应、接口报错；

但是在只执行：清除浏览器缓存 → 关闭浏览器 → 重新登录之后，功能立刻恢复正常。

根本原因分析（与 DNS 无关）：

本地 JS/CSS 缓存版本或不匹配，平台更新后，浏览器仍使用旧脚本，与后端接口不兼容
Cookie/Token 登录态过期 / 损坏，身份凭证失效，导致鉴权失败、功能无权限
localStorage 脏数据，权限、菜单、用户状态异常，页面渲染出错
页面加载不完整

网络波动导致状态异常，普通刷新无法修复

为什么清缓存重启就好？

清除缓存：删除旧资源、失效 Cookie、脏数据
重启浏览器：彻底重置页面状态
重新登录：获取全新 Token，加载最新前端文件

→ 该过程相当于 "重新初始化"，故障直接消失

关键结论

DNS 只负责域名解析，异常会直接打不开页面
能打开页面但功能异常 → 一定是前端 / 登录态问题
清浏览器缓存不清除 DNS 记录 → 彻底排除 DNS

这次故障复盘让我第一次完整完成：现象→原因→原理→结论的运维分析链路。

五、深化理解的技术栈（第三、四周巩固系列）

结合前两周学习，我对业务上的整套企业运维技术栈的认知更加连贯：

Git：作为代码版本管理，发布的源头，保证可回溯
Jenkins：持续集成，自动化构建、打包、调度
Ansible：批量部署，多服务器统一操作、文件分发
Shell：运维核心工具，实现操作标准化、自动化
Nginx：流量网关、负载均衡、高可用、无损上线
4A 平台：统一认证、权限管控、操作审计、合规底线
MySQL/DB2：数据查询、工单定位、业务核对
Linux：基础环境，日志、进程、端口、文件管理

这套体系的目标：

更快发布、更少故障、更稳运行、更强合规、更易排查，适合CI/CD流水线控制机制，高效适配企业的业务开发，上线，维护需求。

六、这期间的总结与感悟

这两周是我从 "会操作" 迈向 "懂原理" 的重要阶段。

从高频工单处理、脚本优化、上线流程巩固，到真实故障分析，我逐步建立起完整的企业运维思维：

运维要严谨：每一步都关系业务稳定
运维要高效：能用脚本绝不重复手动操作
运维要合规：所有操作必须可审计、可追溯
运维要懂架构：高可用、流量调度、容灾是业务生命线

目前我已能独立完成：

售后工单处理、SQL 查询优化、Shell 脚本编写、Jenkins 上线流程、Nginx 基础理解、日志排查、简单故障分析。

后续我将继续深耕：

Shell 脚本进阶、中间件运维、监控体系、自动化巡检、高可用架构深化，不断向标准化、自动化、专业化运维方向提升。