27 届运维实习笔记|第三、四周:从流程熟练到故障排查,企业运维实战深化

27 届运维实习笔记|第三、四周:从流程熟练到故障排查,企业运维实战深化

​ 前两周完成了从入职适配到基本工具使用,再到中间件熟悉延伸至工单处理、Jenkins 上线初体验,第三、四周进入高频实操、流程固化、原理理解、故障分析 的新阶段。这两周的日子,实操性得到大幅提升,使我在Linux系统的日常运维、定时项目发布、shell脚本优化、突发故障问题定位中持续深入,对Linux、Shell、SQL、Jenkins、Nginx、4A 合规、高可用架构的理解有了更加完整的体系认识,实现了从 "跟着做" 走向学着 "懂逻辑、会排查、能总结"的进阶探索。


一、日常运维:工单处理标准化,技能熟练度稳步提升

​ 这两周我持续负责售后工单分析、权益平台排错、投诉平台查询 的日常处理,工作内容更复杂、场景更真实,也逐步形成了适合自己的标准化处理流程

  1. 首先是通过 4A 平台,配置好网关,路由等设置登录内网·、进行权限核验,领取待处理工单;
  2. 梳理问题的描述,具体的业务模块归属,例如抓住用户号码、故障时间范围等关键信息作为排查关键线索;
  3. 编写 / 调用 Shell 脚本,连接数据库执行 SQL 查询,尽量使用grepsedawk对日志进行过滤、清洗、提取所需的关键信息,避免表中干扰信息过多影响判断,同时提高分析效率;
  4. 核对订单状态、业务记录、调取查询接口,核对返回结果是否符合工单述求,最终以快速完成问题定位、快速响应、解决问题并结果反馈,形成工单闭环。

​ 同时,在实操中我进一步巩固了一些运维人员的基础但高频使用的技能:

1.熟练使用chmod调整脚本权限,避免执行报错,用explain分析 SQL 执行效率,优化查询速度

2.把重复查询逻辑封装成函数,提升脚本复用性,使得对多表关联、条件筛选、子查询等复杂 SQL 更加熟练

3.日志排查更精准,调用查询接口之后,能快速定位报错、超时、异常返回

​ 这些日常工作让我深刻体会到:运维没有 "小操作",每一条命令、每一次查询都必须严谨、可追溯、而且要符合合规要求,便于集团审计。


二、项目上线全流程巩固:Jenkins + Nginx + 高可用落地

​ 这两周我多次参与项目上线,对CI/CD 自动化发布体系高可用架构 的理解更加清晰,透彻,从 刚开始的"看流程" 变成 "跟流程、懂流程",逐渐在日常项目上线中将理解运用到实际之中,增强运维部署经验;

1. 完整上线流程回顾
  1. 资源管控后台录入信息,核对服务器、权限、上线时间
  2. 邮件申请上线,完成审批流程
  3. 开发提交代码到 Git,Jenkins 自动拉取
  4. 构建、编译、打包,生成可部署制品
  5. 通过 Ansible 批量分发到多台服务器
  6. 执行 Shell 脚本完成备份、替换、启动、检查
  7. Nginx 主备切换、流量调度、负载均衡
  8. 上线后巡检:服务状态、端口、进程、日志、数据库连接
  9. 确认业务正常,上线完成
2. Nginx 与高可用核心收获
  • 理解 Nginx 作为流量入口、反向代理、负载均衡的作用
  • 掌握nginx -s reload平滑重载,实现配置更新不中断业务
  • 理解主备容灾、双中心部署的意义:保证业务不间断
  • 看懂流量调度逻辑,明白上线为什么要 "切主备"
  • 学会上线后检查服务是否正常接入流量

这部分让我真正理解:企业运维的核心不是 "能上线",而是 "稳上线、无损上线、可回滚上线"。


三、脚本优化与合规意识:运维效率与安全双重提升

在这小半个月时间里,我继续对常用 Shell 脚本进行优化,让工单处理、查询、巡检更高效、更规范:

  • 把 8 大高频数据库查询场景封装成传参式脚本,使得查询之中可以达到一键切换库、一键查询,更加灵活,提高查询效率;
  • 使用grep匹配关键字,sed清洗冗余数据,输出整洁结果,所有高危操作全部放入脚本,禁止手动敲命令;
  • 执行日志自动记录,满足集团审计与可追溯要求,更加合规和安全;

优化后明显感受到:

  • 工单处理速度更快,shell脚本的复用率也使得人为失误更少;
  • 操作更规范、更安全符合企业合规、审计、留痕的硬性要求;

四、记录遇到的故障分析

内网登陆的云平台在连接4A功能平台之后,出现平台功能异常,清缓存即恢复(实战复盘)

本周遇到一个非常典型、企业高频出现的问题,刚开始我以为是dns异常解析导致功能异常,但后续的梳理之中,通过团队求助,资料查询等方式弄明白了原因,彻底搞懂前端与登录态原理:

故障现象:

4A 平台页面可以正常打开,但某个功能按钮失效、点击无反应、接口报错

但是在只执行:清除浏览器缓存 → 关闭浏览器 → 重新登录之后,功能立刻恢复正常。

根本原因分析(与 DNS 无关)

  1. 本地 JS/CSS 缓存版本或不匹配,平台更新后,浏览器仍使用旧脚本,与后端接口不兼容

  2. Cookie/Token 登录态过期 / 损坏,身份凭证失效,导致鉴权失败、功能无权限

  3. localStorage 脏数据,权限、菜单、用户状态异常,页面渲染出错

  4. 页面加载不完整

    网络波动导致状态异常,普通刷新无法修复

为什么清缓存重启就好?

  • 清除缓存:删除旧资源、失效 Cookie、脏数据

  • 重启浏览器:彻底重置页面状态

  • 重新登录:获取全新 Token,加载最新前端文件

    → 该过程相当于 "重新初始化",故障直接消失

关键结论
  • DNS 只负责域名解析,异常会直接打不开页面
  • 能打开页面但功能异常 → 一定是前端 / 登录态问题
  • 清浏览器缓存不清除 DNS 记录 → 彻底排除 DNS

这次故障复盘让我第一次完整完成:现象→原因→原理→结论的运维分析链路。


五、深化理解的技术栈(第三、四周巩固系列)

结合前两周学习,我对业务上的整套企业运维技术栈的认知更加连贯:

  1. Git:作为代码版本管理,发布的源头,保证可回溯
  2. Jenkins:持续集成,自动化构建、打包、调度
  3. Ansible:批量部署,多服务器统一操作、文件分发
  4. Shell:运维核心工具,实现操作标准化、自动化
  5. Nginx:流量网关、负载均衡、高可用、无损上线
  6. 4A 平台:统一认证、权限管控、操作审计、合规底线
  7. MySQL/DB2:数据查询、工单定位、业务核对
  8. Linux:基础环境,日志、进程、端口、文件管理

这套体系的目标:

更快发布、更少故障、更稳运行、更强合规、更易排查,适合CI/CD流水线控制机制,高效适配企业的业务开发,上线,维护需求。


六、这期间的总结与感悟

这两周是我从 "会操作" 迈向 "懂原理" 的重要阶段。

从高频工单处理、脚本优化、上线流程巩固,到真实故障分析,我逐步建立起完整的企业运维思维:

  • 运维要严谨:每一步都关系业务稳定
  • 运维要高效:能用脚本绝不重复手动操作
  • 运维要合规:所有操作必须可审计、可追溯
  • 运维要懂架构:高可用、流量调度、容灾是业务生命线

目前我已能独立完成:

售后工单处理、SQL 查询优化、Shell 脚本编写、Jenkins 上线流程、Nginx 基础理解、日志排查、简单故障分析。

后续我将继续深耕:

Shell 脚本进阶、中间件运维、监控体系、自动化巡检、高可用架构深化,不断向标准化、自动化、专业化运维方向提升。

相关推荐
三水不滴2 小时前
SpringAI + SpringDoc + Knife4j 构建企业级智能问卷系统
经验分享·spring boot·笔记·后端·spring
三品吉他手会点灯2 小时前
C语言学习笔记 - 15.C编程预备计算机专业知识 - CPU 内存条 硬盘 显卡 主板 显示器 之间的关系
c语言·笔记·学习
三品吉他手会点灯2 小时前
C语言学习笔记 - 11.C语言简介 - VSCode(C/C++)环境安装与配置
c语言·笔记·学习
莫白媛2 小时前
Linux在限制敏感命令下的修改用户密码小白版
linux·运维·服务器
ZStack开发者社区2 小时前
DeepSeek-V4首发即支持,ZStack AIOS 私有化部署即刻可用
人工智能·开源·云计算
hhb_6183 小时前
C Shell 基础语法与高阶运维实战指南
运维·c语言·chrome
The Chosen One9854 小时前
计算机知识点的理解开悟后的分享(一)
笔记
爱学习的小囧4 小时前
VMware vCenter Server 9.0.2.0 资源详解+完整部署教程+下载指南+常见问题
运维·服务器·esxi·vmware·虚拟化·esxi9.0.2.0
独孤九剑打醒他5 小时前
#原创声明 #拒绝白嫖 #技术立场 #创作者保护
笔记