文章目录
基础运维检查
工作内容
- 理解例行检查列表的内容、检查项的含义以及可能引发的问题。
 - 按照例行检查表,定期检查系统状态,发现异常立即通报并推进解决。
 - 定期检查线上服务模块,排除可疑进程,发现问题及时通报。
 - 理解监控和统计报表的各项含义,每天定时检查报表,发现异常立即通报并推进解决。
 - 制定服务例行检查要点和方法,部署执行并不断完善,避免检查的盲点。
 
工作清单参考
- 在预期的时间内,根据执行手册,保质保量完成产品线既定的例行检查工作。
 - 通过技术方式提高例行检查的效率。
 - 有能力发现潜在问题,制定或者补充合理的检查清单和检查方式,保证基础运维有效进行。
 - 进行问题和追查,并解决可能的隐患。
 
具体检查项举例
- 机器性能:idle(CPU空闲)>60%,memfree(内存空闲)>60%,io(磁盘读写)<30MB/s,nic<90MB/s,disk_used(磁盘已用)<80%
 - 模块日志:请求次数<800次/s ,耗时<300ms/次,日志fatal|error|warnning条数
 - 系统日志:查检内核日志是否有异常输出 (I/O error|EXT2-fs error|ERROR on|Medium Error|error recovery|disk error|Illegal block|Out of Memory|dead device|readonly)
 - 数据报表:前一天用户访问量报表,前一天用户提交量报表,各地域访问服务流量情况和耗时情况,非正常用户(网页抓取)访问量情况
 - 备份检查:检查夜间的数据备份是否正常。
 
排查问题流程
- 问题通报
 - 跟进问题
 - 定位问题
 - 提出解决方案
 - 执行解决方案
 - 通报问题已解决
 
整理预案
工作内容
- 根据服务稳定性和部署现状,整理服务执行预案。
 - 将服务分级别,分层次,整理不同重要性的应急预案。
 - 定期进行预案演练,每季度进行一次大规模预案演练,如有重要级别的服务,每月演练一次。
 - 记录预案执行情况,包括执行时间、人员、操作耗时、影响服务时间、服务恢复时间。
 - 根据演练发现的问题,更新预案,添加监控。
 
优化预案执行
- 预案执行自动化
 - 降低影响服务的时间
 
机器管理
- 熟悉服务器资源状况,机房分布情况,批量管理,自动化管理。
 - 合理使用服务器资源,根据不同服务需求,安排不同配置的服务器。
 - 保证服务器正常运行,对服务器硬件添加或变更来解决资源不足问题。
 - 熟悉服务器上下架、上下线、搬迁相关流程。
 
数据备份
- 根据服务类型划分数据重要级别,确定备份类型和保留天数。
 - 编写数据恢复预案,定期演练,更新备份方案。
 - 根据服务变更及时更新备份方案。
 
服务管理
- 管理服务间关联关系
 - 注意线上服务操作事项
 - 及时发现并处理服务问题
 - 记录运维文档,包括问题和服务特殊点
 
故障处理
- 熟悉故障处理方法和预案执行要点。
 - 对已知故障进行通报并按预案执行。
 - 及时处理并回复服务报警信息。
 - 分析报警原因,并推动问题解决。
 - 发现服务隐患,提出预案改进建议。
 
技术审核
- 编制或审核上线步骤、回滚方案。
 - 高质量完成上线、操作,包括检查复核和回滚操作。
 - 通过脚本和自动化改进上线/操作过程。
 
审核点
- 评估变更对运维和业务的影响
 - 执行变更
 - 变更回顾
- 回顾变更执行过程,包括执行方案、预案的有效性。
 - 总结执行过程中的问题和改进措施。
 - 提交变更执行报告,记录执行情况和结果。
 
 
安全管理
- 实施安全措施,包括网络安全、数据安全和系统安全。
 - 定期对系统进行漏洞扫描和安全评估,及时修补漏洞。
 - 加强对权限的管理,确保权限最小化原则。
 - 建立安全事件响应机制,处理安全事件和威胁。
 
性能优化
- 监控系统性能指标,包括响应时间、吞吐量和并发连接数等。
 - 分析系统瓶颈,优化系统架构和代码,提高系统性能。
 - 使用缓存技术、负载均衡和分布式架构,提升系统的稳定性和性能。
 - 定期进行性能测试和调优,确保系统的高可用性和高性能。
 
文档管理
- 维护运维文档和操作手册,包括系统架构、配置信息和操作流程等。
 - 更新文档内容,及时记录系统变更和问题处理过程。
 - 提供培训和知识分享,确保团队成员都能熟练掌握文档内容。
 
沟通协调
- 与开发团队和产品团队保持密切沟通,及时了解系统需求和变更计划。
 - 及时向上级汇报工作进展和问题情况,寻求支持和协助解决问题。
 - 协调各方资源,确保问题能够及时解决和落地实施。
 
持续改进
- 定期组织技术交流和经验分享会议,总结工作经验和教训,推动团队学习和成长。
 - 收集用户反馈和需求,不断改进和优化系统功能和性能。
 - 定期评估运维流程和工作效率,提出改进建议,持续优化运维管理工作。
 
资源管理
- 管理服务器、网络设备等硬件资源,包括采购、配置和维护。
 - 进行资源规划和预测,确保资源供应满足业务需求。
 - 实施资源调度和负载均衡,优化资源利用率和系统性能。
 
容灾备份
- 制定容灾备份策略,包括数据备份、系统镜像和应用程序备份等。
 - 定期进行容灾演练,测试备份数据和系统恢复能力。
 - 配置冗余设备和备用网络,提高系统的容错性和可用性。
 
供应商管理
- 选择合适的供应商和合作伙伴,评估其技术能力和服务水平。
 - 签订合同和协议,明确服务内容和责任义务。
 - 定期评估供应商绩效,及时调整合作关系,确保服务质量和稳定性。
 
质量管理
- 建立质量管理体系,包括制定标准和流程、执行检查和评估。
 - 定期进行质量检查和评估,发现问题及时纠正和改进。
 - 加强团队培训和技能提升,提高工作质量和效率。
 
风险管理
- 分析和评估运维风险,制定风险应对计划和措施。
 - 加强安全防护和监控,减少安全事件和风险发生的可能性。
 - 建立应急响应机制,及时应对突发事件和紧急情况。
 
社区参与
- 参与技术社区和行业组织,获取行业动态和最佳实践。
 - 分享经验和成果,建立良好的行业口碑和社会形象。
 - 积极参与开源项目和技术标准制定,推动行业发展和进步。
 
环境管理
- 确保运维环境安全和稳定,包括机房设备和网络环境。
 - 定期进行环境监测和评估,发现问题及时处理和改善。
 - 实施节能和资源回收措施,减少能源消耗和环境污染。