文章目录
基础运维检查
工作内容
- 理解例行检查列表的内容、检查项的含义以及可能引发的问题。
- 按照例行检查表,定期检查系统状态,发现异常立即通报并推进解决。
- 定期检查线上服务模块,排除可疑进程,发现问题及时通报。
- 理解监控和统计报表的各项含义,每天定时检查报表,发现异常立即通报并推进解决。
- 制定服务例行检查要点和方法,部署执行并不断完善,避免检查的盲点。
工作清单参考
- 在预期的时间内,根据执行手册,保质保量完成产品线既定的例行检查工作。
- 通过技术方式提高例行检查的效率。
- 有能力发现潜在问题,制定或者补充合理的检查清单和检查方式,保证基础运维有效进行。
- 进行问题和追查,并解决可能的隐患。
具体检查项举例
- 机器性能:idle(CPU空闲)>60%,memfree(内存空闲)>60%,io(磁盘读写)<30MB/s,nic<90MB/s,disk_used(磁盘已用)<80%
- 模块日志:请求次数<800次/s ,耗时<300ms/次,日志fatal|error|warnning条数
- 系统日志:查检内核日志是否有异常输出 (I/O error|EXT2-fs error|ERROR on|Medium Error|error recovery|disk error|Illegal block|Out of Memory|dead device|readonly)
- 数据报表:前一天用户访问量报表,前一天用户提交量报表,各地域访问服务流量情况和耗时情况,非正常用户(网页抓取)访问量情况
- 备份检查:检查夜间的数据备份是否正常。
排查问题流程
- 问题通报
- 跟进问题
- 定位问题
- 提出解决方案
- 执行解决方案
- 通报问题已解决
整理预案
工作内容
- 根据服务稳定性和部署现状,整理服务执行预案。
- 将服务分级别,分层次,整理不同重要性的应急预案。
- 定期进行预案演练,每季度进行一次大规模预案演练,如有重要级别的服务,每月演练一次。
- 记录预案执行情况,包括执行时间、人员、操作耗时、影响服务时间、服务恢复时间。
- 根据演练发现的问题,更新预案,添加监控。
优化预案执行
- 预案执行自动化
- 降低影响服务的时间
机器管理
- 熟悉服务器资源状况,机房分布情况,批量管理,自动化管理。
- 合理使用服务器资源,根据不同服务需求,安排不同配置的服务器。
- 保证服务器正常运行,对服务器硬件添加或变更来解决资源不足问题。
- 熟悉服务器上下架、上下线、搬迁相关流程。
数据备份
- 根据服务类型划分数据重要级别,确定备份类型和保留天数。
- 编写数据恢复预案,定期演练,更新备份方案。
- 根据服务变更及时更新备份方案。
服务管理
- 管理服务间关联关系
- 注意线上服务操作事项
- 及时发现并处理服务问题
- 记录运维文档,包括问题和服务特殊点
故障处理
- 熟悉故障处理方法和预案执行要点。
- 对已知故障进行通报并按预案执行。
- 及时处理并回复服务报警信息。
- 分析报警原因,并推动问题解决。
- 发现服务隐患,提出预案改进建议。
技术审核
- 编制或审核上线步骤、回滚方案。
- 高质量完成上线、操作,包括检查复核和回滚操作。
- 通过脚本和自动化改进上线/操作过程。
审核点
- 评估变更对运维和业务的影响
- 执行变更
- 变更回顾
- 回顾变更执行过程,包括执行方案、预案的有效性。
- 总结执行过程中的问题和改进措施。
- 提交变更执行报告,记录执行情况和结果。
安全管理
- 实施安全措施,包括网络安全、数据安全和系统安全。
- 定期对系统进行漏洞扫描和安全评估,及时修补漏洞。
- 加强对权限的管理,确保权限最小化原则。
- 建立安全事件响应机制,处理安全事件和威胁。
性能优化
- 监控系统性能指标,包括响应时间、吞吐量和并发连接数等。
- 分析系统瓶颈,优化系统架构和代码,提高系统性能。
- 使用缓存技术、负载均衡和分布式架构,提升系统的稳定性和性能。
- 定期进行性能测试和调优,确保系统的高可用性和高性能。
文档管理
- 维护运维文档和操作手册,包括系统架构、配置信息和操作流程等。
- 更新文档内容,及时记录系统变更和问题处理过程。
- 提供培训和知识分享,确保团队成员都能熟练掌握文档内容。
沟通协调
- 与开发团队和产品团队保持密切沟通,及时了解系统需求和变更计划。
- 及时向上级汇报工作进展和问题情况,寻求支持和协助解决问题。
- 协调各方资源,确保问题能够及时解决和落地实施。
持续改进
- 定期组织技术交流和经验分享会议,总结工作经验和教训,推动团队学习和成长。
- 收集用户反馈和需求,不断改进和优化系统功能和性能。
- 定期评估运维流程和工作效率,提出改进建议,持续优化运维管理工作。
资源管理
- 管理服务器、网络设备等硬件资源,包括采购、配置和维护。
- 进行资源规划和预测,确保资源供应满足业务需求。
- 实施资源调度和负载均衡,优化资源利用率和系统性能。
容灾备份
- 制定容灾备份策略,包括数据备份、系统镜像和应用程序备份等。
- 定期进行容灾演练,测试备份数据和系统恢复能力。
- 配置冗余设备和备用网络,提高系统的容错性和可用性。
供应商管理
- 选择合适的供应商和合作伙伴,评估其技术能力和服务水平。
- 签订合同和协议,明确服务内容和责任义务。
- 定期评估供应商绩效,及时调整合作关系,确保服务质量和稳定性。
质量管理
- 建立质量管理体系,包括制定标准和流程、执行检查和评估。
- 定期进行质量检查和评估,发现问题及时纠正和改进。
- 加强团队培训和技能提升,提高工作质量和效率。
风险管理
- 分析和评估运维风险,制定风险应对计划和措施。
- 加强安全防护和监控,减少安全事件和风险发生的可能性。
- 建立应急响应机制,及时应对突发事件和紧急情况。
社区参与
- 参与技术社区和行业组织,获取行业动态和最佳实践。
- 分享经验和成果,建立良好的行业口碑和社会形象。
- 积极参与开源项目和技术标准制定,推动行业发展和进步。
环境管理
- 确保运维环境安全和稳定,包括机房设备和网络环境。
- 定期进行环境监测和评估,发现问题及时处理和改善。
- 实施节能和资源回收措施,减少能源消耗和环境污染。