运维工作内容分类以及简略介绍

文章目录


基础运维检查

工作内容

  1. 理解例行检查列表的内容、检查项的含义以及可能引发的问题。
  2. 按照例行检查表,定期检查系统状态,发现异常立即通报并推进解决。
  3. 定期检查线上服务模块,排除可疑进程,发现问题及时通报。
  4. 理解监控和统计报表的各项含义,每天定时检查报表,发现异常立即通报并推进解决。
  5. 制定服务例行检查要点和方法,部署执行并不断完善,避免检查的盲点。

工作清单参考

  • 在预期的时间内,根据执行手册,保质保量完成产品线既定的例行检查工作。
  • 通过技术方式提高例行检查的效率。
  • 有能力发现潜在问题,制定或者补充合理的检查清单和检查方式,保证基础运维有效进行。
  • 进行问题和追查,并解决可能的隐患。

具体检查项举例

  • 机器性能:idle(CPU空闲)>60%,memfree(内存空闲)>60%,io(磁盘读写)<30MB/s,nic<90MB/s,disk_used(磁盘已用)<80%
  • 模块日志:请求次数<800次/s ,耗时<300ms/次,日志fatal|error|warnning条数
  • 系统日志:查检内核日志是否有异常输出 (I/O error|EXT2-fs error|ERROR on|Medium Error|error recovery|disk error|Illegal block|Out of Memory|dead device|readonly)
  • 数据报表:前一天用户访问量报表,前一天用户提交量报表,各地域访问服务流量情况和耗时情况,非正常用户(网页抓取)访问量情况
  • 备份检查:检查夜间的数据备份是否正常。

排查问题流程

  • 问题通报
  • 跟进问题
  • 定位问题
  • 提出解决方案
  • 执行解决方案
  • 通报问题已解决

整理预案

工作内容

  1. 根据服务稳定性和部署现状,整理服务执行预案。
  2. 将服务分级别,分层次,整理不同重要性的应急预案。
  3. 定期进行预案演练,每季度进行一次大规模预案演练,如有重要级别的服务,每月演练一次。
  4. 记录预案执行情况,包括执行时间、人员、操作耗时、影响服务时间、服务恢复时间。
  5. 根据演练发现的问题,更新预案,添加监控。

优化预案执行

  • 预案执行自动化
  • 降低影响服务的时间

机器管理

  1. 熟悉服务器资源状况,机房分布情况,批量管理,自动化管理。
  2. 合理使用服务器资源,根据不同服务需求,安排不同配置的服务器。
  3. 保证服务器正常运行,对服务器硬件添加或变更来解决资源不足问题。
  4. 熟悉服务器上下架、上下线、搬迁相关流程。

数据备份

  1. 根据服务类型划分数据重要级别,确定备份类型和保留天数。
  2. 编写数据恢复预案,定期演练,更新备份方案。
  3. 根据服务变更及时更新备份方案。

服务管理

  • 管理服务间关联关系
  • 注意线上服务操作事项
  • 及时发现并处理服务问题
  • 记录运维文档,包括问题和服务特殊点

故障处理

  1. 熟悉故障处理方法和预案执行要点。
  2. 对已知故障进行通报并按预案执行。
  3. 及时处理并回复服务报警信息。
  4. 分析报警原因,并推动问题解决。
  5. 发现服务隐患,提出预案改进建议。

技术审核

  1. 编制或审核上线步骤、回滚方案。
  2. 高质量完成上线、操作,包括检查复核和回滚操作。
  3. 通过脚本和自动化改进上线/操作过程。

审核点

  • 评估变更对运维和业务的影响
  • 执行变更
  • 变更回顾
    • 回顾变更执行过程,包括执行方案、预案的有效性。
    • 总结执行过程中的问题和改进措施。
    • 提交变更执行报告,记录执行情况和结果。

安全管理

  1. 实施安全措施,包括网络安全、数据安全和系统安全。
  2. 定期对系统进行漏洞扫描和安全评估,及时修补漏洞。
  3. 加强对权限的管理,确保权限最小化原则。
  4. 建立安全事件响应机制,处理安全事件和威胁。

性能优化

  1. 监控系统性能指标,包括响应时间、吞吐量和并发连接数等。
  2. 分析系统瓶颈,优化系统架构和代码,提高系统性能。
  3. 使用缓存技术、负载均衡和分布式架构,提升系统的稳定性和性能。
  4. 定期进行性能测试和调优,确保系统的高可用性和高性能。

文档管理

  1. 维护运维文档和操作手册,包括系统架构、配置信息和操作流程等。
  2. 更新文档内容,及时记录系统变更和问题处理过程。
  3. 提供培训和知识分享,确保团队成员都能熟练掌握文档内容。

沟通协调

  1. 与开发团队和产品团队保持密切沟通,及时了解系统需求和变更计划。
  2. 及时向上级汇报工作进展和问题情况,寻求支持和协助解决问题。
  3. 协调各方资源,确保问题能够及时解决和落地实施。

持续改进

  1. 定期组织技术交流和经验分享会议,总结工作经验和教训,推动团队学习和成长。
  2. 收集用户反馈和需求,不断改进和优化系统功能和性能。
  3. 定期评估运维流程和工作效率,提出改进建议,持续优化运维管理工作。

资源管理

  1. 管理服务器、网络设备等硬件资源,包括采购、配置和维护。
  2. 进行资源规划和预测,确保资源供应满足业务需求。
  3. 实施资源调度和负载均衡,优化资源利用率和系统性能。

容灾备份

  1. 制定容灾备份策略,包括数据备份、系统镜像和应用程序备份等。
  2. 定期进行容灾演练,测试备份数据和系统恢复能力。
  3. 配置冗余设备和备用网络,提高系统的容错性和可用性。

供应商管理

  1. 选择合适的供应商和合作伙伴,评估其技术能力和服务水平。
  2. 签订合同和协议,明确服务内容和责任义务。
  3. 定期评估供应商绩效,及时调整合作关系,确保服务质量和稳定性。

质量管理

  1. 建立质量管理体系,包括制定标准和流程、执行检查和评估。
  2. 定期进行质量检查和评估,发现问题及时纠正和改进。
  3. 加强团队培训和技能提升,提高工作质量和效率。

风险管理

  1. 分析和评估运维风险,制定风险应对计划和措施。
  2. 加强安全防护和监控,减少安全事件和风险发生的可能性。
  3. 建立应急响应机制,及时应对突发事件和紧急情况。

社区参与

  1. 参与技术社区和行业组织,获取行业动态和最佳实践。
  2. 分享经验和成果,建立良好的行业口碑和社会形象。
  3. 积极参与开源项目和技术标准制定,推动行业发展和进步。

环境管理

  1. 确保运维环境安全和稳定,包括机房设备和网络环境。
  2. 定期进行环境监测和评估,发现问题及时处理和改善。
  3. 实施节能和资源回收措施,减少能源消耗和环境污染。
相关推荐
大新新大浩浩1 分钟前
jenkins平台使用Login Theme、Customizable Header插件定制修改登陆页图片文字及首页标题
运维·servlet·jenkins
laimaxgg15 分钟前
Linux关于华为云开放端口号后连接失败问题解决
linux·运维·服务器·网络·tcp/ip·华为云
浪小满16 分钟前
linux下使用脚本实现对进程的内存占用自动化监测
linux·运维·自动化·内存占用情况监测
艾杰Hydra1 小时前
LInux配置PXE 服务器
linux·运维·服务器
慵懒的猫mi1 小时前
deepin分享-Linux & Windows 双系统时间不一致解决方案
linux·运维·windows·mysql·deepin
Allen Bright1 小时前
使用 JMeter 的 Autostop Listener 插件:自动化性能测试的守护者
运维·jmeter·自动化
晚秋贰拾伍1 小时前
设计模式的艺术-代理模式
运维·安全·设计模式·系统安全·代理模式·运维开发·开闭原则
hhzz1 小时前
ansible自动化运维实战--复制模块和用户模块(3)
运维·自动化·ansible
hhzz2 小时前
ansible自动化运维实战--Inventory主机清单(2)
运维·自动化·ansible
JZC_xiaozhong2 小时前
低空经济中的数据孤岛难题,KPaaS如何破局?
大数据·运维·数据仓库·安全·ci/cd·数据分析·数据库管理员