了解智能运维

智能运维

(一)运维工作的转变

随着技术发展,运维工作从基础的搬机器、插网线、装系统等体力活儿,逐渐转变为更侧重服务器管理、代码管理、日志分析、监控告警、流量管理及故障排查等的脑力劳动。如今,运维人员拿到的通常是已装好系统、配置好IP和账号的服务器,工作重点也随之改变。

(二)云服务与虚拟化带来的挑战

公司业务扩张促使服务器增多,云服务和虚拟化技术广泛应用,运维工作变得复杂。不仅要管理服务器,还需关注容量管理、自动调整服务器数量、应对安全问题,以及处理因新容器和开源技术引发的故障。运维人员得学会运用各种工具解决这些新难题。

(三)智能运维的兴起

基于算法的智能运维应运而生,它利用数据和算法提升运维自动化与效率,例如合并报警信息、分析问题根源、关联分析、评估容量以及自动调整服务器数量等。其真正意义在于依托监控、服务台自动化,借助大数据和机器学习持续改进,突破人类能力极限。

(四)海量事件处理

  1. 数据分类方式
    • 实时数据与非实时数据。
    • 格式化数据与非格式化数据。
    • 需要索引的数据与只需要运算的数据。
    • 全量数据与抽样数据。
    • 可视化数据与告警数据。
  2. 多维度数据:复杂业务场景下,事件包含多维度信息,如时间、地点、服务器组件、错误码、业务线、服务接口等。支持多维度数据存储和查询分析是系统灵活性的重要衡量指标。
  3. 处理方法多样:处理复杂数据往往是设计问题,不同设计思路带来不同处理方式,实际操作中常混合使用多种存储介质和计算模型,如监控数据用实时数据库,分析报表用 MySQL,告警事件用 Redis,日志检索用 Elasticsearch 等。同时,要考虑数据源稳定性、API 适配能力及数据与展现分离,避免前端变更引发大量工作量。

(五)常见运维困境及应对

  1. 拒绝服务与信息过载:DDoS 攻击致使服务器被大量请求淹没,陷入拒绝服务状态;运维中告警信息过多,如监控指标剧增,人力难以巡检,引发信息过载。这都要求运维人员从海量信息里筛选有用内容,找出问题根源。
  2. 故障定位困难:业务模型或系统部署复杂,不同系统技术栈混杂,导致故障定位艰难。为此可采用日志标准化、全链路追踪、SLA 规范化等方法,让不同系统协同,助力智能化运维,同时不影响程序员使用习惯。
相关推荐
荣--1 天前
一键部署不是为了省时间 —— 它是把"买来的 PaaS"变成"自己的平台"的拐点
运维·zabbix·工程化·一键部署·平台化·边界设计
江华森1 天前
动手实战学 Docker — 从零到集群编排完全指南
运维
Avan_菜菜2 天前
FRP 内网穿透完整实战:从 HTTP 映射到 HTTPS 自签代理
运维·nginx·https
SelectDB3 天前
Litefuse 开源并推出单进程轻量模式,25 秒就能跑起来的 Agent 可观测与评估平台
运维·后端·自动化运维
XIAOHEZIcode4 天前
Linux系统鼠标偏移常见原因以及修复方案
linux·运维·游戏
用户0328472220705 天前
如何搭建本地yum源(上)
运维
大树888 天前
金刚石散热越强,管路越先见顶
大数据·运维·服务器·人工智能·ai
摇滚侠8 天前
Linux CentOS7 rpm 安装 MySQL 5.7
linux·运维·mysql
霸道流氓气质8 天前
领域驱动设计(DDD)在 Spring Boot 微服务中的实践指南
运维·spring boot·微服务
Inhand陈工8 天前
基于台达PLC与映翰通IG502的智慧水产养殖精准投喂与远程运维解决方案
运维·人工智能·物联网·阿里云·信息与通信