AIOps(智能运维)的核心是通过全链路数据采集、多维度智能分析、端到端自动化执行 ,替代传统人工运维的"监控告警-人工排查-手动处置"模式,实现运维工作的智能化、自动化、可预测 。其技术架构围绕数据、算法、执行 三大核心层展开,形成"数据采集→数据治理→特征工程→智能分析→决策输出→自动化执行"的闭环体系,同时配套平台底座、可视化、安全管控等支撑模块,适配企业级运维的规模化、高可靠需求。
本架构全景图覆盖AIOps落地全流程,从底层数据采集到顶层业务价值输出,明确各环节核心技术、工具选型、功能定位,兼顾技术完整性 与落地实用性,既适用于入门者理解AIOps整体架构,也可为企业级AIOps平台建设提供参考。
AIOps 技术架构整体全景(核心闭环)
AIOps的整体架构为六层闭环架构,各层相互依赖、双向联动,形成"数据输入-智能分析-行动输出-效果反馈"的自迭代体系,同时配套三大支撑模块保障平台稳定运行。
三大支撑模块
六层核心闭环
效果反馈/数据回流
数据治理层
清洗/标准化/存储/融合
特征工程层
特征提取/筛选/融合/降维
智能分析层
异常检测/根因定位/趋势预测/容量规划
决策输出层
故障定级/处置建议/自动决策
自动化执行层
故障自愈/资源调度/配置变更
平台底座
容器/云原生/中间件
可视化中心
监控大屏/分析报表/工单联动
安全与管控
权限管理/审计日志/故障隔离
核心设计原则:
-
数据驱动:全流程以数据为基础,无数据不智能,覆盖运维全场景数据类型;
-
闭环迭代:自动化执行的结果需回流至数据采集层,持续优化算法模型与处置策略;
-
分层解耦:各层独立设计、松耦合对接,支持技术组件的灵活替换与横向扩展;
-
人机协同:保留人工介入入口,复杂故障支持"自动分析+人工确认+手动执行"。
第一层:数据采集层------全源、实时、无死角的数据输入
数据采集是AIOps的基础 ,核心目标是打破数据孤岛 ,实现企业运维全场景、全类型数据的实时、高可靠、低侵入 采集,为后续分析提供完整的数据基础。采集的核心要求是:全源覆盖、实时低延迟、协议适配、轻量化部署。
1. 采集数据类型(运维全场景数据)
覆盖IT运维全链路的五大核心数据类型,无死角捕捉系统运行状态:
| 数据类型 | 核心内容 | 典型应用场景 |
|---|---|---|
| 指标数据 | 系统/硬件/中间件/应用的性能指标(CPU/内存/IO/响应时间/调用量/错误率) | 异常检测、容量规划、趋势预测 |
| 日志数据 | 系统日志、应用日志、容器日志、安全日志、审计日志(结构化/非结构化/半结构化) | 根因定位、故障溯源、安全审计 |
| 链路数据 | 分布式链路追踪数据(调用链、节点耗时、调用关系、上下游依赖) | 微服务故障定位、链路性能优化 |
| 配置数据 | 主机/容器/中间件/应用的配置信息、资产信息、拓扑关系 | 配置审计、故障影响范围分析 |
| 工单/告警数据 | 运维工单、监控告警、故障处置记录、复盘报告 | 故障定级、处置策略学习、知识沉淀 |
2. 核心采集技术与工具选型
按采集方式 分为拉取式、推送式、嵌入式 ,适配不同数据类型与业务场景,同时提供轻量级Agent、无代理采集、协议对接三种部署方式,兼顾采集全面性与系统低侵入性。
| 采集方式 | 核心技术/protocol | 典型工具选型 | 适配数据类型 |
|---|---|---|---|
| 拉取式 | Prometheus API、SNMP、JDBC | Prometheus + Exporter、Zabbix、Nagios | 指标数据、配置数据 |
| 推送式 | Filebeat、Fluentd、Kafka | Filebeat、Fluentd、Logstash、Fluent Bit | 日志数据、告警数据 |
| 嵌入式 | OpenTelemetry、SkyWalking Agent | OpenTelemetry、SkyWalking、Pinpoint | 链路数据、应用指标 |
| 协议对接 | RESTful API、Syslog、TCP/UDP | 自定义采集脚本、DataDog Agent、New Relic | 第三方平台数据 |
3. 核心设计要点
-
轻量化采集:采集Agent占用CPU/内存≤5%,支持断点续传、流量压缩,避免影响业务系统;
-
实时性保障:日志/链路数据采集延迟≤1s,指标数据采集延迟≤10s,满足实时监控与故障排查需求;
-
高可用部署:采集节点支持主备、集群部署,避免单点故障导致数据丢失;
-
无代理采集:针对无法部署Agent的核心系统,提供SSH/SNMP/API无代理采集方式;
-
采集策略动态调整:支持按时间、业务峰值、系统状态动态调整采集频率,平衡数据粒度与系统资源。
第二层:数据治理层------清洗、标准化、融合、存储的数仓建设
数据采集层获取的原始数据存在格式不统一、冗余噪声、数据孤岛、时序混乱 等问题,无法直接用于算法分析。数据治理层的核心目标是对原始数据进行"清洗-标准化-融合-存储" ,构建企业级运维数据仓库 ,为后续特征工程与智能分析提供高质量、结构化、可关联的干净数据。
1. 核心处理流程
多源原始数据
去重/去噪声/补全/格式转换
统一字段/单位/时间戳/命名规范
时序关联/拓扑关联/多源关联/业务标签关联
时序库/日志库/关系库/缓存库分级存储
统一数据API/数据集市/按需查询
2. 各环节核心功能与技术
(1)数据清洗
-
核心动作:去重、去噪声、缺失值补全、异常值过滤、格式转换;
-
典型场景:过滤日志中的无效乱码、补全指标数据的缺失点、删除重复的链路追踪数据;
-
核心技术:正则表达式、数据抽样检测、异常值判定算法(3σ、四分位数)。
(2)数据标准化
-
核心动作:统一字段命名、统一单位、统一时间戳(UTC+8)、统一数据格式(JSON/Protobuf)、统一资产标识;
-
关键规范:制定企业级运维数据标准,如主机标识统一为"IP-主机名-业务集群"、指标单位统一为"%/MB/ms";
-
核心技术:数据模板引擎、自定义标准化规则、ETL工具。
(3)数据融合
AIOps的核心竞争力之一,打破数据孤岛,实现多源数据的关联融合,为根因定位、故障影响分析提供基础:
-
时序融合:按时间戳将同一时刻的指标、日志、链路数据关联;
-
拓扑融合:基于IT资产拓扑关系,将主机、容器、应用、中间件的数椐按上下游依赖关联;
-
业务融合 :为数据打上业务标签(如"电商-交易-支付集群"),实现业务维度的数据分析;
-
多源融合 :将指标、日志、链路数据按业务ID/请求ID/追踪ID关联,实现"一个请求全链路数据溯源"。
(4)数据存储
采用分级存储策略 ,根据数据类型、访问频率、存储周期选择适配的存储引擎,兼顾存储性能、查询效率、成本控制:
| 数据类型 | 访问特征 | 存储引擎选型 | 存储周期 |
|---|---|---|---|
| 指标数据 | 高写入、高查询、时序性 | Prometheus、InfluxDB、VictoriaMetrics、TDengine | 30-90天(热数据) |
| 日志数据 | 高写入、非结构化、模糊查询 | Elasticsearch、ClickHouse、HDFS | 7-30天(热数据) |
| 链路数据 | 高写入、结构化、链路查询 | Elasticsearch、Pinot、Tempo | 7-14天(热数据) |
| 配置/资产数据 | 低写入、高查询、结构化 | MySQL、PostgreSQL、MongoDB | 永久存储 |
| 离线/归档数据 | 低访问、大容量 | HDFS、S3、MinIO(对象存储) | 6-12个月(冷数据) |
3. 核心工具选型
-
轻量级治理:Filebeat + Logstash、Prometheus + Alertmanager;
-
企业级治理:Flink/Spark(实时计算)、Doris/ClickHouse(数仓)、DataWorks/Informatica(数据治理平台);
-
数据融合:自研关联引擎 + 标签平台(如DolphinScheduler)。
第三层:特征工程层------从数据到特征的价值提取
特征工程是连接数据治理与智能分析的桥梁 ,核心目标是从清洗后的结构化数据中提取有价值的特征 ,为算法模型提供高辨识度、强相关性、低冗余度的输入特征,直接决定后续智能分析的准确性与效率。
核心逻辑 :好的特征 > 好的算法 ,在AIOps中,特征工程的重要性远高于算法本身,因为运维数据具有时序性、关联性、突发性等特点,需通过专业的特征工程挖掘数据背后的运维规律。
1. 核心特征类型(运维场景专属)
针对AIOps的异常检测、根因定位、趋势预测 三大核心场景,提取六大类运维专属特征:
| 特征类型 | 核心内容 | 适配场景 |
|---|---|---|
| 时序统计特征 | 均值、方差、最大值、最小值、分位数、滑动窗口统计(5min/10min均值) | 异常检测、趋势预测 |
| 时序变化特征 | 增长率、波动率、环比/同比变化、突变值、趋势斜率 | 异常检测、容量规划 |
| 关联特征 | 上下游调用相关性、指标间Pearson相关系数、日志关键词与指标的关联度 | 根因定位、故障溯源 |
| 拓扑特征 | 节点度、拓扑距离、集群密度、上下游依赖权重 | 根因定位、影响范围分析 |
| 业务特征 | 业务量、交易成功率、用户数、峰值谷值特征、业务标签特征 | 容量规划、故障定级 |
| 行为特征 | 系统运行模式(正常/峰值/故障)、配置变更行为、告警频发行为 | 异常检测、根因定位 |
2. 核心处理流程
治理后干净数据
按场景提取多维度特征
过滤冗余/无关特征,保留高价值特征
多特征融合、特征交叉、特征降维
归一化/标准化,消除量纲影响
构建企业级运维特征库,供算法调用
3. 核心技术与工具
-
特征提取:Python(Pandas/Numpy)、Spark MLlib、Flink ML;
-
特征筛选:相关性分析、卡方检验、互信息、随机森林特征重要性;
-
特征融合/降维:PCA(主成分分析)、LDA(线性判别分析)、特征交叉、注意力机制;
-
特征标准化:Z-Score归一化、Min-Max标准化、对数变换;
-
特征库建设:Redis(实时特征)、MySQL/ClickHouse(离线特征)、自研特征管理平台。
4. 核心设计要点
-
场景化特征:针对不同分析场景提取专属特征,避免"一刀切";
-
滑动窗口设计:支持多窗口(5min/10min/30min)特征提取,适配不同故障的时间尺度;
-
特征实时更新:实时特征(如指标均值)更新延迟≤1s,满足实时分析需求;
-
特征复用:构建企业级特征库,实现特征的复用与共享,避免重复开发。
第四层:智能分析层------AIOps的"大脑",核心算法落地层
智能分析层是AIOps的核心大脑 ,基于特征工程层提供的高价值特征,通过机器学习、深度学习、传统统计、规则引擎 等多种算法,实现运维场景的智能分析与决策,替代传统人工的"经验判断"。
该层的核心是算法与运维场景的深度融合 ,而非单纯的算法堆砌,需针对运维场景的时序性、突发性、不确定性 选择适配的算法,同时结合规则引擎 实现"算法+规则"的双驱动,兼顾分析的准确性与可解释性。
1. 四大核心分析能力(运维场景全覆盖)
AIOps的智能分析能力围绕运维核心痛点 展开,实现四大核心功能,覆盖故障检测、故障定位、资源规划、风险预测全场景:
(1)异常检测------发现故障
核心目标:从海量指标/日志/链路数据中,实时、准确发现系统异常,替代传统的"静态阈值告警",解决阈值过松/过紧、漏报/误报率高的问题。
-
核心算法:
-
无监督学习:孤立森林(IForest)、DBSCAN、自编码器(AE)、变分自编码器(VAE);
-
统计算法:3σ原则、四分位数、EWMA(指数加权移动平均)、ADTest(正态性检验);
-
有监督学习:XGBoost、LightGBM(基于历史故障数据训练);
-
时序算法:Prophet、LSTM、TCN(时序卷积网络)。
-
-
典型工具:Prometheus Alertmanager(规则+简单统计)、Elasticsearch Watcher(日志异常)、自研异常检测平台(多算法融合)。
-
核心指标:检测准确率≥95%、漏报率≤3%、误报率≤5%、检测延迟≤1s。
(2)根因定位------排查故障
核心目标:异常发生后,快速、自动定位故障根因,替代传统人工的"日志翻查、指标对比、经验排查",大幅降低故障定位时间。
-
核心算法:
-
因果推理:因果图谱(Causal Graph)、贝叶斯网络、格兰杰因果检验;
-
关联分析:Apriori、FP-Growth、指标/日志相关性分析;
-
拓扑推理:基于IT拓扑的上下游溯源、故障传播路径分析;
-
自然语言处理(NLP):日志关键词提取、语义分析、故障日志聚类。
-
-
典型落地场景:数据库慢查询导致交易延迟、微服务调用链故障、服务器资源耗尽根因定位;
-
核心指标:根因定位准确率≥80%、平均定位时间≤5分钟(传统人工≥30分钟)。
(3)趋势预测------预测故障/资源需求
核心目标:基于历史数据,预测系统指标/业务量的未来趋势 ,实现故障可预测、资源可规划,从"事后处置"转向"事前预防"。
-
核心场景:
-
性能指标预测:CPU/内存/IO的未来趋势,预测资源耗尽风险;
-
业务量预测:交易数/访问量的未来趋势,支撑流量削峰填谷;
-
故障预测:基于异常趋势,预测潜在故障(如磁盘满、连接数耗尽)。
-
-
核心算法:Prophet、ARIMA/SARIMA、LSTM、TCN、XGBoost(时序预测)。
-
核心指标:短期预测(1h内)准确率≥90%、中长期预测(24h内)准确率≥85%。
(4)容量规划------优化资源
核心目标:基于业务趋势与系统性能,实现资源的智能规划与弹性调度,解决传统容量规划"过度配置(资源浪费)、配置不足(性能瓶颈)"的问题。
-
核心能力:
-
资源容量评估:评估当前资源的承载能力与剩余容量;
-
弹性扩容建议:基于业务峰值,给出资源扩容/缩容的时间、规模建议;
-
资源优化:识别资源浪费(如空闲主机、过度配置的容器),给出优化方案。
-
-
核心算法:线性回归、非线性拟合、蒙特卡洛模拟、遗传算法。
-
业务价值:资源利用率提升20%-50%,降低资源成本15%-30%。
2. 算法+规则双驱动设计
运维场景具有强业务关联性、高可靠性要求 ,纯算法分析存在可解释性差、极端场景失效 等问题,因此AIOps采用算法+规则双驱动模式:
-
算法:处理复杂、非线性、未知的异常与根因,实现智能分析;
-
规则 :处理简单、确定性、业务强相关的场景(如"数据库连接数>1000则告警"),保证分析的可解释性与可靠性;
-
融合策略:算法分析结果通过规则过滤后输出,极端场景下规则优先,避免算法失效导致的运维事故。
3. 核心工具与平台选型
-
轻量级分析:Prometheus + Grafana、Elasticsearch + Kibana、SkyWalking;
-
算法框架:Python(Scikit-learn/TensorFlow/PyTorch)、Spark MLlib、Flink ML;
-
企业级平台:自研AIOps分析平台、阿里云ARMS、腾讯云TSW、华为云AOM、Splunk AIOps。
第五层:决策输出层------从分析到行动的桥梁
智能分析层输出的是分析结果 (如"MySQL CPU飙升是异常""慢查询是根因"),但无法直接指导执行,决策输出层的核心目标是对分析结果进行"加工-定级-决策" ,将抽象的分析结果转化为具体、可执行、分级别的运维决策,为自动化执行层提供明确的行动指令。
该层是人机协同的核心节点 ,既支持全自动决策 (简单故障),也支持人工介入决策(复杂故障),兼顾自动化效率与运维安全性。
1. 核心处理流程
是
否
智能分析结果
算法结果+规则校验,过滤误报/无效结果
按影响范围/业务重要性,对故障分级
按故障级别,生成自动/人工决策方案
输出执行指令/处置建议/工单
是否复杂故障?
人工审核/调整决策方案
自动化执行
直接自动化执行
2. 核心功能模块
(1)结果校验
-
核心动作:通过规则引擎、人工经验、历史故障数据对算法分析结果进行校验,过滤误报、无效结果,提升决策的准确性;
-
典型场景:算法检测到"CPU短暂飙升",但通过规则校验发现是业务正常峰值,判定为无效异常,不输出决策。
(2)故障定级
根据故障影响范围、业务重要性、故障持续时间 ,对故障进行分级 ,不同级别对应不同的处置策略、响应时间、责任人,实现故障精细化管理。
参考企业级故障定级标准:
| 故障级别 | 影响范围 | 业务影响 | 响应时间 | 处置策略 |
|---|---|---|---|---|
| P0(致命) | 全业务/核心业务瘫痪 | 交易中断、用户无法访问 | 5分钟内 | 自动执行+人工紧急介入 |
| P1(严重) | 核心业务集群故障 | 部分交易中断、性能大幅下降 | 15分钟内 | 自动决策+人工确认执行 |
| P2(一般) | 非核心业务故障 | 非核心功能不可用、性能下降 | 30分钟内 | 人工审核+自动化执行 |
| P3(轻微) | 单节点/非关键组件故障 | 无明显业务影响 | 1小时内 | 工单派发+人工处置 |
(3)决策生成
基于故障级别、故障类型、历史处置记录 ,生成个性化决策方案 ,分为全自动决策 和人工决策建议:
-
全自动决策 :针对P0/P1级简单故障(如"磁盘满→自动清理日志""慢查询→自动终止进程"),生成可直接执行的自动化指令;
-
人工决策建议 :针对复杂故障(如"分布式系统跨集群故障""根因不明确的性能瓶颈"),生成详细的处置建议(如"检查XX节点的日志、分析XX指标、执行XX命令"),辅助人工排查。
(4)人机协同入口
-
核心功能:提供人工确认、人工调整、人工终止入口,复杂故障需人工审核后才能执行,避免自动化决策失误导致的二次故障;
-
配套能力:联动运维工单系统(如Jira、禅道),自动创建故障工单,关联分析结果、决策建议、处置记录。
第六层:自动化执行层------AIOps的"手脚",端到端故障自愈
自动化执行层是AIOps的手脚 ,核心目标是将决策输出层的指令转化为实际的运维行动 ,实现故障自愈、资源调度、配置变更 等运维操作的自动化,替代传统人工的"手动敲命令、手动改配置、手动调资源",实现从告警到恢复的端到端自动化。
该层的核心是自动化执行的可靠性与安全性 ,需具备故障隔离、操作回滚、权限管控、执行审计等能力,避免自动化操作导致的系统风险。
1. 三大核心执行能力
覆盖故障处置、资源管理、配置管理三大运维核心场景,实现端到端自动化:
(1)故障自愈------自动化处置故障
核心目标:故障发生后,自动执行处置操作,实现故障快速恢复,是AIOps最核心的落地能力,直接体现运维效率的提升。
-
典型落地场景:
-
基础资源故障:磁盘满→自动清理日志/临时文件、内存高→自动释放缓存、进程挂掉→自动重启进程;
-
中间件故障:数据库连接数满→自动释放无效连接、慢查询→自动终止进程、Redis缓存击穿→自动添加缓存;
-
应用故障:应用挂掉→自动重启容器/Pod、接口调用失败→自动重试/流量切分、微服务故障→自动熔断/降级。
-
-
核心执行方式:脚本执行、API调用、容器编排(K8s)、配置中心下发。
(2)资源调度------自动化弹性扩缩容
核心目标:基于趋势预测与容量规划结果,实现资源的自动化弹性扩缩容,保证系统性能的同时,优化资源利用率。
-
典型落地场景:
-
业务峰值:交易数飙升→自动扩容Pod/虚拟机、带宽不足→自动提升带宽;
-
业务谷值:交易数下降→自动缩容Pod/虚拟机、释放空闲资源;
-
资源瓶颈:CPU/内存持续高负载→自动扩容资源、缓解性能瓶颈。
-
-
核心执行平台:K8s(容器调度)、KVM/Xen(虚拟机调度)、云平台API(阿里云/腾讯云/华为云弹性伸缩)。
(3)配置变更------自动化配置管理
核心目标:实现运维配置的自动化下发、更新、回滚,替代传统人工的"手动改配置、手动重启服务",解决配置不一致、配置变更失误的问题。
-
典型落地场景:
-
配置下发:新节点上线→自动下发标准化配置、应用升级→自动更新配置;
-
配置回滚:配置变更导致故障→自动回滚至历史正常配置;
-
配置审计:自动检测配置变更,记录变更人、变更时间、变更内容,实现配置可追溯。
-
-
核心执行工具:Ansible、SaltStack、Chef、Puppet、自研配置中心。
2. 核心执行架构与技术
采用分布式、松耦合 的执行架构,分为执行引擎、执行节点、操作仓库、管控中心四大模块,兼顾执行效率与安全性:
| 模块名称 | 核心功能 | 典型技术/工具 |
|---|---|---|
| 执行引擎 | 接收决策指令,调度执行节点,管理执行流程 | 自研执行引擎、Airflow、DolphinScheduler |
| 执行节点 | 部署在目标服务器/集群,执行具体的运维操作(脚本/API/命令) | Ansible Agent、K8s Operator、自定义Agent |
| 操作仓库 | 存储标准化的运维操作脚本、指令、配置模板,实现操作复用 | Git、Harbor、自研操作管理平台 |
| 管控中心 | 实现执行权限管控、操作回滚、故障隔离、执行审计 | 自研管控平台、RBAC权限管理、审计日志系统 |
3. 核心安全设计(自动化执行的生命线)
自动化执行的最大风险是操作失误导致的二次故障,因此必须具备完善的安全管控能力,核心设计要点:
-
故障隔离 :自动化操作仅在指定故障范围内执行,避免影响正常业务;
-
操作回滚 :所有自动化操作均支持一键回滚,操作失败/故障扩大时,立即回滚至操作前状态;
-
权限管控 :基于RBAC实现细粒度权限管理,不同角色拥有不同的执行权限,避免越权操作;
-
灰度执行 :复杂操作支持灰度执行(如先在测试节点执行,验证成功后再全量执行);
-
执行审计 :记录所有自动化操作的执行人、执行时间、执行内容、执行结果,实现操作可追溯、可审计;
-
熔断机制 :当自动化操作导致故障扩大时,自动熔断执行流程,终止后续操作。
三大支撑层------保障AIOps平台的稳定、可用、可扩展
AIOps的六层核心闭环需要平台底座、可视化、安全与管控三大支撑层的保障,才能实现企业级的规模化、高可靠、高安全部署,避免"空中楼阁"式的架构设计。
1. 平台底座------AIOps的基础设施
核心目标:为AIOps平台提供稳定、可扩展、高可用 的基础设施支撑,实现平台的容器化、云原生、分布式部署。
-
核心技术:
-
容器编排:K8s、Docker Swarm;
-
云原生中间件:Kafka(消息队列)、Redis(缓存)、ETCD(配置中心)、Nginx(反向代理);
-
分布式存储:Ceph、GlusterFS、云存储;
-
计算资源:虚拟机、物理机、云服务器(ECS)、容器实例。
-
-
核心设计 :平台底座采用微服务架构,各模块独立部署、横向扩展,支持百万级运维数据的处理与分析。
2. 可视化中心------AIOps的"眼睛"
核心目标:将数据、分析结果、执行过程、故障处置记录 以可视化 的形式呈现,实现运维工作的透明化、可监控、可追溯,同时为人工介入提供直观的操作界面。
-
核心可视化能力:
-
监控大屏:全局运维监控大屏、业务监控大屏、故障监控大屏,实时展示系统运行状态;
-
分析报表:异常检测报表、根因定位报表、容量规划报表、资源利用率报表,支持多维度查询与导出;
-
链路拓扑:分布式链路拓扑图、IT资产拓扑图、故障传播路径图,直观展示系统架构与故障影响;
-
操作界面:自动化执行操作界面、人工介入确认界面、故障处置工单界面,实现人机协同的可视化操作。
-
-
典型工具:Grafana、ECharts、DataV、自研可视化平台。
3. 安全与管控------AIOps的"防火墙"
核心目标:为AIOps平台提供全流程的安全管控,保障平台自身的安全与运维操作的安全,避免平台被攻击、操作被篡改、数据泄露等风险。
-
核心安全能力:
-
权限管理:基于RBAC的细粒度权限管控,支持用户/角色/资源的权限分配;
-
数据安全:运维数据加密传输、加密存储,敏感数据脱敏,避免数据泄露;
-
平台安全:AIOps平台自身的漏洞扫描、入侵检测、防火墙防护;
-
审计日志:记录所有平台操作、自动化执行、人工介入的日志,实现全流程可审计、可追溯;
-
故障隔离:自动化操作的故障隔离、平台故障的容灾备份,避免平台故障影响业务系统。
-
AIOps 技术架构落地关键要点
-
场景化落地 :从企业核心运维痛点(如故障定位慢、告警漏报误报、资源浪费)出发,选择1-2个场景先行落地(如异常检测、故障自愈),再逐步扩展,避免"大而全"的盲目建设;
-
数据先行 :先解决数据采集、数据治理问题,构建高质量的运维数据仓库,再进行算法与分析层的建设,无数据不智能;
-
人机协同:初期保留充分的人工介入入口,逐步提升自动化率,避免一步到位的全自动导致的运维风险;
-
算法与业务融合 :算法需深度适配企业的业务场景与IT架构,避免单纯的算法堆砌,兼顾准确性与可解释性;
-
标准化与复用 :制定企业级的运维数据标准、特征标准、操作标准,实现技术组件、特征、操作的复用,降低建设与维护成本;
-
持续迭代 :AIOps是持续迭代的工程,需将自动化执行的结果、人工处置的经验持续回流至平台,优化算法模型与处置策略,实现自迭代、自优化。
AIOps 技术架构典型落地案例(电商场景)
以电商交易系统为例,展示AIOps技术架构的端到端落地流程:
-
数据采集:通过Prometheus采集服务器/数据库/中间件指标,Filebeat采集日志,OpenTelemetry采集分布式链路数据;
-
数据治理:清洗日志噪声,标准化指标单位,按请求ID关联指标/日志/链路数据,存储至Prometheus+Elasticsearch;
-
特征工程:提取CPU/内存的时序统计特征、慢查询的关联特征、链路调用的拓扑特征;
-
智能分析:通过孤立森林检测到MySQL CPU飙升的异常,通过因果图谱定位到慢查询是根因,通过Prophet预测交易峰值;
-
决策输出:判定为P1级故障,生成"自动终止慢查询进程+添加索引建议"的决策方案;
-
自动化执行:自动执行KILL命令终止慢查询进程,同时创建工单推送索引添加建议给DBA;
-
效果反馈:故障恢复,交易延迟降至正常水平,处置结果回流至数据采集层,优化后续的根因定位模型。