
支持 AIOps 的理由
人工智能运维(AIOps)是将人工智能(AI)、机器学习(ML)和分析技术应用于提升 IT 运维团队日常工作的过程。简单来说,AIOps 是软件系统通过 AI 和 ML 以及相关分析技术来简化和协助 IT 运维的能力。AIOps 能力可以应用于各种运维和业务数据的摄取与处理,比如日志、追踪、指标等。随着分布式应用的日益复杂以及云原生技术的采用,团队在所观测和管理的应用环境中面临三大变化:数据量、复杂性和变化速度。AIOps 可以发挥关键作用,如果正确实施和使用,它能帮助团队有效应对这些挑战,使运维团队能够专注于更重要的工作。将 AIOps 与 ML 和生成式 AI 集成到你的可观测性解决方案中,可以优化运维,并让你对系统有更深入的可见性。
理解用于可观测性的 AIOps
AIOps 依然是开发人员、站点可靠性工程师(SRE)和 DevOps 专业人员关注的热门话题。鉴于当今在混合和多云环境中广泛开展的可观测性工作,AIOps 的重要性尤为突出。像大多数可观测性平台一样,一切都始于你的遥测数据:指标、日志、追踪和事件。一旦 IT 运维团队开始收集并分析这些数据,AIOps 的价值就会迅速显现。AIOps 的目标是准确并主动识别需要关注的领域,并协助 IT 团队更快速地解决问题。人脑根本无法吸收和分析 PB 级的原始可观测性数据 ------ 但机器可以。引入 AIOps 通过分析和自动化提供了一层智能,帮助团队减少负担。让我们深入了解这个关键主题的一些常见问题吧!
AIOps 如何帮助我?
AIOps 可以大幅减少在发现、理解、调查、确定根本原因以及修复问题和事件方面所需的时间和精力。反过来,在故障排查中节省的时间可以帮助 IT 人员将更多精力投入到更有价值的任务和项目中。
定义难以定义的事物
分析机构和厂商试图通过定义和解释来澄清 AIOps 这个常常模糊且令人困惑的领域。尽管它很复杂,但可以明确的是,AIOps 将成为应对当今混合和多云环境的关键工具。

为什么你需要将 AIOps 作为可观测性战略的一部分?
从数字化转型到云迁移,再到分布式、混合或云原生应用的部署,不断发展的技术正彻底改变 IT 运维格局。这些变化具有以下三个特征:
|----------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------|
| |
|
|
| 数据量 | 复杂性 | 变化速度 |
| 可观测性的数据量持续呈指数增长。 | 应用、工作负载和部署变得越来越复杂、短暂且分布式。 | 应用和基础设施的变化速度比以往任何时候都快。 |
这些情况并非相互排斥,在某些方面恰恰相反。例如,高速的变化率和利用自动扩展的复杂部署意味着更大量的数据。数据越多,解析、分析并从中提取价值就越困难。
利用 AI 和 ML 来总结和汇总数据,并智能地分层存储数据,可以帮助缓解遥测数据量带来的一些挑战。通过基础设施和服务依赖关系图等方式,清晰地展示应用环境和上下文导航,有助于将故障排查与用户自然认知的部署方式对齐。此外,自动发现问题、异常和根本原因,将解决其他复杂性挑战。可观测性平台需要跟踪所有应用和基础设施的变化,并将这些变化与系统行为和用户体验关联起来,因为这些变化往往是突发异常行为的根本原因。
技术小知识
软件升级或补丁引入新功能时,可能会产生意想不到的后果。启用 AIOps 能帮助团队更灵活、更熟练地应对频繁变化,从而最终维持服务性能。

AIOps 如何为组织创造业务价值?
鉴于当今云原生和混合应用环境中的数据量、复杂性和变化速度,AIOps 正逐渐从一种可有可无的能力,转变为 IT 运维团队的关键核心能力。虽然 AIOps 可以大幅减少 IT 运维(ITOps)、SRE 和 DevOps 团队的重复和繁琐工作,但它也带来了显著的业务收益:
- 减少 MTTD(平均检测时间)和 MTTR(平均修复时间),意味着服务停机时间更短、SLA 改善以及客户体验更好
- 帮助组织智能处理快速增长的数据量,降低总体拥有成本(TCO),缓解规模扩展的挑战
- 减少信号和告警噪声,实施更好的自动化,释放运维团队去承担更高价值的项目
- 提升组织应对日益复杂 IT 环境的能力,使其能够更快更频繁地创新并推出新功能
现代混合和云原生环境不断推动运维人员管理企业的极限。成本分析、业务指标跟踪以及将业务影响与可观测性数据对齐,仅是运维团队面临的一些新挑战。好消息是,像基线设定、异常检测和关联分析等 AIOps 概念和分析能力,既能支持可观测性,也能有效解决这些新的业务挑战。AI 和 ML 功能还能更进一步,帮助理解任何新信号和数据,使用户能够提取有用且可操作的洞察,从而促进业务成功。
机器学习在 AIOps 中的作用
机器学习(ML)是人工智能(AI)的一个分支,专注于利用数据和算法模仿人类学习的方式,随着时间推移逐步提高准确性。ML 通过向计算机算法输入大量数据,使其能够学习识别数据集中的模式和关系。随着算法接收新数据,它们不断优化底层模型并提升性能。ML 重要在于它通过示例(模型训练)来执行复杂分析,而无需编写专门算法。相比传统算法方法,ML 能实现更多自动化、提升客户体验,并创造此前无法实现的创新应用。例子包括:
- 预测趋势以改进业务决策
- 个性化推荐,增加收入和客户满意度
- 自动监控复杂应用和 IT 基础设施
- 识别垃圾邮件和发现安全漏洞
机器学习的优势是什么?
ML 可以帮助你的团队在以下几个方面达到更高的性能水平:
|----------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------|
| |
|
|
| 自动化 | 客户体验 | 创新 |
| 由于重复性或数据量大,人类难以完成的认知任务可以通过机器学习实现自动化。例子包括监控复杂的网络系统、识别复杂系统中的可疑活动,以及预测设备何时需要维护。 | 机器学习模型提供的智能能够提升用户体验,通过主动异常检测和告警,更快速地进行问题根因分析,在用户发现问题之前捕捉并解决问题。 | 机器学习解决了专用算法无法处理的复杂问题,解放了团队免于繁重的数据分析和手动故障排查,使他们能够专注于对业务具有战略意义的创新项目。 |
统一的可观测性平台对 AI 和 ML 的重要性
可用于分析的数据越全面、越丰富,通过应用 AI 和 ML 技术能完成的工作就越多。拥有所有运维数据的现代统一可观测性平台,将成为未来所有 AIOps 工作的基础。
AI 和 ML 的高级应用可以推动更多用例,例如提取业务洞察、在多种信号中导出预测或领先指标,或在需要时定义和部署完全定制的 AI 驱动工作流。
可观测性系统将开始形成更完整的闭环;自动收集、存储和分析数据,并在越来越少的人为干预下,自动检测和修复更多事件。
使用机器学习进行异常检测
在 AIOps 中,机器学习在异常检测方面最为有用。异常检测是利用算法识别数据中异常模式或异常值的过程,这些异常可能表明存在问题。异常检测用于监控 IT 基础设施、应用和网络,识别可能影响应用性能或导致网络中断的活动。异常检测还可用于发现安全漏洞和欺诈性银行交易。
现在了解更多关于 AIOps 和机器学习的信息。
当前 AIOps 面临的常见可观测性挑战及应用场景
|----------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------|
| |
|
|
| 减少噪声以提升问题检测能力 | 提供上下文以加快根因分析 | 在整个组织内普及数据和分析 |
减少噪声以提升问题检测
可观测性平台能够实时摄取和分析来自多个来源的大量数据,使 SRE 能全面了解系统行为并及时识别潜在问题。AIOps 功能可自动识别多样数据中的模式,突出基本仪表盘和数据可视化难以察觉的关系和关联。这对于检测和解决暂时性、难以预测或隐藏在系统正常运行范围内的问题特别有用。例如,当应用运行缓慢时,AIOps 可自动识别导致事务延迟或失败的可能原因。
现代系统产生大量数据,SRE 面临筛选大量噪声并确定最重要告警的挑战。可观测性平台可以利用 AIOps 技术和机器学习算法识别不同告警之间的模式和关联,帮助 SRE 优先处理最紧迫的问题。AIOps 自动化可以减少多种噪声数据,例如:
-
多组相似或重复信息
-
过多的检测问题和告警(包括手动和自动),其中一些可能具有相同的根本原因
-
信息性通知事件
这些都会导致可观测性数据和工作流程中出现不同程度的噪声。在观察现代应用部署时,SRE 或 IT 运维团队更容易出现告警疲劳。AIOps 通过提供带有正确上下文的重要洞察,帮助减少噪声,使 IT 运维团队更高效。AIOps 还能根据业务和用户影响自动优先处理实体和信息,聚焦最关键的内容。AIOps 还可根据数据特征检测并去重信息,对相似信息进行聚类或分组,一起呈现,进一步减少故障排查时的噪声。随着新类型的可观测信号和数据被摄取,利用无监督机器学习的时间序列基线和异常检测,大大减少了监控和跟踪数据所需的人工工作。
提供上下文以加快根因分析
根因分析(Root cause analysis - RCA)是一种经过验证的故障排查方法,帮助团队识别并解决问题的根本原因,而不是只处理表面症状。根因分析是一个结构化、逐步进行的过程,通过收集和分析相关数据以及测试解决方案来查找主要的根本原因。当问题出现时,AIOps 可以帮助 SRE 和开发人员更快地找到根因。通过分析来自多个来源的数据,AIOps 能识别问题的潜在原因,即使它不立即显现。这些洞察帮助 SRE 更高效地解决问题,并防止未来再次发生。
自动展示问题相关的上下文信息,通过在工作流程中直接呈现相关信息,加快调查速度。AIOps 可以关联围绕问题的多个事件和行为,帮助进行更全面的调查,缩短平均检测时间(MTTD)和平均修复时间(MTTR)。对于少量特定且清晰的症状,AIOps 能实现从症状到根因的全自动流程,免去手动反复调查的过程。

在整个组织内普及数据和分析
让你组织里的每个人都能使用你的可观测性数据?这真是我可以仰望的北极星!
AIOps 旨在简化 IT 运维团队的工作,减少手动操作,特别是针对日常和重复任务,帮助快速找到关键问题。这样运维人员可以专注于更高级的工作,比如平台架构、平台工程、自动化、安全等。理想情况下,你的 AIOps 平台应能让组织中非数据科学家(如 SRE 团队和业务用户)也能使用机器学习和分析。通过为常见用例预配置模型和便捷的自定义工作流,整个组织都能更高效地运营数据驱动的业务。
为可观测性中的 AIOps 建立信任
IT 人员、SRE 和 DevOps 工程师在成功采用和使用 AIOps 解决可观测性问题时,面临一些障碍。用户会问,除了宣传之外,AIOps 是否真的能带来业务价值,是否能比现有的监控或可观测性工具更好、更高效地发现和解决问题。除了宣传,用户也不一定知道 AI 和 ML 是否真正适合他们的具体用例。还有信任问题:
-
用户难以判断基于 AIOps 的洞察是否准确。
-
用户可能不了解分析的全面性、所用信息及算法原理。
-
用户不确定结论是如何得出的,或这些结论是否与当前调查相关。
结果是:对黑箱式 AIOps 系统普遍缺乏信任。在某些情况下,组织内部因缺乏信任而产生的压力或政策,也可能成为采用 AIOps 的障碍。
我们的经验表明,AIOps 发挥价值的最佳方式是通过"循序渐进"的方式逐步采纳。首先,选择一些具体、经过验证的经典用例,将 AIOps 作为概念验证(POC)开始尝试。接着,在应用环境中的小范围内启用 AIOps 功能,并在每个阶段验证效果并推广成果。一旦取得初步成功,再逐步扩大 AIOps 的使用范围,逐步推进到生产环境。这种有计划的部署路径能缓解许多新技术部署中常见的挑战,避免阻碍 AIOps 的广泛应用。
在实验室或非生产环境中测试并验证技术的有效性,并将结果量化展示给管理层,有助于增强信心并争取支持,在真正部署到生产环境前打下基础。
这类测试也可能揭示其他缺口和需求,比如数据缺失或不一致、覆盖范围有限,或存储与计算能力不足等问题。
在将 AIOps 部署到生产环境时,要检查你的可观测性解决方案是否能按需扩展功能并支撑企业级工作负载。某些在实验室或 POC 环境中表现良好的 AIOps 功能,在面对生产环境中更大规模的需求时,可能会面临性能瓶颈。

生成式 AI 赋能的 AIOps 未来发展
生成式 AI 如何影响今天和未来的可观测性
如果你使用过 ChatGPT(OpenAI 的自然语言处理工具),那你就已经接触过生成式 AI 技术和大型语言模型(LLMs)。大型语言模型(如 ChatGPT、Amazon Bedrock 或 Google Bard)是一种特定类型的生成式 AI 模型,它基于多个输入生成信息:包括其预训练的数据和用户提交的查询。当接收到查询时,它会在其训练数据范围内搜索与查询匹配的信息,进行整合,并以自然语言的形式回应用户。换句话说,它用通俗易懂的英文作答。恰好,这些能力非常适合解决当前的一些可观测性难题。
现状:使用生成式 AI 和搜索提升可观测性
你的可观测性平台为你提供日志、指标、追踪、函数、库及其他系统和数据相关信息的可见性。生成式 AI 可以帮助你通过简单的查询更轻松地使用可观测性平台,并提供更深入的洞察和指导。以下是一些用例:
|----------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------------|
| |
|
|
| 解释 x | 整合信息 | 提升效率 |
| 不确定你看到的函数、日志或追踪是什么?你可以通过查询生成式 AI 工具,获取关于该数据的更多信息。 | 生成式 AI 工具甚至可以更进一步,整合你在可观测性平台上看到的信息,为你生成一份简洁的报告或可视化结果。 | 凭借解释和整合信息的能力,生成式 AI 工具可以提升你团队的专业水平和效率。例如,如果你的代码占用了大量 CPU,你可以查询生成式 AI 工具,利用代码分析数据识别资源密集型函数进行优化,从而改善资源使用,最终降低成本。 |
作为一种自然语言处理平台,大型语言模型(LLM)可以轻松实现 Javascript、Python 或 JSON 之间的语言转换。这也是 LLM 在可观测性场景中非常有用的原因之一。
关键是:一些特定的可观测性功能,如日志消息和错误的解释、脚本转换以及报告生成,与生成式 AI 当前的能力相匹配。通过将可观测性的 "问题" 转化为搜索问题,你可以利用生成式 AI 的能力为你带来优势。
生成式 AI 和大型语言模型(LLM):即将到来的社会变革
ChatGPT 的诞生(2023 年 3 月)标志着一个新时代的开始。对许多人来说,这是首次通过网页浏览器直接与大型语言模型(LLM)交互。但这看似简单的互动却引发了人类与 AI 关系的巨大变革。科技爱好者充满兴奋和喜悦,但也有怀疑和恐惧。它会只是昙花一现吗?LLM 会取代工作岗位吗?然而,对 LLM 的热情正在增长。谷歌、Facebook 以及其他科技巨头都在推出自己的 LLM 和聊天机器人。开源 LLM 也在快速发展,有业内人士认为它们未来可能超越谷歌和 OpenAI。对 LLM 的关注已经引发了各行业的变革。未来几年,人们与数据互动的方式将以搜索框、聊天机器人和执行工作流的提示为常态。LLM 将以我们难以想象的方式改变我们的生活。
警告:大型语言模型(LLM)的能力取决于训练数据的重要性
需要注意的是,生成式 AI 的能力取决于 LLM 所训练的数据。如果模型从未接触过某些日志或特定的库,那么它在解释这些内容时,可能无法提供完整或准确的回答。不过,也有方法可以在不耗费大量时间和资源进行训练的情况下,利用该工具创造价值。方法如下:
检索增强生成(Retrieval Augmented Generation,RAG)是一种框架,允许用户将私有或专有数据"输入"到大型语言模型(LLM)中,使其拥有最新的信息。这提高了 LLM 的效率和准确性,确保用户能利用更多数据源,让 LLM 生成更有用的查询回复。
RAG 有两个组成部分:检索和增强生成。增强生成意味着查询会被附加额外的数据或信息。你可能把这部分认作提示工程(prompt engineering)。通过增强提示,用户为 LLM 后端准备了最新的信息检索,从而能够最大化利用该工具的价值。
关于隐私问题
如果你将私有数据用于大型语言模型(LLM),存在模型可能会基于这些数据进行自我训练的风险,从而担心这些信息会被公开泄露。这对大多数企业来说显然是不理想的。敏感信息泄露是组织在内部采用 LLM 时犹豫不决的多个原因之一。RAG 可以绕过部分隐私问题,而目前万无一失的解决方案是投资私有的商业 LLM。
未来:AI 会实现自主吗?
那么,生成式 AI 在可观测性领域的未来会怎样发展?虽然目前还处于猜测阶段,但业界似乎已经准备好开发自主代理。不过,在技术能够提供可靠的自主代理之前,还需要实现几个关键突破:
语言驱动界面
当前任何可观测性平台面临的挑战之一是如何向用户呈现信息。现有的模式只有两种:预设的自定义仪表盘和信号类型仪表盘。预设的自定义仪表盘提供高级别的单一视图,方便在数据集间建立上下文和关联,但仍需手动深入调查问题。
信号类型仪表盘则提供细粒度但相互独立的视图,比如日志、追踪、服务依赖图等。语言驱动界面是弥合整体视野与细粒度视图差距的下一步 ------ 它将实现动态的单一视图模式,整合相关信号仪表盘,集中展现。语言驱动界面允许用户与系统对话,调出所需仪表盘或视图,支持符合可观测性复杂动态特性的对话式问题解决过程。
以现有技术来看,语言驱动界面并非遥不可及。下一步,生成式 AI 将担任助理角色。
技术小贴士:可观测性与安全领域中大型语言模型(LLM)的应用区别
需要注意的是,安全领域已有公开的故障排查框架,而可观测性领域尚无统一框架。
在可观测性领域,每个问题都较为独特,因此生成式 AI 工具需要具备更复杂的规划和推理能力。
三种类型的 AI 助手
|-------------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------|
| |
|
|
| 带有人工干预的 AI 助手 | 带有人类监督的 AI 助手 | 自主代理 |
| 在这种模式下,可观测性平台触发告警,AI 助手识别告警并向人类解释,然后询问人类是否希望执行后续任务(例如查看某组日志)。在此模式中,LLM 负责分析和提出建议,并与人类保持持续对话,仅在接收到人类指令时采取行动。 | 这里,LLM 被赋予了更多自主操作的能力。它会自行进行分析,向你提供一份报告,然后询问你是否授权下一步操作,这一步可能是采取补救措施。 | 人类被移除出流程,机器获得完全自主权。LLM 根据对问题的分析,独立完成所有分析、调试或修补工作。它可能会重启主机、更换主机、修改配置等等。 |
在前两种助理模式中,当告警触发时,SRE 会被叫到他们的屏幕前(就像现在一样),他们可以通过微观管理任务(in the loop)或简单管理任务(on the loop)来参与决策,决定接下来的操作。
想象这样一个未来场景:你的观测平台收到告警,助理实时分析告警并提供解读,还能给出补救建议。要做到这一点,AI 需要对观测工作流程有扎实的理解,并能根据新信息做出反应。你收到新的情报,就必须根据新情报调整行动方向。观测的这种特殊性也解释了为什么真正的自主代理还遥不可及。企业使用自主代理的技术现实还没有实现:你怎么能信任这项技术做出正确决策?隐私和感觉失控是许多企业关心的问题 ------ 而且这些担忧是合理的。目前这项技术还无法完成复杂的推理和规划任务,想要实现自主,必须先学会这些技能。

总结
和许多新兴技术一样,AIOps 随着数据量、复杂度和变化速度的不断增加而持续发展。在复杂的云原生环境中,仅仅拥有一个 AIOps 系统是不够的。选择合适的观测平台对于迎接即将到来的以 AIOps 驱动的观测和补救至关重要。有了合适的平台,组织可以抢占先机,利用 AIOps 优化运营,获得宝贵洞察,并做出数据驱动的决策,推动增长与成功。
有没有一个平台,能够帮助你利用 AIOps 和生成式 AI 的力量,彻底改变业务运作方式?现在就有 ------ 那就是 Elastic Observability。
Elastic Observability 是一套全面的全栈观测解决方案,为 AIOps 打下坚实基础。它能统一采集你的所有数据,包括指标、日志、追踪,甚至业务数据。
借助 Elastic Observability,你可以大规模消费和处理海量观测数据,快速定位对业务最相关的信息。Elastic Observability 采用上下文感知的生成式 AI 和先进的机器学习技术,减少大量繁重的故障排查工作,简化问题分诊流程,加速根因分析,让团队专注于创新。
这一切,都是基于我们 AI 驱动的技术实现的:
|----------------------------------------------------------------------------------------------------------------------|------------------------------------------------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------------|
| Elastic AI 助理用于观测 : 通过交互式聊天界面,增强对应用错误、日志信息和告警分析的理解,并提供优化代码效率的建议。AI 助理可以集成你选择的大型语言模型(LLM),同时利用专有数据和运行手册提供更多上下文支持。 | Elasticsearch 相关性引擎™(ESRE) : 专为支持基于人工智能的搜索应用而设计。ESRE 可开箱即用地实现高相关性的语义搜索(无需领域适配),支持与外部大型语言模型(LLM)集成,执行混合搜索,并能使用第三方或自有的 Transformer 模型。 | Elastic Learned Sparse Encoder(ELSER) : 这是由 Elastic 训练的检索模型,能够帮助你进行语义搜索,获取更相关的搜索结果。这种搜索方式基于上下文含义和用户意图,而非仅仅依赖精确的关键词匹配。 |