华为云发布全栈可观测平台AOM,以AI赋能应用运维可观测

9月19日,华为全联接大会2024举办期间,在"AI赋能应用现代化,加速软件生产力跃升"为主题的论坛上,华为云发布全栈可观测平台AOM,以AI赋能应用运维可观测,提升企业应用可用性与稳定性。

该平台发布标志着华为云在推动数字化转型和智能化运维领域的又一重大突破,全栈可观测平台的推出不仅为企业提供了更加全面和深入的系统监控和数据分析能力,还通过集成先进的人工智能技术,实现了对复杂应用环境的实时优化和问题预警。

应用运维管理(Application Operations Management,简称AOM)是云上应用一站式可观测性分析平台,基于四层指标体系(业务层指标、应用层指标、中间件层指标、基础设施层),提供指标、日志、调用链3类数据关联分析、根因分析、场景化分析等可观测分析能力,全面掌握应用、资源实时运行状况,及时发现故障。

华为云AOM主要能力

**全场景数据接入,统一监控大盘与告警管理:**统一接入中心实现4层指标体系数据上报,提供可视化图表统一汇总呈现指标、日志信息,统一告警规则配置、开箱即用告警模板以及智能告警降噪。

**全链路调用链分析,智能化代码级剖析Profiling:**支持调用链路时序图,直观展示Web端、App端到后端服务、数据库、中间件链路关系,用户一站式定位故障链路,快速发现消耗资源的代码,定位CPU、内存、时延性能问题。

**容器监控体系洞察:**支持集群维度、核心插件、节点、负载、外部5大检测维度、16个巡检场景、49个检测项诊断,实施掌握容器健康状态。

**海量日志引擎:**自主创新的高性能搜索引擎,存算分离架构,多租户共享海量弹性计算资源,实现百亿级日志3秒内返回搜索结果,提供日志结构化解析组合编排、高性能SQL分析、一站式日志加工等能力。

华为云PaaS服务产品部部长徐峰对AIOps领域的发展做了系统性的规划与展望,未来AIOps将是小模型与大模型结合使用,小模型聚焦故障感知定位解决量化确定性问题,大模型面向故障修复决策提升运维辅助人效,从AI故障感知、AI故障定位、AI生成故障修复建议三个方面构筑未来智能可观测产品力。

**故障感知:**通过多维指标智能聚合与故障预测算法,面向AnyStack与AnyWhere数据实时分析,实现应用故障1分钟及时发现。

**故障定位:**通过告警相关性分析、水平&垂直关联分析能力实现场景化根因分析,5分钟完成故障定位诊断。

**故障决策与修复:**生成式算法结合华为SRE运维经验和案例库,覆盖应用到资源各类场景问题的解决方案,提供精准修复建议,10分钟完成应用故障修复闭环。

会上,上海松鼠云上人工智能技术有限公司(简称松鼠AI)技术VP刘海涛分享了松鼠AI基于华为云AOM在智慧教育领域的实践。

松鼠AI基于华为云AOM构建Ai智适应学习系统一站式可观测性分析能力,融合指标、日志、调用链3类数据,实时掌握应用健康状态,通过数据关联、根因诊断、场景化分析等可观测能力,做到应用运维问题早发现早消除,全面保证Ai智适应学习系统的健康、平稳运转。

未来,华为云应用运维管理AOM将持续聚焦可观测领域,利用AI赋能应用智能可观测,推动数字化转型和智能化升级,面向用户提供更高效、精准的监控和分析解决方案,通过智能化的数据处理和分析能力,为客户提供全方位的系统洞察,在复杂的业务环境中快速识别潜在风险,优化操作流程,提升业务效益,显著降低运维成本。

相关推荐
tilblackout5 分钟前
机器学习详解(19):长短期记忆网络LSTM原理详解
人工智能·机器学习·lstm
Mazy.v9 分钟前
Linux图形化界面
linux·运维·数据库
人类群星闪耀时12 分钟前
从数据海洋中“淘金”——数据挖掘的魔法与实践
人工智能·数据挖掘
易安说AI17 分钟前
我用AI+高德MCP 10分钟搞定苏州三日游
人工智能
Lx35218 分钟前
📌《从Prompt工程到AI思维:开发者新技能树全解析》
人工智能
@MrLiu18 分钟前
# 深度学习中的优化算法详解
人工智能·深度学习·算法·优化器
小王努力学编程18 分钟前
【Linux网络编程】UDP Echo Server的实现
linux·运维·服务器·网络·c++·学习·udp
想睡hhh18 分钟前
Leetcode12 13——罗马数字与整数之间的转换
linux·运维·服务器
契合qht53_shine19 分钟前
机器学习 从入门到精通 day_03
人工智能·机器学习
IT古董21 分钟前
【漫话机器学习系列】199.过拟合 vs 欠拟合(Overfit vs Underfit)
人工智能