All in One, 快速搭建端到端可观测体系

本文分享自华为云社区《All in One, 快速搭建端到端可观测体系》,作者:王磊。

随着云原生技术的应用,可观测成为云服务的主角,应用程序的部署密度及变化频率较传统环境有着巨大的变化,需要可观测性来清晰地发现和记录主机快速变化的应用行为,可观测性对于IT治理水平、业务在线化以及用户体验等方面具有重要作用,有助于提升在不断强化复杂系统架构下的业务连续性保障能力。

当前传统监控体系面临的诸多局限,比如企业多种监控工具、数据无法统一管理、研发测试问题定位 过程沟通难度大,网络不好、接口问题、前/后端同时变化情况下的问题无法复现,数据采集不全、数据难以关联分析以及数据难以快速发挥价值等问题,这都是企业在运维中需要解决的痛点,可观测系统能够帮助理解系统内部,即使在复杂的微服务体系结构中,也可以更轻松地从故障定位到原因。

华为云可观测性分析全景:统一接入、统一存储、统一观测

华为云结合云服务特点、客户痛点和应用场景,构建了全栈的可观测性能力,通过指标、日志、调用链的采集可以实现统一观测,从资源到中间件到应用和业务都可以端到端监控查询和告警,同时构建了统一接入和统一存储的统一架构。便于用户使用和维护。

典型业务架构,建立可观测性体系

不同的客户应用部署结构、观测对象等存在着很大的差异,观测对象可能会包含端侧应用、接入层组件、应用、中间件和数据,这些对象可能会分布在终端设备、浏览器、IDC和云上,针对多种部署形态华为云提供了可观测性构建的全栈解决方案,实现从日志、指标、调用链层面达到看的全、快、准的目标。

华为云可观测性平台包含应用运维管理(AOM)、云日志服务(LTS)、应用性能管理服务(APM) 、云监控服务(CES)四大服务,广泛应用在互联网、政企等行业,驱动高效决策,向下覆盖云边端,向上连接业务与最终用户体验,实现基于业务视角和业务场景的可观测。

全景数据接入:开箱即用,简易配置,快速接入

华为云面向租户面的可观测方案,结合客户业务场景,通过结合确定性运维技术体系,帮助企业构建稳定可靠高质量的业务,针对观测分析,实现业务监控、应用监控、中间层监控、基础设施监控等数据洞察,统一接入、统一存储、统一观测,支撑业务敏捷发展,保障业务在云原生的环境的稳定、高效运行,实现故障快速恢复、变更风控管控、资源慰问管理、韧性评估优化等运维可观测的能力的提升。

图:华为云可观测体系

统一可观测大屏 实现系统监控和智能运维

华为云可观测监控大屏,对数据进行实时的查询和分析,了解系统的过去的状态和运行情况,一旦出现异常或故障,立即进行预警和通知,确保问题得到解决,同时,可以帮助企业负责人在优化系统配置、调整资源分配等作出准确的决策。

监控大屏通过运维数据可视化,覆盖指标/性能/日志,包含应用/云服务/容器/Prometheus/LB日志等数十种数据源。在业务指标上,提供基于elb日志/业务接口SLA提取的业务指标数据;在应用指标上,将应用/组件的性能指标、容器Prometheus指标、中间件指标;在资源指标上,关联云服务资源指标数据,如ECS/VPC等。

日志DSL加工:一站式日志加工平台。DSL(Domain Specific Language)加工是LTS提供的一站式日志加工平台,基于领域自定义的脚本语言和200多个内置函数,可以在LTS控制台实现端到端的日志规整、富化、分裂、脱敏、过滤等加工任务。

海量日志搜索:百亿级日志秒级搜索,千亿级日志迭代搜索。LTS自研搜索引擎,实现百亿级日志秒级返回搜索结果;多次点击查询,返回千亿级日志的精确搜索结果。

日志DSL加工:一站式日志加工平台

容器洞察 云原生用户更关注短、平、快

在容器化应用运维和开发过程中,提高可观测性和有效排查故障是至关重要,动态高效地定位并解决突发性问题,在系统不可用时,快速了解问题现状及原因,有效预防故障发生,构建可观测能力,通过5大能力助力快速问题定界:

>> 健康诊断:及时关注和处理中高危集群;

>> 资源盘点:覆盖Cluster 概览、Node 统计、Deployment 统计、Job统计、事件;

>> 数据分析:3类数据关联分析,逐层下钻;

>> 监控大盘:集overview、Deployment-view、cluster等功能,满足开箱即用;

>> 告警:48+最佳实践告警规则,满足多种告警场景处理规范。

应用性能管理 端到云全链路追踪

端到云全链路追踪覆盖全部关联IT系统,完整记录用户行为在系统间调用路径与状态的实践方案,对于页面加载性能、API请求时延、服务端调用链等场景。基于全链路的拓扑发现,在端侧进行用户体验监控;在接入层进行服务端性能分析;在数据库进行数据调用,使决策更加敏捷、可信。

端到云全链路不仅可以满足端侧监控和实现性能专项分析,还可以为业务带来端到端问题诊断、系统间依赖梳理、自定义标记透传等核心价值,通过分析和诊断系统响应情况,优化业务流程,提高价值的可观察性、可优化性,实现更便捷管理和优化系统。

总结

观测性是云原生时代下能够联动IT与业务的能力,随着云原生的发展,通过高效、灵活和可扩展性的端到端可观测体系,满足应用运维、日志分析、等保合规、运营分析、性能诊断等应用场景,实现IT系统的持续优化和业务价值的提升,完善业务稳定性体系能力建设,提高IT治理水平和发展能力,为企业的运维运营提供有力保障。

点击关注,第一时间了解华为云新鲜技术~

相关推荐
Avan_菜菜2 小时前
FRP 内网穿透完整实战:从 HTTP 映射到 HTTPS 自签代理
运维·nginx·https
SelectDB1 天前
Litefuse 开源并推出单进程轻量模式,25 秒就能跑起来的 Agent 可观测与评估平台
运维·后端·自动化运维
XIAOHEZIcode2 天前
Linux系统鼠标偏移常见原因以及修复方案
linux·运维·游戏
用户0328472220703 天前
如何搭建本地yum源(上)
运维
大树886 天前
金刚石散热越强,管路越先见顶
大数据·运维·服务器·人工智能·ai
摇滚侠6 天前
Linux CentOS7 rpm 安装 MySQL 5.7
linux·运维·mysql
霸道流氓气质6 天前
领域驱动设计(DDD)在 Spring Boot 微服务中的实践指南
运维·spring boot·微服务
Inhand陈工6 天前
基于台达PLC与映翰通IG502的智慧水产养殖精准投喂与远程运维解决方案
运维·人工智能·物联网·阿里云·信息与通信
酣大智6 天前
ARP代理--工作原理
运维·网络·arp·arp代理
shushangyun_6 天前
2026年快消品B2B系统推荐:支持终端门店订货、促销政策自动化的工具?
java·运维·网络·数据库·人工智能·spring·自动化