可观测

阿里云云原生1 天前
阿里云·云原生·云监控·可观测
深度解析云监控 2.0 日志审计:统一采集、实体建模与告警溯源能力作者:孙玉梅在现代云环境中,安全合规与故障溯源面临着如下问题:这种多维度的碎片化导致运维与安全团队深陷“数据丰富但信息贫乏”的困境。当异常发生时,仅凭离散的日志,很难将一个高阶的 API 操作精准映射到底层的进程执行或文件读写。为了解决这一痛点,云监控 2.0 日志审计提供了一套全链路的解决方案。它不仅实现了多源数据的统一接入与自动编排,更引入了实体化建模与告警溯源能力,将离散的日志转化为可操作的安全洞察,帮助企业构建起“采集-分析-溯源”的闭环体系,大幅提升合规审计与风险响应效率。
阿里云云原生4 天前
阿里云·云原生·云计算·可观测
阿里云可观测 2025 年 11 月产品动态文章一览:低至 1% 性能损耗:阿里云 ARMS 配置模板如何实现精准可控的 JMX 数据采集容器可观测新视角: SysOM延时监控助力定位业务抖动原因
阿里云云原生4 天前
人工智能·websocket·网络协议·阿里云·云原生·可观测
LoongSuite:解决 WebSocket 全链路可观测性难题,赋能 AI 应用的实时链路追踪作者:张铭辉(希铭)WebSocket 是一种基于 TCP 协议的全双工通信协议(RFC 6455 [ 1] ),通过一次 HTTP 握手即可建立持久化连接,实现客户端与服务端的双向数据传输。以下是一次 WebSocket 通信的示意图 [ 2] :
阿里云云原生11 天前
阿里云·云原生·云计算·可观测·umodel
UModel 查询:阿里云如何通过图模型实现企业级可观测数据的统一建模与分析点击此处,立即查看视频课程!想象一下,你站在一个巨大的图书馆里,这里有成千上万本书,但每本书的目录都散落在不同的房间里,而且每间房间的索引方式都不一样。当你想要找一本关于“服务调用”的书时,你需要在 APM 房间、K8s 房间、云资源房间之间来回奔波,还要记住每个房间不同的查找规则…
智能运维指南13 天前
可观测·可观测平台·it监控平台·运维监控产品·国产运维监控厂商·国产it监控产品·it监控产品
2025主流可观测平台对比选型:从基础监控到智能运维的演进路径随着企业数字化转型进入深水区,IT架构正从传统的单体应用向微服务、容器化和混合云架构演进。这种架构变革使得系统复杂度呈指数级增长,传统监控工具在应对分布式系统故障定位、性能分析等方面显得力不从心。可观测平台作为新一代运维基础设施,通过融合指标、日志、追踪和拓扑四大支柱数据,为企业提供全栈可视化和智能分析能力。本文基于主流可观测平台的最新能力,深入分析各运维监控平台在智能运维场景下的技术特点,为企业IT监控厂商选型提供决策参考。
阿里云云原生15 天前
阿里云·云原生·可观测·umodel
Entity Explorer 在云原生监控中的落地:USearch/SPL 查询应用作者:灵亦在可观测性领域,实体(Entity)指的是任何可以被独立识别和监控的对象,例如:实体查询的核心价值在于打破传统监控中按“产品”或“指标”划分的孤岛式视图,构建全景化的实体资产目录。用户可以在实体查询中实现以下目标:
阿里云云原生2 个月前
阿里云·云原生·重构·云监控·可观测
云栖实录:重构可观测 - 打造大模型驱动的云监控 2.0 与 AIOps 新范式作者:司徒放(姬风)纵观技术发展,每一次技术范式的迁移,都会重塑一个领域。正如云原生时代,将“监控”演进为“可观测”;如今,大模型时代的到来,也正驱动着可观测走向下一轮颠覆式变革。我们看到,AI 正在重塑软件开发,催生了全新的 AI Coding 的编程模式。那么,用 AI 简化运维复杂度的智能运维,所谓 AI Operation(AIOps)也必然是时代的趋势。
低调的JVM2 个月前
可观测·opentelemetry·java-agent·软件监控
如何学习 OpenTelemetry-Java-Agent(一):自定义 OTLP-HTTP-Collector 实现数据接收与格式化输出在 OpenTelemetry(简称 OTel)生态中,Java Agent 是实现 “无侵入式” 数据采集的核心组件,而 Collector 则负责接收、处理 Agent 上报的 Trace、Log、Metrics 数据。本文作为系列第一篇,将聚焦 “自定义 OTLP-HTTP Collector” 的开发,带你从零实现一个能接收 Agent 数据、并格式化打印 OTLP 内容的服务,为后续深入学习 Java Agent 打下基础。
Tadas-Gao3 个月前
java·开发语言·微服务·云原生·架构·系统架构·可观测
微服务可观测性的“1-3-5”理想:从理论到实践的故障恢复体系在当今高度数字化的商业环境中,系统可用性直接关系到企业的生存与发展。一次持续仅几分钟的故障可能导致数百万的收入损失、客户信任度下降和品牌声誉受损。正是在这种背景下,“1分钟发现,3分钟定位,5分钟解决”的故障恢复目标成为了互联网企业追求的黄金标准。
阿里云云原生3 个月前
macos·阿里云·重构·xcode·可观测
让每次语音唤醒都可靠,公牛沐光重构可观测体系作者:公牛集团,周施乐 王雷 欧阳绩新;阿里云,顾思 白玙 珞希本文详细介绍了公牛沐光团队如何从开源监控方案 SkyWalking 成功迁移到阿里云 ARMS,构建起一套集观测、追踪、日志分析与智能告警于一体的全栈式可观测平台的实践历程。文章不仅揭示了技术选型的关键考量维度,更重点呈现了 ARMS 在大模型与 IoT 融合场景中的独特价值——从语音识别瓶颈定位、大模型推理性能优化到语音合成质量保障,实现了从"被动响应"到"主动治理"的转型。
fire-flyer5 个月前
云原生·logging·loki·可观测
云原生可观测-日志观测(Loki)最佳实践Loki 是由 Grafana Labs 开发的 日志聚合系统,与 Prometheus 架构一致,主打“标签驱动(label-based)日志管理”,并与 Grafana 紧密集成。
阿里云云原生7 个月前
人工智能·云原生·可观测·通义灵码
【发布实录】云原生+AI,助力企业全球化业务创新5 月 22 日,在最新一期阿里云「飞天发布时刻」,阿里云云原生应用平台产品负责人李国强重磅揭晓面向 AI 场景的云原生产品体系升级,通过弹性智能的一体化架构、开箱即用的云原生 AI 能力,为中国企业出海提供新一代技术引擎。
随风奔跑尿飞扬10 个月前
云原生·链路追踪·可观测·opentelemetry
分享一下可观测体系的实现现在的业务系统具有很高的复杂性,为了能够追踪请求的完整流程,通常会实现一种叫做分布式追踪(Distributed Tracing)的机制。
阿里云云原生1 年前
分布式·阿里云·云原生·可观测
解锁分布式云多集群统一监控的云上最佳实践作者:在峰在当今数字化转型加速的时代,随着混合云、多云多集群环境等技术被众多企业广泛应用,分布式云架构已成为众多企业和组织推动业务创新、实现弹性扩展的首选,分布式云容器平台 ACK One(Distributed Cloud Container Platform for Kubernetes)是阿里云面向混合云、多集群、分布式计算等场景推出的企业级云原生平台,助力用户对任何地域、任何集群进行统一运维管控。
阿里云云原生2 年前
运维·数据库·阿里云·云原生·可观测
阿里云运维第一步(监控):开箱即用的监控作者:仲阳这是云的时代,现在云计算已经在各行各业广泛的应用。但是上云对于大多数客户来说,依然有很大的学习成本,如下图仅是阿里云都有几百款产品,怎么选择?怎么用?对于客户来说都是问题。“用好云、管好云”不仅仅是口号,还是我们的目标。
阿里云云原生2 年前
阿里云·云原生·可观测
阿里云可观测 2024 年 3 月产品动态文章一览:全新架构!日志服务 SLS 自研免登录方案发布AIOps 智能运维:有没有比专家经验更优雅的错/慢调用分析工具?
大囚长2 年前
可观测
IT系统可观测性可观测性(Observability)是指能够从系统的外部输出推断出系统内部状态的能力。在IT和云计算领域,它涉及使用软件工具和实践来收集、关联和分析分布式应用程序以及运行这些应用程序的硬件和网络产生的性能数据流。这样做可以更高效地监控、诊断和调试应用程序和网络,满足客户体验期望、服务级别协议(SLA)和其他业务需求。
阿里云云原生2 年前
阿里云·云原生·可观测
「云原生可观测团队」获选「InfoQ 年度技术内容贡献奖」随着云原生、人工智能逐渐成为各行各业的创新生产力工具。可以预见,我们即将进入全新的智能化时代。随着数据成为新型生产要素,云和 AI 正走向深度融合。云原生通过提供大规模多元算力的高效供给,可观测成为业务创新的核心基础设施,加速智能化创新。这一过程离不开开发者、企业、厂商、机构、媒体的持续推动产业演进与不计回报的知识分享。