监控

SkyWalking中文站16 小时前
运维·grafana·监控
使用 TraceQL 查询 SkyWalking 和 Zipkin 链路追踪数据并在 Grafana 中可视化SkyWalking 10.4 引入了 TraceQL 支持,实现了 Grafana Tempo 的 HTTP 查询 API,使 Grafana 可以直接查询和可视化 SkyWalking 中存储的链路追踪数据。
zs宝来了1 天前
prometheus·时序数据库·监控·tsdb·pull模式
Prometheus 监控体系原理:Pull 模式与 TSDB 时序数据库深入剖析 Prometheus 核心架构,从 Pull 拉取模式到 TSDB 时序数据库的内部实现,结合源码解析与实践案例
lvbinemail2 天前
zabbix·监控·机房·动环
动环方案实践:温湿度传感器+串口服务器+Zabbix+Grafana为了验证自研动环监控方案,搜了一些方案,目前已经获取了温湿度的数据,下面介绍一下实现方案配件: 1.温湿度传感器:需要有RS485口的(其它接口的没有测试,使用的方式都一样的)
可观测性用观测云8 天前
ai编程·监控
Claude Code 意外开源:我们看到了每一个企业级 Agent 都需要行为分析2026 年 3 月 31 日,Anthropic 的 Claude Code 因一个 npm source map 打包失误,将约 51.2 万行 TypeScript 源码完整暴露在公网上。1906 个文件、59.8MB 的 source map,把这个当前最复杂的 AI 编程 Agent 的内部架构全部摊在了阳光下。
夫礼者12 天前
java·jenkins·监控·排错
【极简监控】核弹级排障利器:仿 Jenkins Script Console 打造免重启诊断“黑科技”专栏前言: 在前面的连载中,我们用极简的思路,兵不血刃地拿下了 OS 基础设施层、中间件层以及 Spring 容器层的监控。我们能在不引入额外外部组件的情况下,把单体应用打造成“铁桶一块”。 但排障不仅仅是“看”,有时候更需要“动”。今天,我们将亮出这套极简诊断体系中的底牌——一个平时蛰伏在角落,但在生产环境危急时刻能如大英雄般拯救众生的核弹级排错手段:在线动态脚本控制台(Script Console)。
志遥12 天前
微信小程序·监控
我把 Sentry 接进了 7 端小程序:从异常捕获、Breadcrumb 到 Source Map 定位微信、支付宝、字节、百度、QQ、钉钉、快手 7 端小程序,一套代码统一接入 Sentry,把异常捕获、用户路径、弱网兜底、Source Map 定位真正串成一套可落地的工程方案。
夫礼者12 天前
java·运维·监控
【极简监控】不骗篇幅!7个零运维成本的排障“微操”,让线上问题彻底左移专栏前言: 在本专栏的前几期,我们已经相继祭出了 Oshi底层硬件监控、Micrometer中间件透视、Spring Boot Actuator极限压榨,以及核弹级的 Script Console 动态脚本诊断。 整个“极简监控与免 SSH 管控”的骨架已经搭建完毕。但在实际的长期迭代中,我们还沉淀了许多极其有效、但相对“碎片化”的优化点。秉承务实的技术人作风,我们不想为了骗篇幅把它们拆成水文,今天我们将这 7 个能显著降本增效的“微操”神器汇总盘点。 别看它们碎,配合 AI 辅助的前端可视化,它们组合在
夫礼者12 天前
java·中间件·监控·metrics·micrometer
【极简监控】打破中间件黑盒:用 Micrometer 打造“SLF4J式”的降维打击Metrics监控体系专栏前言: 在上一篇《拒绝 Prometheus 绑架!用 Oshi 打造单体应用的基础设施“铁桶”防线》中,我们搞定了监控五层模型中最底层的 OS 硬件指标,做到了零额外运维成本的宿主机排障。 今天,我们将防线向上推进,来到故障排查的深水区——中间件与第三方组件层。 当接口响应变慢时,如何一秒定性是 Undertow 线程池排队,还是 Druid 数据库连接池耗尽?且看我们在极简单体应用中,如何打出一套 ROI 极高的“降维打击”组合拳。
johnny23313 天前
监控
监控:HertzBeat、Tianji、CheckCle、ApiMonitor、xrkmonitor 、Pika、FastMonitor搜集汇总一些监控工具。非常经典,值得单独另起一篇。即Apache HertzBeat,官网,开源(GitHub,7.1K Star,1.3K Fork)基于Java的AI增强实时可观测性平台,集监控、告警和通知等功能于一体;持续发展并引入AI驱动的观测能力,支持指标、日志的统一收集与分析,适用于中小团队或个人项目的监控需求。
可观测性用观测云14 天前
监控
基于可观测的 IDP:产品开发从不可见走向透明化这些年但凡做企业研发、做产品团队的,几乎都听过 IDP。它不像某个突然火起来的技术概念,更像一套经过很多大厂摔打、验证、沉淀下来的做事方法。很多公司把它请进来,不是为了跟风,而是真的希望让产品从 “想到哪做到哪” 的野路子,变成有章法、有节奏、有质量、能控制风险的正规军,以下是 IDP 的几个核心要点:
阿里云云原生16 天前
监控
RUM 实战:用数据说话的 Android 网络性能优化作者:路锦(小蘭)在移动互联网时代,网络请求性能已成为影响用户体验的关键因素。据统计,转化率会随着页面加载时间增加大幅下降,而移动应用中最常遇到的用户投诉都与“加载慢”、“卡顿”等网络性能问题相关。然而,移动端网络环境的复杂性远超 Web 端:
殷紫川17 天前
java·架构·监控
线上故障零扩散:全链路监控、智能告警与应急响应 SOP 完整落地指南线上服务的稳定性,是技术团队的核心生命线。凌晨被告警电话叫醒、故障发生后半小时找不到根因、小问题引发全链路雪崩、核心业务中断造成巨额损失,几乎是每一位后端开发者都经历过的痛点。一套完整的线上运维体系,核心价值不是事后救火,而是构建从风险预判、问题发现、快速止损到根因根治的全闭环能力,把故障扼杀在萌芽状态,实现线上服务的持续稳定运行。
七夜zippoe20 天前
微服务·架构·gateway·监控·openclaw
OpenClaw Gateway 服务:启动、停止、监控本文深入探讨 OpenClaw Gateway 服务的核心架构与运维实践。作为 OpenClaw 框架的中枢神经,Gateway 承担着消息路由、会话管理、安全认证等关键职责。文章从架构设计出发,详细解析启动配置参数、优雅停止策略、监控方案实现,并结合生产环境经验,提供故障排查指南与高可用部署最佳实践。通过本文,读者将全面掌握 Gateway 服务的运维技能,构建稳定可靠的 AI 助手基础设施。
可观测性用观测云21 天前
云计算·监控
阿里云 Tair 集群版可观测最佳实践Tair 集群版是阿里云在开源 Redis 基础上进行深度优化和增强的企业级内存数据库服务。它专为应对大规模、高性能、高可用的场景而设计,解决了开源 Redis 集群在容量、性能、稳定性和功能上的一些局限性。
一步一个脚印一个坑21 天前
javascript·后端·监控
用 APM 全链路追踪,29ms 内定位到 Docker 部署的 SSL 配置错误这是一个真实的排查案例。没有日志打印的神操作,没有凭经验瞎猜的过程,只有一张链路追踪图,直接把问题定位到了具体的代码位置和请求节点。
可观测性用观测云23 天前
监控
别等用户吐槽!开发者该如何证明自己的程序 “好用”?结合调研数据,核心比例结论先明确:仅 35% 的用户会主动反馈软件 “慢 / 难用”,65% 的用户选择不反馈(含 “默默忍受” 或 “直接卸载”) ,且不同场景下比例会有差异,具体拆解如下:
小李的便利店23 天前
kubernetes·grafana·prometheus·监控
k8s集群部署Prometheus和Grafana这里采用私服的方式进行镜像的pull和push操作。如不会搭建Harbor私服请参考另一篇文章k8s部署EFK日志管理系统
转转技术团队23 天前
监控
线上崩了,谁先知道?先问一句:线上出问题的时候,是你们先发现,还是用户先发现?如果答案是后者,这篇就是写给你的。业务越做越大,监控却各搞各的。没有统一标准,没有统一平台,一个团队N套监控,结果就是:
幸福指北24 天前
运维·网络·监控
我用 Tauri + Vue 3 + Rust 开发了这款跨平台网络连接查看工具PortView,性能炸裂!告别卡顿,体验原生性能的网络监控神器作为一名开发者,你是否经常需要查看系统当前的网络连接状态?是否对现有网络监控工具的臃肿和卡顿感到困扰?
可观测性用观测云25 天前
监控
保姆级服务可观测教学:高可靠 NetStat 可观测实践云原生与分布式架构下,NetStat 网络指标是监控服务器端口状态、保障服务高可用的重要依据。本次实践基于观测云 SaaS + DataKit 技术栈,以 Linux 环境为基础,通过保姆级分步实操,完成从 DataKit 安装、8080 端口 NetStat 采集配置,到可视化仪表板搭建、异常告警规则配置,再到端口异常模拟与告警验证的全流程落地,快速实现指定业务端口的精细化网络监控,形成可复用、易落地的 NetStat 可观测实践方案。