技术栈
监控
可观测性用观测云
9 小时前
云计算
·
监控
阿里云 Tair 集群版可观测最佳实践
Tair 集群版是阿里云在开源 Redis 基础上进行深度优化和增强的企业级内存数据库服务。它专为应对大规模、高性能、高可用的场景而设计,解决了开源 Redis 集群在容量、性能、稳定性和功能上的一些局限性。
一步一个脚印一个坑
10 小时前
javascript
·
后端
·
监控
用 APM 全链路追踪,29ms 内定位到 Docker 部署的 SSL 配置错误
这是一个真实的排查案例。没有日志打印的神操作,没有凭经验瞎猜的过程,只有一张链路追踪图,直接把问题定位到了具体的代码位置和请求节点。
可观测性用观测云
2 天前
监控
别等用户吐槽!开发者该如何证明自己的程序 “好用”?
结合调研数据,核心比例结论先明确:仅 35% 的用户会主动反馈软件 “慢 / 难用”,65% 的用户选择不反馈(含 “默默忍受” 或 “直接卸载”) ,且不同场景下比例会有差异,具体拆解如下:
小李的便利店
2 天前
kubernetes
·
grafana
·
prometheus
·
监控
k8s集群部署Prometheus和Grafana
这里采用私服的方式进行镜像的pull和push操作。如不会搭建Harbor私服请参考另一篇文章k8s部署EFK日志管理系统
转转技术团队
3 天前
监控
线上崩了,谁先知道?
先问一句:线上出问题的时候,是你们先发现,还是用户先发现?如果答案是后者,这篇就是写给你的。业务越做越大,监控却各搞各的。没有统一标准,没有统一平台,一个团队N套监控,结果就是:
幸福指北
4 天前
运维
·
网络
·
监控
我用 Tauri + Vue 3 + Rust 开发了这款跨平台网络连接查看工具PortView,性能炸裂!
告别卡顿,体验原生性能的网络监控神器作为一名开发者,你是否经常需要查看系统当前的网络连接状态?是否对现有网络监控工具的臃肿和卡顿感到困扰?
可观测性用观测云
5 天前
监控
保姆级服务可观测教学:高可靠 NetStat 可观测实践
云原生与分布式架构下,NetStat 网络指标是监控服务器端口状态、保障服务高可用的重要依据。本次实践基于观测云 SaaS + DataKit 技术栈,以 Linux 环境为基础,通过保姆级分步实操,完成从 DataKit 安装、8080 端口 NetStat 采集配置,到可视化仪表板搭建、异常告警规则配置,再到端口异常模拟与告警验证的全流程落地,快速实现指定业务端口的精细化网络监控,形成可复用、易落地的 NetStat 可观测实践方案。
A-刘晨阳
8 天前
运维
·
云原生
·
钉钉
·
prometheus
·
监控
【Prometheus】Alertmanager配置钉钉告警
👨🎓博主简介🏅CSDN博客专家 🏅云计算领域优质创作者 🏅华为云开发者社区专家博主 🏅阿里云开发者社区专家博主 💊交流社区:运维交流社区 欢迎大家的加入! 🐋 希望大家多多支持,我们一起进步!😄 🎉如果文章对你有帮助的话,欢迎 点赞 👍🏻 评论 💬 收藏 ⭐️ 加关注+💗
人间打气筒(Ada)
9 天前
运维
·
钉钉
·
企业微信
·
zabbix
·
监控
·
告警媒介
zabbix报警多媒介(企业微信、钉钉)
得设定一个报警的条件,场景1. tcp状态监控 (time_wait 超过xxx数量) (自定义监控项+触发器的玩法)
vivo互联网技术
9 天前
java
·
服务器
·
监控
从业务开发视角聊聊可观测体系建设
作者:vivo 互联网服务器团队- Lei Zezheng 本文探讨了分布式架构下可观测体系的建设实践,提出了基于业务视角的可观测体系建设框架:明确业务核心边界、建立指标体系(业务指标+SLO指标)、构建多维度观测(业务观测、链路观测、异常观测、变更观测)和固化排障路径,以游戏中心项目为例,介绍了项目在问题发现与问题定位上的实践,有效提升了问题发现与故障处理的效率。
人间打气筒(Ada)
9 天前
运维
·
zabbix
·
监控
·
自动发现
·
主被动模式
zabbix进阶与分布式-主被动模式/自动发现
Zabbix支持多种模式,zabbix支持普通的zabbix server到zabbix agent端模式,也支持zabbix-sever到zabbix-proxy模式,zabbix-server同时关联多个zabbix-agent,将zabbix-agent的历史数据存储到zabbix-server管理的数据库中,然后经过zabbix的web(也就是nginx)展示出来;
bluceli
11 天前
前端
·
监控
前端监控与错误追踪实战指南:构建稳定应用的终极方案
在现代化的前端应用中,完善的监控和错误追踪系统是保障用户体验的关键。本文将深入探讨如何构建一套完整的前端监控体系,从错误捕获到性能分析,全方位守护你的应用。
JackyRoad
11 天前
性能优化
·
grafana
·
监控
Prometheus-Grafana-vLLM监控实战指南
基于 4x RTX 3090 + vLLM (Qwen2.5-14B) 真实生产环境编写 所有数据、查询、示例均来自 192.168.1.30 实际运行的服务
明月_清风
15 天前
前端
·
javascript
·
监控
前端异常捕获:从“页面崩了”到“精准定位”的实战架构
前言:一套完整的异常监控体系不是简单的几个 try...catch,而是由全方位捕获、链路追踪、资源还原、以及自动化告警构成的工程化矩阵。
无聊的小强
18 天前
监控
被告警吵醒太多次,我做了个让告警自动修复的监控工具
写给一个人管着好几台服务器、每周至少被叫醒一次的你。手机震动。不是闹钟,是告警。你眯着眼睛看屏幕:CPU 使用率 95%,nginx 响应超时。时间:凌晨 3:17。
可观测性用观测云
22 天前
监控
观测云错误中心:帮助团队统一错误视图,定位错误根因并快速修复
对于许多团队来说,有效的错误追踪是确保应用稳定性的起点。如今的开发者构建和维护的应用横跨前端、后端、浏览器和移动端——每一层都会产生可能影响性能和用户体验的错误。当这些信息分散在日志、APM 和 RUM 等多个工具中时,追踪和解决错误就变得极具挑战性:你需要手动关联 Trace ID、查找同一时间段的日志、确认影响的用户范围。碎片化的调试流程让开发者难以关联应用不同部分的问题,导致解决速度变慢、关键 Bug 被遗漏,以及停机时间增加。
OpsEye
23 天前
运维
·
it
·
监控
·
混合云
监控 100 问(七):混合云环境下的 IT 监控策略
目录一、混合云环境的监控挑战(一)多云平台的异构性(二)数据安全与隐私问题在之前的内容中,我们探讨了基于监控数据进行IT 系统容量规划的重要性与方法。如今,随着企业数字化转型的加速,混合云环境因其灵活性、成本效益和强大的扩展性,被越来越多的企业所采用。这种融合了公有云、私有云及本地数据中心的架构,为企业带来诸多优势的同时,也给 IT 监控带来了新的挑战。如何在混合云环境下实现高效、全面的 IT 监控,成为企业运维团队亟待解决的问题。
明月_清风
1 个月前
前端
·
监控
源码回溯的艺术:SourceMap 底层 VLQ 编码与离线解析架构实战
对于正在自研监控系统的架构师来说,SourceMap 绝不仅是一个调试工具,它是线上治理的“黑匣子”。
明月_清风
1 个月前
前端
·
监控
无感监控:深度拆解监控 SDK 的性能平衡术与调度策略
对于正在自研监控系统的架构师来说,“无感监控”不仅是一个性能指标,更是一场对浏览器底层调度机制的深度极限利用。
OpsEye
1 个月前
运维
·
it
·
监控
·
告警
·
swap
·
监控系统
·
交换分区
交换分区优化实战:从监控到调优,让系统告别卡顿
做开发、运维的朋友大概率都遇到过这种情况:运行大型程序、部署服务时系统突然卡顿,甚至程序直接崩溃,排查半天发现竟是交换分区出了问题。作为虚拟内存的核心组成,交换分区的可用率直接决定了系统的稳定性和流畅度,但多数人要么忽视它,要么只会简单扩容不会精细化优化。