可观测性

__土块__4 天前
可观测性·系统稳定性·故障排查·监控告警·生产故障·rag系统·检索质量
知识库上线后检索静默失效:一次从监控盲区到分层治理的RAG故障复盘某电商客服知识库RAG系统上线两周后,运营反馈“很多常见问题答不上来”,但后台日志显示检索服务正常返回结果。进一步排查发现,用户高频问题如“退货流程”“优惠券使用”在知识库中存在对应文档,但模型始终无法正确引用。更诡异的是,检索接口的P99延迟稳定在80ms以内,召回率监控面板显示“正常”,无任何错误告警。
观测云6 天前
人工智能·可观测性·产品迭代·观测云
观测云产品更新 | 统一目录、Obsy AI、错误中心、场景、基础设施等新增“统一目录”功能模块:集中管理系统服务与云资源资产,提供实体维护、关系拓扑分析及全景架构视图能力。
__土块__6 天前
可观测性·系统稳定性·生产故障·ai工程·会话记忆·故障复盘·后台设计
AI 会话记忆模块静默失效:一次从链路耦合到分层治理的工程复盘在 AI 应用中,会话记忆(Conversation Memory)是维持上下文连贯性的核心模块。尤其在多轮对话、RAG 增强、Agent 决策等场景中,记忆模块的稳定性直接影响用户体验与系统可靠性。我们的目标是构建一个高可用的记忆系统,确保在模型路由、工具调用、会话切换等复杂链路中,记忆读写始终可预期、可追踪、可恢复。
__土块__7 天前
线程池·可观测性·任务调度·系统稳定性·生产故障·ai工程·执行隔离
AI 任务调度器频繁超时:一次从线程争用到执行隔离的工程复盘2026 年 3 月中旬,某企业 AI 问答平台上线后,用户反馈“提交任务后长时间卡在‘处理中’状态”,部分任务在 30 秒后返回超时错误。初期怀疑是模型推理慢,但监控显示模型平均响应时间为 800ms,远低于超时阈值。进一步排查发现,任务调度器(Scheduler)自身成为瓶颈——尽管任务已成功入队,但实际执行延迟高达 15~25 秒。
key_3_feng13 天前
人工智能·可观测性
AI大模型时代的企业可观测性架构设计方案在AI大模型时代,传统的割裂式监控工具(如Prometheus监控基础设施、ELK日志分析、Jaeger链路追踪)已无法满足复杂AI系统的可观测需求。必须采用OpenTelemetry作为统一标准,构建端到端的可观测性基础设施。OTel提供跨语言SDK、统一数据模型和丰富的生态集成,能够无缝采集AI训练、推理、Agent交互等全链路数据。通过标准化的SpanContext传播机制,确保从用户请求到模型推理再到业务响应的完整链路可追溯,消除监控盲区。同时,建立统一的元数据管理体系,将业务标签(如用户ID、会
观测云19 天前
aws·devops·可观测性·观测云
AWS DevOps Agent 接入观测云最佳实践AWS DevOps Agent 是 Amazon 推出的 AI 运维助手,让用户通过自然语言对话管理云资源、排查故障和生成基础设施代码。它深度集成 AWS 服务,可自动分析日志与指标,提供智能诊断和优化建议。核心价值在于降低运维技术门槛,提升故障响应效率,实现"人人可运维"的普惠目标。
观测云1 个月前
软件开发·可观测性
基于可观测的 IDP:产品开发从不可见走向透明化这些年但凡做企业研发、做产品团队的,几乎都听过 IDP。它不像某个突然火起来的技术概念,更像一套经过很多大厂摔打、验证、沉淀下来的做事方法。很多公司把它请进来,不是为了跟风,而是真的希望让产品从 “想到哪做到哪” 的野路子,变成有章法、有节奏、有质量、能控制风险的正规军,以下是 IDP 的几个核心要点:
小邓的技术笔记1 个月前
asp.net core·结构化日志·可观测性·serilog
Serilog:从结构化日志认知到 .NET 工程落地很多项目不缺日志,缺的是有用的日志。平时接口跑得顺,大家都觉得日志够用。真到线上出问题,日志的短板会一下子暴露出来。
硅基喵1 个月前
asp.net core·可观测性
Serilog:从结构化日志认知到 .NET 工程落地很多项目不缺日志,缺的是有用的日志。平时接口跑得顺,大家都觉得日志够用。真到线上出问题,日志的短板会一下子暴露出来。
SRETalk1 个月前
可观测性·故障排查·sre·catpaw
不记命令也能排障:catpaw chat 实战手册TL;DR:catpaw chat 让你用自然语言排障——说"最近有 OOM 吗",AI 帮你查 dmesg;说"谁在吃磁盘",AI 帮你跑 du 和 df。本文整理 12 个高频排障场景,每个都对比"传统命令行"和"一句话搞定",附带 AI 在幕后调用了什么工具。即使你不用 catpaw,也能当作一份排障命令速查表。
SRETalk1 个月前
可观测性·监控告警·开源监控·catpaw
那些你不知道自己需要监控的 Linux 暗坑TL;DR:conntrack 表满了、ARP 邻居表溢出、内核参数被静默重置、listen 队列丢包……这些 Linux 内核层的"沉默杀手"不会出现在你的 Grafana 大盘上,但能让你的线上服务在几秒内崩溃。本文拆解 8 个真实暗坑,每个都附带故障原理和监控方案。
BJ_Bonree1 个月前
人工智能·可观测性
直播预告 | 三步构建可观测体系,守护制造业业务连续性精彩直播 码上预约!3月25日 14:00,博睿数据华南政企售前技术支持曾寅高,将结合多年制造业技术服务经验,带来《制造业可观测体系的构建与实践分享》主题直播。从制造业架构演进到业务痛点,再到落地路径,层层拆解,将制造行业可观测体系构建从概念转化为贴合实际、可落地的建设规划,制造业破解业务连续性难题。
予枫的编程笔记2 个月前
kafka·grafana·prometheus·可观测性·jmx·kafka集群调优·中间件监控
【Kafka高级篇】Kafka监控不踩坑:JMX指标暴露+Prometheus+Grafana可视化全流程在分布式系统中,Kafka作为高吞吐、高可靠的消息中间件,是业务链路的核心枢纽。但生产环境中,集群卡顿、消息积压、节点异常等问题频发,若缺乏完善的可观测性体系,排查问题如同大海捞针。本文聚焦Kafka可观测性,详解JMX指标暴露方法,手把手教你整合Prometheus+Grafana实现可视化监控,并提炼生产环境必调的核心参数,帮你快速搭建监控体系、优化集群性能,告别“盲操”烦恼。
Sandrachao_lucky3 个月前
运维·人工智能·aiops·可观测性·可观测平台
跨越行业边界:企业如何精准挑选可观测性平台在数字化转型进入攻坚阶段的当下,企业的技术架构正经历一场深刻变革。曾经的单体式应用正被分布式、云原生及国产化混合的复杂架构所取代。如今,一次看似简单的接口交互,其背后可能串联起数十个服务节点,这让传统的监控工具显得力不从心。
观测云4 个月前
ai·可观测性
Dify 可观测性最佳实践Dify 是一款开源的大语言模型(LLM)应用开发平台,融合了后端即服务(Backend-as-a-Service,BaaS)与 LLMOps 的理念,旨在帮助开发者快速搭建生产级的生成式 AI 应用。
张彦峰ZYF4 个月前
可解释性·可观测性·qlexpress4·与 ai 时代规则协同·升级风险与决策整合分析
沉寂与重生:QLExpress4 的诞生与升级量化目录一、QLExpress4 的新增能力与面临痛点分析(一)主要新增能力(二)痛点分析:为什么要重构?
superman超哥4 个月前
开发语言·后端·rust·可观测性·rust日志级别·rust结构化日志
Rust 日志级别与结构化日志:生产级可观测性实践日志是软件可观测性的基石,是理解系统行为、诊断问题、监控健康状况的关键窗口。但日志的价值取决于其质量——过多的噪音淹没关键信息,过少的细节无法定位问题,非结构化的文本难以分析和查询。Rust 生态系统提供了强大的日志框架,从 log 门面的标准化接口到 env_logger、tracing 等实现,从简单的文本日志到结构化的事件追踪,从静态级别到动态过滤。理解日志级别的语义和使用场景、掌握结构化日志的设计模式、学会配置灵活的过滤策略、实现高性能的异步日志,是构建生产级应用的必备技能。本文深入探讨 Rust
程序员柒叔4 个月前
大模型·llm·prompt·可观测性·llm评估
Langfuse 项目概览项目名称:Langfuse 版本:3.140.0 开源协议:MIT License 官方网站:https://langfuse.com GitHub 仓库:https://github.com/langfuse/langfuse 项目类型:开源 LLM 工程平台(Full-stack Web Application)
阿拉斯攀登4 个月前
prometheus·skywalking·可观测性·zipkin
SkyWalking 与 Zipkin、Prometheus 深度对比分析目录一、核心定位与设计目标二、核心功能能力对比1. 核心能力覆盖(√= 支持,△= 部分支持,×= 不支持)
许泽宇的技术分享5 个月前
人工智能·可观测性·opentelemetry·agentframework
当 AI Agent 遇上可观测性:AgentOpenTelemetry 让你的智能体不再“黑盒“"你的 AI Agent 到底在干什么?为什么响应这么慢?Token 都花哪儿了?" —— 每个 AI 开发者的灵魂三问