观测云2月产品升级报告 | 故障中心+错误中心双擎发布,隐私保护加固与用户体验全面优化

2026 年 2 月,我们收到不少用户反馈。我们把这些声音,一条条变成了产品更新,以下是本月最值得关注的 9 大升级亮点,每一个都为了让你的观测体验更顺滑、更贴合实际业务场景。

01|重磅更新!故障处理不再手忙脚乱:全新「故障中心」实现一站式响应

需求背景

"支付服务不可用"的 P0 告警短信发到了"技术值班"群,却无人响应。老板介入时,黄金排查时间已流逝。更混乱的是紧急排障过程中,4 个 Tab(监控指标、错误日志、链路追踪、基础设施)来回切换拼凑故障全貌,却没人知道当前谁在主导处理、处理到哪一步。历史操作散落在群聊天记录里,无法追溯。

更新说明

原「异常追踪」现已全面升级为「故障中心」,提供一体化故障处理工作台,让每一次异常都有明确的责任人和清晰的处理轨迹:

  • 智能值班(On-Call):支持多团队轮换(工作日 A/B 团队,周末 C/D 团队)、标签匹配(DB 故障自动找 DBA)、跨时区设置(跨国团队协作)。当监控器触发异常,系统自动按规则通知责任人。

  • 自动升级策略:若故障超时未认领,自动扩大通知范围,避免遗漏:

    • T+0 分钟:持续通知值班人员
    • T+20 分钟:若状态仍为"待分配",升级通知团队负责人
    • T+60 分钟:升级通知部门经理
  • 唯一责任制:只有当前负责人能变更状态(待分配→处理中→已解决→已关闭),避免多人重复处理或互相推诿

  • 全景关联:在单一详情页内一站式查看关联的监控指标、错误日志、调用链路、基础设施状态,无需在多个 Tab 间跳转拼凑信息

  • 完整审计:每个动作、每次通知、每次交接都有据可查,为复盘提供准确依据

如何体验?

进入「故障中心」,当监控器触发异常时将自动生成故障事件。在故障详情页内即可完成从发现、指派、处理到复盘的闭环操作。

02|重磅更新!全新「错误中心」让根因定位快人一步

需求背景

同样的 NullPointerException 在 APM、RUM 和日志里反复出现,开发团队难以判断这是新问题还是已处理问题的残余;错误分散在各处,缺乏统一跟踪手段,排查时需要在不同数据源间来回比对,处理进度难以掌握。

更新说明

「错误中心」全新上线,实现跨数据源错误智能聚合:

  • 统一汇聚:自动采集 APM、RUM、日志中的错误数据,打破数据孤岛
  • 智能聚合:通过算法将相同根因的错误收敛为单一 Issue,避免重复处理和告警疲劳,一眼看清错误趋势
  • 全栈详情:进入错误详情即可查看完整堆栈、关联链路拓扑、用户会话回放,从代码层到用户层快速定位根因
  • 流程管理:支持错误状态流转(待处理/处理中/已解决)与团队协作指派,实现从发现到解决的全生命周期管理

如何体验?

进入 错误中心,先配置投递规则设定监控范围,即可在列表查看错误趋势与概况,点击具体错误进入详情进行深度分析。

03|长周期指标查询更流畅:大数据量场景下曲线不再"中断"

需求背景

有客户反馈,排查故障回溯一个月数据时,使用未加过滤的查询经常遇到曲线中段无数据的情况,看上去像指标中断,实则是因为命中对象过多导致前端无法完整渲染。虽然可以通过添加聚合函数规避,但难以要求所有用户都掌握此技巧,长周期排查体验受阻。

更新说明

指标分析模块新增 Top N 序列及最大返回点数选项:

  • 智能采样:查询超长周期、大范围指标时,系统支持自动按对象采样,优先展示关键时间线,避免因数据量过大导致的"假性中断"
  • 灵活配置:可自定义返回排序后的最大/最小 20/50/100/500 条数据序列,在完整性与性能间找到平衡
  • 下钻增强:新增支持点击图表数据点,下拉选择查看相似趋势指标、下钻分析或其他关联查看,从宏观趋势快速聚焦微观异常

如何体验?

进入「指标」-「指标分析」,在查询配置中选择「Top N 序列」,系统将在大数据量场景下智能采样展示。

04|企业级安全再升级:SSO 登录流程加固,工作空间隐私保护更完善

需求背景

有客户反馈,在公共场合或共享屏幕演示时,输入邮箱进行 SSO 登录后,无需认证即可直接看到该邮箱能访问的所有工作空间列表。这在企业场景中存在信息泄露风险,可能被恶意利用进行针对性攻击或社会工程学渗透。

更新说明

SSO 登录流程已优化为"先认证、后展示"的更安全模式:

  • 身份验证优先:用户需先通过邮箱选择身份提供商(IdP)并完成认证
  • 受控信息展示:认证通过后,才能在受保护状态下查看可访问的工作空间列表
  • 隐私合规:彻底避免在登录前暴露用户的 Workspace 归属信息。

如何体验?

在登录页面点击「单点登录」,按新流程输入邮箱并完成 IdP 认证,通过后即可安全查看并选择目标工作空间。

05|大文件 Profile 分析不再迷茫:20MB+ 文件提供友好引导与工具推荐

需求背景

有客户反馈,当采集的 Profile 文件解析后超过 20MB,浏览器无法在线加载,只能下载后自行分析,但用户往往不清楚该使用什么专业工具处理,体验断裂。

更新说明

Profiling 功能现已增强大文件处理引导:

  • 当 Profile 文件超过 20MB 时,系统新增友好提示"暂不支持在线解析,您可使用专业分析工具进行查看"(如火焰图分析器、JProfiler 等)进行本地深度分析
  • 从"无法打开"的挫败感转变为"清晰知道下一步怎么做"的顺畅体验

如何体验?

在「APM」-「Profiling」中上传或查看超过 20MB 的 Profile 文件,页面将自动展示下载提示与工具引导。

06|维护状态一目了然:主机列表新增「静默」标识与筛选

需求背景

有客户反馈,服务器进入维护模式(Mute)后,在主机列表中无法直观识别哪些机器处于维护状态,难以快速区分正常下线与异常失联的主机。

更新说明

基础设施主机管理增强可视化能力:

  • 静默标识:通过 Open API 或规则创建的主机全局静默,将在主机列表显示"静默"标识,一眼识别维护中的资产
  • 快捷筛选:支持通过 df_mute 字段快速筛选处于维护模式的主机,批量管理维护中的资源
  • 避免误报:运维团队可直观判断主机状态,避免对维护中机器发出无效告警

如何体验?

进入「基础设施」-「主机」,查看列表中的「静默」标识列,或使用 df_mute 字段进行列表筛选。

07|监控器与仪表板一键关联:排查效率再提升

需求背景

分析仪表板数据异常时,用户需要快速确认关联的告警规则配置情况。以往需要手动查找哪个监控器引用了该仪表板指标,操作繁琐且容易遗漏,无法实现从可视化分析到告警管理的无缝衔接。

更新说明

仪表板新增关联监控器快捷入口:

  • 一键查看:在仪表板页面即可一键查看与该仪表板关联的所有监控器,快速确认告警阈值配置与监控状态
  • 图表配置优化:为所有图表别名配置新增统一序号标识和悬停联动,直观展示多查询行配置时的对应关系,复杂图表也能清晰阅读

如何体验?

打开任意仪表板,点击右上角关联监控器按钮,即可查看并管理相关监控配置;在图表配置中悬停别名即可查看对应查询行关系。

08|Logstreaming 结构化日志查看更清爽:自定义字段列表不再被 message 强制填充

需求背景

有客户反馈,通过 Logstreaming 接入的业务日志通常只包含自定义结构化字段(如 order_id、api_latency、status_code),本身无需 message 字段。但此前在日志查看器点击"重置为默认字段"后,系统总会自动加回 message 列,即使已在全局设置中配置了关键字段列表也无法避免,导致纯结构化数据查看时始终存在空白列干扰,浪费横向视野。

更新说明

日志查看器的字段重置逻辑现已优化,更尊重你的自定义配置:

  • 已配置关键字段:若你已在日志索引中设置了关键字段,重置后将严格按照你的自定义列表展示,系统不再自动注入 message 字段,确保视图与你的数据结构精准匹配
  • 未配置关键字段:若未配置关键字段,重置后默认显示 time 和 message(time 列的显示同时受独立显示时间列开关控制)
  • 灵活兜底:无论是否配置关键字段,message 字段均支持在显示项中手动移除,满足临时调整需求

如何体验?

进入「日志」-「查看器」,点击「显示项」-「重置为默认字段」:

  • 若你希望长期默认不显示 message,建议先在「全局配置」-「关键字段配置」-「关键字段」中配置好关键字段(仅保留你需要的业务字段),此后重置即按此列表渲染;
  • 若只需临时隐藏,直接在「显示项」-「显示字段」中移除 message 字段即可。

09|更多体验优化与问题修复

LLM 监测更精准

  • Trace 列表中「总 Tokens 数」现统计整条 Trace 消耗,并同步展示输入/输出 Tokens 数量,便于精确计算调用成本。

资源目录管理更便捷

  • 新增「服务清单」列表入口。支持通过 Open API 创建、编辑、删除资源分组,账号状态(值班中/休假中)可直接编辑。

部署版全局公告

  • 管理后台新增平台级系统公告配置,便于企业级客户统一发布维护通知。

多项稳定性提升

  • 修复了仪表盘外部数据源克隆导入失效、宁夏站点电话告警、日志监控器 503 错误等影响日常使用的问题,整体操作流畅度显著提升。

更多更新详见观测云二月更新日志:docs.guance.com/release-not...

相关推荐
Mintopia3 天前
如何预见性发现生产业务问题:从被动救火到主动防控的技术体系
产品
数字生命卡兹克4 天前
Claude Code更新,你终于可以随时随地在手机上Vibe Coding了。
人工智能·产品
Mr_Lucifer9 天前
成本大幅降低、Agent效率显著提升:CodeFlicker 接入 MiniMax M2.5 与 GLM-5
人工智能·ai编程·产品
哈基咪怎么可能是AI12 天前
OpenClaw怎么做到不串台、能并行、还总回对群 🤖✅(含源码解析)--OpenClaw系列第1期
产品
Mr_Lucifer17 天前
Duet Space:快手版的 cowork ?
人工智能·ai编程·产品
叶鹏1 个月前
开源一个自己的作品浏览器插件ChaTab,一键提交Prompt到多个AI应用
小工具·产品
Alonse_沃虎电子1 个月前
沃虎音频变压器:专业音频系统中的关键组件
网络·物联网·音视频·产品·方案·变压器·电子元器件
孟健1 个月前
出海收款门槛又低了:PayPal 支持个人卖家账户(亲测 30 分钟通过)
ai编程·产品·创业
爱吃土豆的马铃薯ㅤㅤㅤㅤㅤㅤㅤㅤㅤ1 个月前
数据埋点概念
产品