2026 年 2 月,我们收到不少用户反馈。我们把这些声音,一条条变成了产品更新,以下是本月最值得关注的 9 大升级亮点,每一个都为了让你的观测体验更顺滑、更贴合实际业务场景。
01|重磅更新!故障处理不再手忙脚乱:全新「故障中心」实现一站式响应
需求背景
"支付服务不可用"的 P0 告警短信发到了"技术值班"群,却无人响应。老板介入时,黄金排查时间已流逝。更混乱的是紧急排障过程中,4 个 Tab(监控指标、错误日志、链路追踪、基础设施)来回切换拼凑故障全貌,却没人知道当前谁在主导处理、处理到哪一步。历史操作散落在群聊天记录里,无法追溯。
更新说明
原「异常追踪」现已全面升级为「故障中心」,提供一体化故障处理工作台,让每一次异常都有明确的责任人和清晰的处理轨迹:
-
智能值班(On-Call):支持多团队轮换(工作日 A/B 团队,周末 C/D 团队)、标签匹配(DB 故障自动找 DBA)、跨时区设置(跨国团队协作)。当监控器触发异常,系统自动按规则通知责任人。
-
自动升级策略:若故障超时未认领,自动扩大通知范围,避免遗漏:
- T+0 分钟:持续通知值班人员
- T+20 分钟:若状态仍为"待分配",升级通知团队负责人
- T+60 分钟:升级通知部门经理
-
唯一责任制:只有当前负责人能变更状态(待分配→处理中→已解决→已关闭),避免多人重复处理或互相推诿
-
全景关联:在单一详情页内一站式查看关联的监控指标、错误日志、调用链路、基础设施状态,无需在多个 Tab 间跳转拼凑信息
-
完整审计:每个动作、每次通知、每次交接都有据可查,为复盘提供准确依据
如何体验?
进入「故障中心」,当监控器触发异常时将自动生成故障事件。在故障详情页内即可完成从发现、指派、处理到复盘的闭环操作。

02|重磅更新!全新「错误中心」让根因定位快人一步
需求背景
同样的 NullPointerException 在 APM、RUM 和日志里反复出现,开发团队难以判断这是新问题还是已处理问题的残余;错误分散在各处,缺乏统一跟踪手段,排查时需要在不同数据源间来回比对,处理进度难以掌握。
更新说明
「错误中心」全新上线,实现跨数据源错误智能聚合:
- 统一汇聚:自动采集 APM、RUM、日志中的错误数据,打破数据孤岛
- 智能聚合:通过算法将相同根因的错误收敛为单一 Issue,避免重复处理和告警疲劳,一眼看清错误趋势
- 全栈详情:进入错误详情即可查看完整堆栈、关联链路拓扑、用户会话回放,从代码层到用户层快速定位根因
- 流程管理:支持错误状态流转(待处理/处理中/已解决)与团队协作指派,实现从发现到解决的全生命周期管理
如何体验?
进入 错误中心,先配置投递规则设定监控范围,即可在列表查看错误趋势与概况,点击具体错误进入详情进行深度分析。

03|长周期指标查询更流畅:大数据量场景下曲线不再"中断"
需求背景
有客户反馈,排查故障回溯一个月数据时,使用未加过滤的查询经常遇到曲线中段无数据的情况,看上去像指标中断,实则是因为命中对象过多导致前端无法完整渲染。虽然可以通过添加聚合函数规避,但难以要求所有用户都掌握此技巧,长周期排查体验受阻。

更新说明
指标分析模块新增 Top N 序列及最大返回点数选项:
- 智能采样:查询超长周期、大范围指标时,系统支持自动按对象采样,优先展示关键时间线,避免因数据量过大导致的"假性中断"
- 灵活配置:可自定义返回排序后的最大/最小 20/50/100/500 条数据序列,在完整性与性能间找到平衡

- 下钻增强:新增支持点击图表数据点,下拉选择查看相似趋势指标、下钻分析或其他关联查看,从宏观趋势快速聚焦微观异常

如何体验?
进入「指标」-「指标分析」,在查询配置中选择「Top N 序列」,系统将在大数据量场景下智能采样展示。
04|企业级安全再升级:SSO 登录流程加固,工作空间隐私保护更完善
需求背景
有客户反馈,在公共场合或共享屏幕演示时,输入邮箱进行 SSO 登录后,无需认证即可直接看到该邮箱能访问的所有工作空间列表。这在企业场景中存在信息泄露风险,可能被恶意利用进行针对性攻击或社会工程学渗透。
更新说明
SSO 登录流程已优化为"先认证、后展示"的更安全模式:
- 身份验证优先:用户需先通过邮箱选择身份提供商(IdP)并完成认证
- 受控信息展示:认证通过后,才能在受保护状态下查看可访问的工作空间列表
- 隐私合规:彻底避免在登录前暴露用户的 Workspace 归属信息。
如何体验?
在登录页面点击「单点登录」,按新流程输入邮箱并完成 IdP 认证,通过后即可安全查看并选择目标工作空间。
05|大文件 Profile 分析不再迷茫:20MB+ 文件提供友好引导与工具推荐
需求背景
有客户反馈,当采集的 Profile 文件解析后超过 20MB,浏览器无法在线加载,只能下载后自行分析,但用户往往不清楚该使用什么专业工具处理,体验断裂。

更新说明
Profiling 功能现已增强大文件处理引导:
- 当 Profile 文件超过 20MB 时,系统新增友好提示"暂不支持在线解析,您可使用专业分析工具进行查看"(如火焰图分析器、JProfiler 等)进行本地深度分析
- 从"无法打开"的挫败感转变为"清晰知道下一步怎么做"的顺畅体验
如何体验?
在「APM」-「Profiling」中上传或查看超过 20MB 的 Profile 文件,页面将自动展示下载提示与工具引导。

06|维护状态一目了然:主机列表新增「静默」标识与筛选
需求背景
有客户反馈,服务器进入维护模式(Mute)后,在主机列表中无法直观识别哪些机器处于维护状态,难以快速区分正常下线与异常失联的主机。
更新说明
基础设施主机管理增强可视化能力:
- 静默标识:通过 Open API 或规则创建的主机全局静默,将在主机列表显示"静默"标识,一眼识别维护中的资产
- 快捷筛选:支持通过 df_mute 字段快速筛选处于维护模式的主机,批量管理维护中的资源
- 避免误报:运维团队可直观判断主机状态,避免对维护中机器发出无效告警
如何体验?
进入「基础设施」-「主机」,查看列表中的「静默」标识列,或使用 df_mute 字段进行列表筛选。

07|监控器与仪表板一键关联:排查效率再提升
需求背景
分析仪表板数据异常时,用户需要快速确认关联的告警规则配置情况。以往需要手动查找哪个监控器引用了该仪表板指标,操作繁琐且容易遗漏,无法实现从可视化分析到告警管理的无缝衔接。
更新说明
仪表板新增关联监控器快捷入口:
- 一键查看:在仪表板页面即可一键查看与该仪表板关联的所有监控器,快速确认告警阈值配置与监控状态

- 图表配置优化:为所有图表别名配置新增统一序号标识和悬停联动,直观展示多查询行配置时的对应关系,复杂图表也能清晰阅读

如何体验?
打开任意仪表板,点击右上角关联监控器按钮,即可查看并管理相关监控配置;在图表配置中悬停别名即可查看对应查询行关系。
08|Logstreaming 结构化日志查看更清爽:自定义字段列表不再被 message 强制填充
需求背景
有客户反馈,通过 Logstreaming 接入的业务日志通常只包含自定义结构化字段(如 order_id、api_latency、status_code),本身无需 message 字段。但此前在日志查看器点击"重置为默认字段"后,系统总会自动加回 message 列,即使已在全局设置中配置了关键字段列表也无法避免,导致纯结构化数据查看时始终存在空白列干扰,浪费横向视野。

更新说明
日志查看器的字段重置逻辑现已优化,更尊重你的自定义配置:
- 已配置关键字段:若你已在日志索引中设置了关键字段,重置后将严格按照你的自定义列表展示,系统不再自动注入 message 字段,确保视图与你的数据结构精准匹配
- 未配置关键字段:若未配置关键字段,重置后默认显示 time 和 message(time 列的显示同时受独立显示时间列开关控制)
- 灵活兜底:无论是否配置关键字段,message 字段均支持在显示项中手动移除,满足临时调整需求
如何体验?
进入「日志」-「查看器」,点击「显示项」-「重置为默认字段」:
- 若你希望长期默认不显示 message,建议先在「全局配置」-「关键字段配置」-「关键字段」中配置好关键字段(仅保留你需要的业务字段),此后重置即按此列表渲染;

- 若只需临时隐藏,直接在「显示项」-「显示字段」中移除 message 字段即可。

09|更多体验优化与问题修复
LLM 监测更精准
- Trace 列表中「总 Tokens 数」现统计整条 Trace 消耗,并同步展示输入/输出 Tokens 数量,便于精确计算调用成本。

资源目录管理更便捷
- 新增「服务清单」列表入口。支持通过 Open API 创建、编辑、删除资源分组,账号状态(值班中/休假中)可直接编辑。

部署版全局公告
- 管理后台新增平台级系统公告配置,便于企业级客户统一发布维护通知。
多项稳定性提升
- 修复了仪表盘外部数据源克隆导入失效、宁夏站点电话告警、日志监控器 503 错误等影响日常使用的问题,整体操作流畅度显著提升。
更多更新详见观测云二月更新日志:docs.guance.com/release-not...