观测云更新
Breaking Changes
事件 df_alert_info
字段定义调整,新增告警策略未匹配原因说明,仍然需要通过 isIgnored 做过滤判断获取实际对外发送的通知对象。
异常追踪
1、新增异常追踪管理入口,通过该入口,当前登录用户可以查看和管理所有已加入工作空间的异常追踪状态。
2、优化异常追踪页面频道列表显示,提升频道过多时的查询效率。
管理
1、云账号管理:新增阿里云云账号授权类型。
2、API Key 管理:新增对 API Key 的权限控制功能,支持添加角色授权。通过角色授权,API Key 仅具备角色范围内的操作权限,从而有效降低安全风险。
3、数据转发:默认交互变更为不选中规则。
AI 错误分析
以下详情页新增基于 DeepSeek R1 模型的 AI 错误分析能力:
- error 日志
- APM > 链路/错误追踪
场景
1、定时报告:
- 新增 Webhook 发送作为通知方式;
- 支持将仪表板图片分享到企业微信/钉钉。
2、时序图:选择面积图作为图表类型后,新增堆叠模式风格,便于观察整体数据的累积效果。
APM
链路:支持列表批量导出 JSONL 格式。
RUM
用户洞察 > 漏斗分析:对于查询到的 Session 列表支持会话重放功能。
日志
1、查看器:
- 日志查看器 > 索引快捷筛选在搜索栏列出显示效果优化;
- 日志详情 > 扩展字段:新增"进行维度分析"模式;
2、索引:在索引的维度下支持设置专属关键字段,在查看器堆叠模式下,对应索引的日志数据只列出关键字段。
查看器时间控件
左侧选择时间范围与右侧刷新频率各自独立。仅两种情况会影响刷新频率:
- 所选时间范围超过 1h
- 所选时间是绝对时间
基础设施
主机:查看器支持调整时间范围。
Pipeline
1、配置页面显示优化;
2、Pipeline 处理类型新增"事件";
3、测试样本支持获取 JSON 格式;
4、过滤条件 > 可用性监测:支持选择多步拨测。
Bug 修复
- 修复了日志流图导出到 CSV 无反应的问题。
- 修复了
ddtrace
采集的 JVM 指标视图变量为runtime-id
字段时,时序图添加相关筛选后无数据的问题。 - 修复了自定义渐变区间色阶界面显示的问题。
- 修复了时序图编辑 DQL 查询时,过滤条件选择 >0 后保存,再次编辑时显示为空的问题。
- 修复了应用性能监测 > 基础设施表格图显示异常的问题。
- 修复了管理后台设置数据转发存储时长为 1,800 天后,前台转发规则不支持的问题。
- 修复了快捷查询执行 show_object_field(
HOST
) 时,报错 "kodo 服务 API 请求错误: Service Unavailable"的问题。 - 修复了快捷入口中存在的 bug 问题。
- 修复了 RUM 中
session
和view
无数据,而其他resource
和 action 等有数据的问题。 - 修复了多步拨测创建请求步骤会立即校验必填项的问题。
- 修复了数据访问设置角色授权时,过滤条件不生效的问题。
观测云部署版更新
- 模板管理:支持上传所有查看器模板。
集成更新
- 新增 azure_load_balancer;
- 重写 K8S server api;
- 更新 Gitlab CI;
- 翻译 Volcengine 相关视图;
- 翻译 AWS 相关视图。
DataKit 更新
新加功能
- APM 自动注入增加注入 statsd 支持
- Pipeline 新增 key event 类数据的处理
问题修复
- 修复主机重启后
host_ip
获取不到的问题
功能优化
- 优化进程采集器,增加若干跟进程有关的指标
- DDTrace 优化 trace-id 字段的处理
- OpenTelemetry 采集中增加
base_service
字段 - 调整 WAL 默认设置,worker 数默认改成 CPU 限额核心数 * 8,同时安装/升级阶段支持指定 worker 数以及磁盘缓存大小
- Datakit 容器环境下运行时,移除 pid 检测
兼容调整
- 优化磁盘采集器,默认屏蔽一些文件系统类型以及挂载点
调整磁盘指标采集,同时更新了主机对象中的磁盘列表采集,主要有如下差异:
1)新增了挂载点忽略选项:该调整主要是为了优化 Kubernetes 中 Datakit 获取磁盘列表时,过滤掉一些不必要的挂载点,比如 ConfigMap 配置挂载(/usr/local/datakit/.*
)和 Pod 日志采集导致的挂载(/run/containerd/.*
);同时避免了新增的无效时间线(这些新增的时间线主要是挂载点不同导致的)。
2)新增文件系统忽略选项:对一些不太需要采集的文件系统(比如 tmpfs/autofs/devpts/overlay/proc/squashfs
等)默认做了忽略。
3)主机对象采集中,也和 disk 指标采集做了同等的默认忽略策略。
这样调整之后,时间线能大幅度减少,同时,我们在配置监控的时候,也更好理解,避免了挂载点繁多带来的困扰。