Elastic Observability 的 Agent Skills

作者:来自 Elastic Bahubali Shetti

了解 Elastic Observability 的 Agent Skills 如何帮助 SRE 和开发者通过自然语言运行可观测性工作流 ------ 使用 OpenTelemetry 监控应用、搜索日志、管理 SLO、了解服务健康状况,并辅助 LLM 可观测性。

Elastic Observability 提供了广泛的功能,包括配置 OpenTelemetry 监控、编写 ES|QL 查询以搜索日志和指标、使用正确的指标类型和公式语法定义 SLO、处理噪声告警风暴,以及从多个信号整合服务健康状况。SRE 现在希望通过 AI Agents 进一步自动化。

Elastic 的 Agent Skills 是开源包,为你的 AI 编码 agent 提供原生 Elastic 专业知识。如果你已经使用 Elastic Agent Builder,你将获得能够与 Observability 数据原生协作的 AI agent。Elastic Agent Skills 直接将原生平台专业知识交付给你的 AI 编码 agent,这样你可以停止调试 AI 生成的错误,开始交付可直接生产使用的代码,并充分利用 Elastic 的深度能力。

Skills 可用于 Elastic Stack 的各类专门任务 ------ Elasticsearch、Kibana、Elastic Security、Elastic Observability 等。每个 skill 都存在于自己的文件夹中,包含 SKILL.md 文件,其中有 agent 遵循的元数据和指令。

Observability 目前发布了五个技能,涵盖 SRE 和开发者每天执行的核心工作流。运行 Elastic Observability 涉及广泛的任务:配置 OpenTelemetry 监控、编写 ES|QL 查询以搜索日志和指标、使用正确的指标类型和公式语法定义 SLO,以及从多个信号整合服务健康状况。每项任务都需要领域专业知识和对特定 API、索引模式以及 Kibana 工作流的熟悉。对于管理跨多个环境的几十个服务的团队来说,这些任务重复、容易出错且耗时。

本文将介绍当前的 Observability 技能集,展示端到端工作流,并强调这些技能在日常操作中的用途。

为什么这对可观测性团队很重要

现代可观测性工作通常是临时和跨领域的。在一小时内,你可能需要为新服务添加监控、检查某事件的日志、查看错误预算状态,并验证多个信号的服务健康状况。

每一步通常需要不同的 API、索引模式和 Kibana 工作流。Agent Skills 将这些任务知识打包为可重用单元,使 agent 能够一致地执行这些步骤。

可观测性技能

当前的可观测性技能集专注于五个相关的工作流:

  1. 监控应用

    为 Python、Java 或 .NET 服务添加 Elastic 版本的 OpenTelemetry(跟踪、指标、日志),或帮助从经典 Elastic APM agent 迁移到 EDOT,并配置正确的 OTLP 端点和设置。

  2. 搜索日志

    提供对 Elastic Streams 的可见性 ------ 这是处理可观测性数据的数据路由和处理层。

  3. 管理 SLO

    通过 Kibana API 创建和管理 Elastic Observability 中的服务级目标(SLO),覆盖从数据探索到定义、创建和生命周期管理的全过程。

  4. 评估服务健康

    将 APM、基础设施指标、日志、SLO 和告警的信号整合,提供统一的服务健康视图。

  5. 观察 LLM 应用

    监控和排查 LLM 驱动的应用------跟踪令牌使用情况、延迟、错误率以及推理调用中的模型性能。

什么是 Agent Skills

Agent Skills 是自包含的文件夹,包含指令、脚本和资源,AI agent 可为特定任务动态加载。Elastic 在 elastic/agent-skills 中发布官方技能,基于 Agent Skills 标准

实际使用上,这意味着:

  • 你描述目标。

  • agent 选择相关 skill 或你指定 skill。

  • skill 应用已知的一致步骤和 API 模式,以及 Elastic 推荐的做法。

实际示例:从事件问题到根因

作为 SRE,你收到通知,某个客户出现错误。支持团队尝试排查,但需要帮助,并提供了一个事务 ID 以供调查。

你已将 Elastic 的 Agent Skills 加载到 Claude。你向 Claude 提问:

Find out why transaction with id 01ba6cf8e60253bdeb26026caa3278a1 is having issues over the last 24 hours.

Claude 添加 Elastic O11y Skills 后,分析该事务的问题:

  • 使用 log-search skill 缩小可能原因范围

  • 确定根因

  • 并推荐潜在的修复措施

如何开始

使用 skills CLI 安装 Elastic skills:

bash 复制代码
`npx skills add elastic/agent-skills` AI写代码

直接安装特定 skill:

sql 复制代码
`npx skills add elastic/agent-skills --skill logs-search` AI写代码

然后运行你的 agent 并给它一个面向结果的请求,例如:

sql 复制代码
`My cart service is experiencing some slowness, are there any errors over the last 3 hours? Please give me a summary of these logs.` AI写代码

关键的转变在于请求以结果为先。技能捕获实现细节,例如 API 顺序、字段预期和验证步骤。

接下来

计划的范围包括更广的工作流覆盖。随着技能的成熟,团队可以将它们组合成可重复的操作模式,同时仍支持临时调查。

如果你现在想尝试这个模型,获取 Elastic 的 Agent Skills,从一个服务和一个工作流开始:

  1. 评估服务健康状况。
  2. 为一个真实事件运行引导式日志调查。
  3. 在基线遥测质量到位后添加 SLO 管理。
  4. 了解你的 LLM 对开发者的性能表现。

这为你提供了一种具体方式来评估代理辅助的可观测性工作,而无需一次性改变整个操作模型。

原文:www.elastic.co/observabili...

相关推荐
慕诗客1 小时前
repo管理多仓库
大数据·elasticsearch·搜索引擎
Elasticsearch9 小时前
Elasticsearch:运用 JINA 来实现多模态搜索的 RAG
elasticsearch
Rabbit_QL14 小时前
【Git基础】03——Git 撤销与回退:改错了怎么办
大数据·git·elasticsearch
Elastic 中国社区官方博客15 小时前
将 Logstash 管道从 Azure Event Hubs 迁移到 Kafka 输入插件
大数据·数据库·elasticsearch·microsoft·搜索引擎·kafka·azure
程序员 沐阳16 小时前
Git 二分法精准定位 Bug:从原理到实战,让调试效率起飞
git·elasticsearch·bug
heimeiyingwang16 小时前
【架构实战】搜索引擎架构:ElasticSearch集群设计
elasticsearch·搜索引擎·架构
Rabbit_QL17 小时前
【Git基础】02——分支:在不破坏主线的情况下做实验
大数据·git·elasticsearch
切糕师学AI17 小时前
Elasticsearch Learning to Rank 完全指南
大数据·elasticsearch·机器学习·搜索引擎
世人万千丶17 小时前
解决鸿蒙方向的Flutter框架版切换问题-当前最新版本3.35.8——工具切换与命令切换
学习·flutter·elasticsearch·华为·harmonyos·鸿蒙
Elastic 中国社区官方博客1 天前
通过自主 IT 平台和 Elastic 迈出可观测性的下一步
大数据·elasticsearch·搜索引擎·全文检索·可用性测试