AI Observability Agent：大模型时代的监控利器

用 Rust 构建的高性能 AI 可观测性平台，让 AI 成本、性能、质量一目了然

项目简介

Prometheus Agent 是什么？

Prometheus Agent（又名 AI Observability Agent）是一个使用 Rust 实现的高性能监控数据采集与上报代理。它不仅继承了传统监控代理的所有能力，还专门针对 AI/LLM 时代的需求进行了深度优化。

复制代码

┌─────────────────────────────────────────────────────────────────┐
│                    AI Observability Agent                        │
├─────────────────────────────────────────────────────────────────┤
│  传统监控能力              │           AI 专属能力              │
│  ─────────────             │           ─────────────            │
│  • 系统指标采集            │           • OTLP 协议接收          │
│  • 服务指标抓取            │           • AI 专用采集器          │
│  • Remote Write 上报       │           • 成本追踪引擎          │
│  • 多端点故障转移          │           • 质量监控系统          │
└─────────────────────────────────────────────────────────────────┘

为什么需要 AI Observability Agent？

在大模型时代，企业和开发者面临着全新的监控挑战：

挑战	传统监控方案的局限	AI Observability Agent 的解决
成本透明度	无法追踪 AI API 调用成本	内置定价表，实时计算成本
Token 监控	不支持 Token 维度指标	统一 Token 指标格式
多源数据	各 AI 工具指标格式不统一	OTLP 协议统一接收
质量评估	缺少 AI 服务质量指标	内置质量评分引擎
预算控制	无预算管理能力	每日/每月预算告警

核心价值主张

复制代码

🚀 高性能     - Rust 实现，内存占用 < 100MB，CPU < 5%
🔌 易集成     - 原生支持 OTLP，Claude Code 开箱即用
💰 成本透明   - 实时追踪 AI API 成本，预算超限告警
📊 质量可控   - 响应时间、Token 效率、错误率全面监控
🛡️ 数据可靠   - 本地持久化，网络故障数据不丢失

核心功能亮点

1. 系统指标采集

像 Node Exporter 一样，全面采集容器或物理机的系统监控数据：

采集器	指标示例	说明
CPU	`node_cpu_seconds_total`	各核心各模式 CPU 时间
内存	`node_memory_MemAvailable_bytes`	可用内存
磁盘	`node_disk_read_bytes_total`	磁盘读写量
网络	`node_network_receive_bytes_total`	网络流量
负载	`node_load1`, `node_load5`, `node_load15`	系统负载

支持多平台：Linux、macOS、Windows，自动检测容器/物理机环境。

2. AI 工具监控

OTLP 协议原生支持

Agent 原生支持 OpenTelemetry Protocol (OTLP)，可接收 Claude Code 等 AI 工具的指标数据：

bash 复制代码

# Claude Code 配置
export CLAUDE_CODE_ENABLE_OTEL=true
export OTEL_EXPORTER_OTLP_ENDPOINT=http://prom-agent:4317

支持的协议：

gRPC: 端口 4317
HTTP: 端口 4318

AI 专用采集器

采集器	数据源	采集内容
OpenAI Collector	OpenAI Usage API	Token 使用量、请求数、成本
LiteLLM Collector	LiteLLM Proxy /metrics	请求延迟、Token、成本

统一指标格式

所有 AI 指标使用统一前缀和标签：

复制代码

ai_requests_total{source="claude_code", model="claude-3-opus", provider="anthropic"}
ai_tokens_input_total{source="claude_code", model="claude-3-opus"}
ai_tokens_output_total{source="claude_code", model="claude-3-opus"}
ai_cost_usd_total{source="claude_code", model="claude-3-opus"}

3. 成本追踪

内置定价表

支持 20+ 主流 AI 模型的定价数据：

模型	输入成本 ($/1K tokens)	输出成本 ($/1K tokens)
claude-3-opus	0.015	0.075
claude-3-sonnet	0.003	0.015
gpt-4o	0.005	0.015
gpt-4-turbo	0.01	0.03

预算管理

yaml 复制代码

cost_tracking:
  budget:
    daily_limit_usd: 100
    monthly_limit_usd: 2000
    alert_threshold_percent: 80

预算超限时自动触发告警，支持 Webhook 通知。

成本报告 API

bash 复制代码

# 查看成本汇总
curl http://localhost:9090/api/v1/costs

# 查看预算状态
curl http://localhost:9090/api/v1/budget

4. 质量评估

内置质量监控系统，支持自定义质量规则：

规则类型	说明	示例
response_time	响应时间检查	平均响应时间 > 5s 触发警告
token_efficiency	Token 效率检查	output/input 比率 > 10 触发信息
error_rate	错误率检查	错误率 > 5% 触发严重告警

质量评分算法：

每个规则返回 0-100 分
最终得分 = Σ(规则分数 × 权重) / Σ权重
100 分表示所有规则通过

技术特性

Rust 高性能实现

复制代码

性能指标              数值
────────────────────────────
OTLP 接收吞吐量       10000+ metrics/s
Remote Write 吞吐量   5000+ samples/s
空闲内存占用          < 100MB
空闲 CPU 占用         < 5%
健康检查延迟 P99      < 5ms

低资源消耗

得益于 Rust 的零成本抽象和 tokio 异步运行时：

内存安全: 无 GC 停顿，内存占用稳定
CPU 高效: 异步 IO，最小化系统调用
二进制小: 单文件部署，无运行时依赖

多平台支持

平台	架构	状态
Linux	x86_64	✅ 完全支持
Linux	ARM64	✅ 完全支持
macOS	x86_64	✅ 完全支持
macOS	ARM64 (M1/M2)	✅ 完全支持
Windows	x86_64	✅ 完全支持

容器友好

自动检测容器环境
支持 /host/proc 路径映射
提供 Dockerfile 和 Kubernetes DaemonSet 配置

适用场景

AI 开发团队

复制代码

场景：团队使用 Claude Code 进行开发
需求：追踪 Token 消耗、控制成本、评估开发效率

解决方案：
1. 配置 Claude Code 发送 OTLP 指标到 Agent
2. Agent 计算实时成本并推送到 Prometheus
3. Grafana Dashboard 展示成本趋势和预算消耗
4. 预算超限时自动告警通知

企业 AI 平台

复制代码

场景：企业内部部署 LiteLLM Proxy 统一管理 AI API
需求：监控所有 AI 调用、成本分摊、质量保障

解决方案：
1. Agent 定期抓取 LiteLLM /metrics 端点
2. 按项目/团队标签聚合成本数据
3. 质量监控规则检测异常调用
4. Grafana Dashboard 展示平台整体健康度

个人开发者

复制代码

场景：个人使用 OpenAI API 开发应用
需求：追踪 API 成本、监控调用质量

解决方案：
1. Agent 定期拉取 OpenAI Usage API
2. 实时计算成本并设置预算告警
3. 本地 Prometheus + Grafana 可视化
4. 低资源消耗，适合个人服务器

与竞品对比

vs OpenTelemetry Collector

特性	AI Observability Agent	OpenTelemetry Collector
部署复杂度	单二进制文件	需要配置多个组件
AI 成本追踪	✅ 内置	❌ 需要自定义
预算管理	✅ 内置	❌ 不支持
质量评估	✅ 内置	❌ 不支持
系统指标采集	✅ 内置	❌ 需要额外 receiver
学习曲线	低	中等

结论: 如果你的主要需求是 AI 监控和成本追踪，AI Observability Agent 提供了更开箱即用的体验。

vs Prometheus Node Exporter

特性	AI Observability Agent	Node Exporter
数据推送方式	主动推送 (Remote Write)	被动拉取 (Prometheus Scrape)
AI 指标支持	✅ 原生支持	❌ 不支持
成本追踪	✅ 内置	❌ 不支持
多端点故障转移	✅ 支持	❌ 不支持
本地持久化	✅ 支持	❌ 不支持
动态配置	✅ API 控制	❌ 需要重启

结论: AI Observability Agent 采用推送模式，更适合需要主动上报数据的场景，同时提供了更丰富的 AI 监控能力。

vs 商业 AI 监控方案

特性	AI Observability Agent	商业方案 (如 Langfuse)
成本	开源免费	按使用量收费
数据主权	自托管，数据本地	数据存储在云端
定制性	高度可定制	受限于平台能力
运维要求	需要自行运维	全托管服务
集成复杂度	需要配置 Prometheus	开箱即用

结论: 对于注重数据主权、成本敏感、有运维能力的团队，AI Observability Agent 是更好的选择。

快速开始

最小配置

yaml 复制代码

# config/agent_config.yaml
agent:
  log_level: info
  listen_address: 0.0.0.0:9090

otlp:
  enabled: true
  grpc_endpoint: 0.0.0.0:4317

cost_tracking:
  enabled: true
  budget:
    daily_limit_usd: 100

remote_write:
  endpoint: http://prometheus:9090/api/v1/write

启动服务

bash 复制代码

# 构建
cargo build --release

# 启动
./target/release/prom-agent config/agent_config.yaml

验证

bash 复制代码

# 健康检查
curl http://localhost:9090/health

# 查看成本
curl http://localhost:9090/api/v1/costs

# 查看预算
curl http://localhost:9090/api/v1/budget

下一步

架构设计 - 深入了解系统架构
OTLP 协议支持 - OpenTelemetry 集成详解
AI 采集器 - Claude Code、OpenAI、LiteLLM 监控
成本追踪 - AI API 成本计算与预算管理
快速开始 - 5分钟部署指南

开源协议

本项目采用 MIT 协议开源，欢迎贡献代码和反馈问题。

相关链接:

项目地址: Gitee
问题反馈: Issues