|---------------------------|------------------------------------|----------------------|----------------------------------------|------------------|--------------------------------------------------------|
| 服务 | 指标名称 (Metric Name) | 命名空间 (Namespace) | 描述 | 统计值建议 | 可用性相关性 |
| Direct Connect (DX) | ConnectionState | AWS/DX | 连接状态(1=up, 0=down) | Maximum | 高:0 表示连接不可用 |
| Direct Connect (DX) | ConnectionBpsIngress | AWS/DX | 入口比特率(bps) | Average | 低:低值或0可能表示连接问题 |
| Direct Connect (DX) | ConnectionBpsEgress | AWS/DX | 出口比特率(bps) | Average | 低:低值或0可能表示连接问题 |
| Direct Connect (DX) | ConnectionErrorCount | AWS/DX | 错误计数 | Sum | 高:高值表示连接不稳定或不可用 |
| EBS | VolumeReadOps/WriteOps | AWS/EBS | 读/写操作 | Sum | 低:操作失败表示卷不可用 |
| EBS | VolumeIdleTime | AWS/EBS | 空闲时间 | Average | 低:高空闲可能表示未挂载 |
| EC2 | CPUUtilization | AWS/EC2 | CPU 使用率 | Average, Maximum | 低:高利用率可能导致可用性问题 |
| EC2 | StatusCheckFailed | AWS/EC2 | 状态检查失败(Instance 和 System 总和) | Maximum | 高:直接表示实例不可用(>0 表示故障) |
| EC2 | StatusCheckFailed_Instance | AWS/EC2 | 实例状态检查失败 | Maximum | 高:实例级故障,如软件问题 |
| EC2 | StatusCheckFailed_System | AWS/EC2 | 系统状态检查失败 | Maximum | 高:主机级故障,如硬件问题 |
| Network | NetworkIn/NetworkOut | AWS/EC2 | 网络流量 | Sum | 低:流量为 0 可能表示网络不可用 |
| ECS | CPUUtilization | AWS/ECS | 服务或集群 CPU 使用率 | Average, Maximum | 低:高利用率可能导致任务不可用 |
| ECS | MemoryUtilization | AWS/ECS | 服务或集群内存使用率 | Average, Maximum | 低:高利用率可能导致任务不可用 |
| ECS | RunningTaskCount | AWS/ECS | 运行任务数 | Minimum | 高:低于预期值表示服务不可用 |
| ECS | PendingTaskCount | AWS/ECS | 待处理任务数 | Maximum | 高:高值表示启动问题,可能影响可用性 |
| EKS | cluster_failed_node_count | AWS/EKS | 失败节点数 | Maximum | 高:>0 表示集群节点不可用 |
| EKS | cluster_node_count | AWS/EKS | 总节点数 | Minimum | 高:低于预期值表示节点丢失 |
| EKS | pod_ready_count | AWS/EKS | 就绪 Pod 数 | Minimum | 高:低于预期值表示 Pod 不可用 |
| EKS | pod_pending_count | AWS/EKS | 待处理 Pod 数 | Maximum | 高:高值表示调度问题,可能影响可用性 |
| EKS | node_cpu_utilization | ContainerInsights | 节点 CPU 使用率 | Average, Maximum | 低:高利用率可能导致节点不可用 |
| EKS | node_memory_utilization | ContainerInsights | 节点内存使用率 | Average, Maximum | 低:高利用率可能导致节点不可用 |
| ElastiCache Redis | CurrConnections | AWS/ElastiCache | 当前连接数 | Average | 高:异常低值表示服务不可用或连接问题 |
| ElastiCache Redis | ReplicationLag | AWS/ElastiCache | 主从复制延迟(秒) | Average, Maximum | 高:高延迟 (>60s) 表示从节点不可用或同步失败 |
| ElastiCache Redis | EngineCPUUtilization | AWS/ElastiCache | Redis 引擎 CPU 使用率 | Average, Maximum | 低:高利用率 (>90%) 可能导致请求超时和可用性问题 |
| ElastiCache Redis | Evictions | AWS/ElastiCache | 内存驱逐计数 | Sum | 低:高值表示内存不足,可能影响缓存可用性 |
| ElastiCache Redis | CacheHitRate | AWS/ElastiCache | 缓存命中率 | Average | 高:低值 (<80%) 表示缓存无效,可能低影响应用可用性 |
| ElastiCache Redis | SwapUsage | AWS/ElastiCache | 交换空间使用量 | Maximum | 低:>0 表示内存压力,可能导致性能下降和节点故障 |
| ELB | HealthyHostCount | AWS/ELB | 健康主机数 | Minimum | 高:低值表示后端不可用 |
| ELB | UnHealthyHostCount | AWS/ELB | 不健康主机数 | Maximum | 高:>0 表示可用性故障 |
| ELB | HTTPCode_ELB_5XX | AWS/ELB | ELB 5XX 错误计数 | Sum | 高:服务器错误影响可用性 |
| ELB | BackendConnectionErrors | AWS/ELB | 后端连接错误 | Sum | 高:连接失败直接影响可用性 |
| ELB | RequestCount | AWS/ELB | 请求计数 | Sum | 低:请求为 0 可能表示负载均衡器不可用 |
| Lambda | Errors | AWS/Lambda | 函数错误数 | Sum | 高:执行失败表示不可用 |
| Lambda | DeadLetterErrors | AWS/Lambda | 死信错误 | Sum | 高:重试失败 |
| OpenSearch | ClusterStatus.red | AWS/ES | 集群红色状态(表示严重问题,如分片丢失) | Maximum | 高:>0 表示集群部分或完全不可用,可能导致查询失败 |
| OpenSearch | ClusterStatus.yellow | AWS/ES | 集群黄色状态(表示警告,如副本丢失) | Maximum | 高:>0 表示潜在可用性风险 |
| OpenSearch | Nodes | AWS/ES | 活动节点数 | Minimum | 高:低于预期节点数表示节点故障或不可用 |
| OpenSearch | MasterReachableFromNode | AWS/ES | 从数据节点到主节点的连通性 | Minimum | 高:<1 表示主节点不可达,导致集群管理问题 |
| OpenSearch | CPUUtilization | AWS/ES | CPU 使用率 | Average, Maximum | 低:高利用率 (>80%) 可能导致节点响应缓慢或不可用 |
| OpenSearch | FreeStorageSpace | AWS/ES | 可用存储空间(MB) | Minimum | 低:空间不足可能导致写入失败和可用性下降 |
| RDS | CPUUtilization | AWS/RDS | CPU 使用率 | Average, Maximum | 低:高负载可能影响可用性 |
| RDS | DatabaseConnections | AWS/RDS | 数据库连接数 | Average | 高:连接数异常低表示可用性问题 |
| RDS | ReplicaLag | AWS/RDS | 主从复制延迟(秒) | Average | 高:高延迟表示读副本不可用 |
| RDS | FreeStorageSpace | AWS/RDS | 可用存储空间 | Minimum | 低:空间不足导致服务中断 |
| RDS | ReadIOPS/WriteIOPS | AWS/RDS | 读/写 IOPS | Sum | 低:IOPS 异常表示性能/可用性瓶颈 |
| S3 | TotalRequestErrors | AWS/S3 | 总请求错误 | Sum | 高:错误率高表示桶不可用 |
| S3 | 5xxErrors | AWS/S3 | 5XX 服务器错误 | Sum | 高:服务端故障 |
| S3 | 4xxErrors | AWS/S3 | 4XX 客户端错误 | Sum | 低:高值可能表示访问问题 |
| S3 | BucketSizeBytes | AWS/S3 | 存储桶大小 | Average | 低:异常增长可能影响性能 |
| Transit Gateway (TGW) | BytesIn | AWS/TransitGateway | 入口字节数 | Sum | 低:低值或0可能表示附件不可用 |
| Transit Gateway (TGW) | BytesOut | AWS/TransitGateway | 出口字节数 | Sum | 低:低值或0可能表示附件不可用 |
| Transit Gateway (TGW) | PacketsIn | AWS/TransitGateway | 入口数据包数 | Sum | 低:异常值表示网络问题 |
| Transit Gateway (TGW) | PacketsOut | AWS/TransitGateway | 出口数据包数 | Sum | 低:异常值表示网络问题 |
| Transit Gateway (TGW) | PacketDropCountBlackhole | AWS/TransitGateway | 黑洞丢包计数 | Sum | 高:高值表示路由问题,导致不可用 |
| Transit Gateway (TGW) | PacketDropCountNoRoute | AWS/TransitGateway | 无路由丢包计数 | Sum | 高:高值表示路由缺失,导致不可用 |
| CloudFormation | StackStatus | AWS/CloudFormation | 堆栈状态(CREATE_COMPLETE, UPDATE_FAILED 等) | N/A (事件驱动) | 高:状态如 ROLLBACK_FAILED 或 DELETE_FAILED 表示堆栈不可用或部署失败 |
| CloudFormation | StackCount | AWS/CloudFormation | 堆栈数量 | Sum | 低:异常变化可能表示创建/删除问题 |
| DynamoDB | ThrottledRequests | AWS/DynamoDB | 因超出吞吐量限制被限制的请求数 | Sum | 高:高值表示表或索引不可用或超载 |
| DynamoDB | UserErrors | AWS/DynamoDB | HTTP 400 错误数(客户端错误) | Sum | 高:高错误率可能表示访问问题 |
| DynamoDB | SystemErrors | AWS/DynamoDB | HTTP 500 错误数(服务端错误) | Sum | 高:服务端故障直接影响可用性 |
| DynamoDB | ReadThrottleEvents | AWS/DynamoDB | 读请求被限制事件数 | Sum | 高:高值表示读操作不可用 |
| DynamoDB | WriteThrottleEvents | AWS/DynamoDB | 写请求被限制事件数 | Sum | 高:高值表示写操作不可用 |
| AWS Backup | BackupJobsCompleted | AWS/Backup | 成功完成的备份作业数 | Sum | 高:低值可能表示备份失败或不可用 |
| AWS Backup | BackupJobsFailed | AWS/Backup | 失败的备份作业数 | Sum | 高:>0 表示备份服务不可用或配置错误 |
| AWS Backup | RestoreJobsCompleted | AWS/Backup | 成功完成的恢复作业数 | Sum | 高:低值可能表示恢复功能不可用 |
| AWS Backup | RestoreJobsFailed | AWS/Backup | 失败的恢复作业数 | Sum | 高:>0 表示恢复服务不可用 |
| API Gateway | 5XXError | AWS/ApiGateway | 服务端错误(HTTP 5XX)计数 | Sum | 高:高值表示 API 不可用 |
| API Gateway | 4XXError | AWS/ApiGateway | 客户端错误(HTTP 4XX)计数 | Sum | 低:高值可能表示访问权限或配置问题 |
| API Gateway | Count | AWS/ApiGateway | 总请求数 | Sum | 低:请求数为 0 可能表示 API 不可用 |
| API Gateway | Latency | AWS/ApiGateway | 请求延迟(毫秒) | Average, Maximum | 低:高延迟可能表示性能问题,影响可用性 |
| WAF | BlockedRequests | AWS/WAFV2 | 被 WAF 阻止的请求数 | Sum | 高:异常值可能表示规则误配置或攻击导致可用性问题 |
| WAF | AllowedRequests | AWS/WAFV2 | 允许通过的请求数 | Sum | 低:低值可能表示 WAF 过于严格,影响正常访问 |
| WAF | CountedRequests | AWS/WAFV2 | 总请求数 | Sum | 低:请求数为 0 可能表示 WAF 或关联资源不可用 |
| SQS | NumberOfMessagesReceived | AWS/SQS | 队列接收的消息数 | Sum | 低:异常低值可能表示队列不可用或无消息流入 |
| SQS | NumberOfMessagesDeleted | AWS/SQS | 删除的消息数 | Sum | 低:与接收消息数不匹配可能表示处理问题 |
| SQS | ApproximateNumberOfMessagesVisible | AWS/SQS | 队列中可见消息数 | Average | 低:持续高值可能表示消费者不可用 |
| SQS | ApproximateAgeOfOldestMessage | AWS/SQS | 最旧消息的年龄(秒) | Maximum | 高:高值 (>预期阈值) 表示消息未被处理,可能消费者故障 |
| SNS | NumberOfMessagesPublished | AWS/SNS | 发布的消息数 | Sum | 低:低值可能表示发布者不可用 |
| SNS | NumberOfNotificationsDelivered | AWS/SNS | 成功投递的通知数 | Sum | 高:低值表示订阅者不可用或投递失败 |
| SNS | NumberOfNotificationsFailed | AWS/SNS | 失败的通知数 | Sum | 高:>0 表示通知服务不可用 |
| Step Functions | ExecutionThrottled | AWS/States | 被限制的执行次数 | Sum | 高:高值表示状态机执行受限,影响可用性 |
| Step Functions | ExecutionsFailed | AWS/States | 失败的执行次数 | Sum | 高:>0 表示状态机不可用或逻辑错误 |
| Step Functions | ExecutionsStarted | AWS/States | 开始的执行次数 | Sum | 低:低值可能表示触发器不可用 |
| Step Functions | ExecutionsTimedOut | AWS/States | 超时的执行次数 | Sum | 高:>0 表示执行未完成,可能影响可用性 |
AWS INFR 可用性指标
huainian2026-01-16 8:04
相关推荐
zhojiew1 小时前
Kafka Connect集成Apache Iceberg写入AWS Glue表db_cy_206217 小时前
Docker+Kubernetes企业级容器化部署解决方案(阶段一)wcy1008618 小时前
在亚马逊云(AWS)EC2上使用用户和密码进行登录观测云19 小时前
AWS RDS 可观测性最佳实践Ydwlcloud21 小时前
个人博客与内容站部署在AWS:2026年的理性选择与更优策略XINVRY-FPGA1 天前
XCZU47DR-2FFVE1156I XilinxFPGA Zynq UltraScale+ RFSoC@YDWLCloud1 天前
华为云国际版 vs 阿里云国际版:东南亚市场选型指南isNotNullX1 天前
什么是云计算?一文讲清云计算的概念与作用