Bedrock 调用次数比预期多了一倍?CloudTrail 5 分钟定位元凶

复盘成本发现 Bedrock 调用量异常偏高。CloudTrail 一查------一个忘关的测试 Lambda 在持续调用。

CloudTrail 记录 AWS 账号里所有 API 调用。对 AI Agent 来说,它能告诉你:谁调了 Bedrock、调了哪个模型、什么时间、从哪个 IP。

开启 Bedrock 数据事件

默认 CloudTrail 不记录 InvokeModel(属于数据事件),需要手动开:

bash 复制代码
aws cloudtrail put-event-selectors \
  --trail-name your-trail \
  --advanced-event-selectors '[{
    "Name": "Bedrock events",
    "FieldSelectors": [
      {"Field": "eventCategory", "Equals": ["Data"]},
      {"Field": "resources.type", "Equals": ["AWS::Bedrock::Model"]}
    ]
  }]'

实用查询(CloudWatch Logs Insights)

按小时统计调用量:

java 复制代码
fields @timestamp, requestParameters.modelId
| filter eventSource = "bedrock.amazonaws.com" and eventName = "InvokeModel"
| stats count(*) by bin(1h)

按模型统计:

sql 复制代码
fields requestParameters.modelId
| filter eventSource = "bedrock.amazonaws.com"
| stats count(*) as cnt by requestParameters.modelId
| sort cnt desc

查半夜异常调用:

less 复制代码
filter eventSource = "bedrock.amazonaws.com"
| filter datepart(@timestamp, "hour") < 6 or datepart(@timestamp, "hour") > 22

设告警

bash 复制代码
# Metric Filter
aws logs put-metric-filter \
  --log-group-name /aws/cloudtrail/bedrock-audit \
  --filter-name BedrockInvokeCount \
  --filter-pattern '{ $.eventSource = "bedrock.amazonaws.com" && $.eventName = "InvokeModel" }' \
  --metric-transformations metricName=BedrockInvokeModelCount,metricNamespace=Custom/Bedrock,metricValue=1

# 每小时超 100 次报警
aws cloudwatch put-metric-alarm \
  --alarm-name bedrock-high-invoke \
  --metric-name BedrockInvokeModelCount \
  --namespace Custom/Bedrock \
  --statistic Sum --period 3600 --threshold 100 \
  --comparison-operator GreaterThanThreshold \
  --evaluation-periods 1 \
  --alarm-actions arn:aws:sns:us-west-2:123456789012:ops-alerts

日志成本

S3 存长期($0.023/GB/月),CloudWatch Logs 存 30 天方便查( �L �Ј9�a9ai{�"x� �L9i*yd#�/k�X�Y\�9� zd�x� ���-�HRHY�[�9�9o�yi!�."y.��ie��&�PSH9�y��fd8� U��[��[�9�y�dy��8� P��Y�Z[9�yk�z+�x� ���KKB���9g*9.��jk:"�.�y��y��9."�j�:+�z`&�/���

相关推荐
zhojiew1 天前
在AWS裸金属实例上安装Cubesandbox并集成PydanticAI进行数据分析的实践
数据分析·云计算·aws
yyuuuzz1 天前
aws亚马逊云上运维常见问题梳理
运维·服务器·网络·云计算·aws
亚林瓜子2 天前
AWS S3日志桶常用过期文件生命周期策略
云计算·生命周期·aws·s3·过期·glacier
yyuuuzz2 天前
企业出海场景下的技术适配小经验
运维·服务器·网络·云计算·aws
yyuuuzz4 天前
国外云服务使用的常见技术问题梳理
运维·服务器·网络·数据库·aws
光于前裕于后5 天前
AWS Redshift 集成Zero-ETL和数据共享 Data sharing
云计算·etl·aws
zhojiew7 天前
在AWS中国区实现EKS跨VPC跨区域实现节点加入集群的实践
云计算·aws
认真的薛薛7 天前
Terraform: AWS VPC+可SSH登录EC2
ssh·aws·terraform
认真的薛薛7 天前
Terraform:AWS VPC
云原生·aws·terraform
yyuuuzz7 天前
境外云服务器使用常见问题梳理
运维·服务器·网络·aws