大模型推理费用涨得比想象中快。整理一下 Amazon Bedrock 上实际可操作的几种省钱方式。
四个定价套餐一览
| 套餐 | 特点 | 适用场景 |
|---|---|---|
| 标准 | 按需付费,无预先承诺 | 日常开发/中小生产 |
| 优先级 | 优先计算分配,OTPS 延迟缩短最多 25% | 实时对话等延迟敏感场景 |
| 弹性 | 折扣定价,非紧急任务 | 后台处理、数据标注 |
| 批量 | 打包提交,响应存 S3 | 大规模生成/分类/标注 |
核心数据
- 批量模式比按需便宜 50%(亚马逊云科技官方定价页面数据)
- 提示缓存:缓存 token 最高 90% 折扣,延迟改善最高 85%
- 优先级套餐:OTPS 延迟缩短最多 25%
批量推理实操
把请求打包成 JSONL 文件上传 S3,调 create_model_invocation_job 提交任务,结果写回 S3。
python
import boto3
bedrock = boto3.client('bedrock', region_name='us-east-1')
response = bedrock.create_model_invocation_job(
jobName='batch-classify-v1',
modelId='amazon.nova-lite-v1:0',
roleArn='arn:aws:iam::123456789012:role/BedrockBatchRole',
inputDataConfig={
's3InputDataConfig': {'s3Uri': 's3://my-bucket/batch/input.jsonl'}
},
outputDataConfig={
's3OutputDataConfig': {'s3Uri': 's3://my-bucket/batch/output/'}
}
)
适合场景:数据标注、批量内容生成、大规模分类------任何不需要实时响应的任务。
提示缓存实操
高频请求 + 重复的系统提示 = 提示缓存的最佳场景。在 system prompt 上标记 cachePoint,5 分钟内相同前缀的请求走缓存价。
跨区域推理
量大遇配额限制时用。两种模式:
- 地理区域(Geographic):US/EU/APAC 区域内路由,满足数据驻留合规
- 全球(Global):跨所有商业区域路由,吞吐量拉满
用法:model ID 加地理前缀(如 us.anthropic.claude-sonnet-4-20250514-v1:0),其他代码不用改。
组合策略
实时对话 → 标准 + 缓存 + 跨区域 批量任务 → 批量模式(省 50%) 后台处理 → 弹性套餐 高并发生产 → 优先级 + 跨区域
🔗 Bedrock 定价:aws.amazon.com/cn/bedrock/... 🔗 跨区域推理文档:docs.aws.amazon.com/bedrock/lat...