一、为什么你的钱包在"燃烧"?
你打开 Claude Code 帮忙解决一个复杂 bug,2 小时后发现今天已经花掉了 40 美金。这并非个例,开发者社区里,"Claude 受害者联盟"的哀嚎正越来越多。
问题的核心在于,它不再是一个简单的聊天助手,而是一个会持续消耗模型算力的编程代理 。任务越复杂、上下文越长、调用越频繁,成本就越高。在 2026 年 4 月的一次成本上调后,日均成本估算已从 6 美元升至 13 美元,90% 用户的日消费上限也提高到了 30 美元。这意味着 一个重度用户的月账单可能在 150 到 250 美元之间。
更关键的是,这些"无效燃烧"通常来自几个常见的罪魁祸首,但这正是我们要解决的问题。
二、实测 5 招,从源头"止血"
第 1 招:用好 .claudeignore,砍掉 50%-80% 的无关上下文
这是 最重要也最容易被忽略的一步 。Claude Code 为了理解任务,会主动读取项目文件。如果不加限制,它可能会"吞下"整个项目,尤其是庞大的 node_modules 目录。
怎么做 :在项目根目录创建 .claudeignore 文件,明确排除无关目录。
bash
node_modules/
dist/
build/
.next/
.env
*.log
coverage/
效果 :对于大型项目,此举可减少 50% 至 80% 的上下文 Token 消耗。
第 2 招:抛弃 Opus,让 Sonnet 成为主力
根据 Anthropic 官方数据显示,旗舰版 Opus 模型的 Token 消耗大约是 Sonnet 的 2 倍,但并非所有任务都需要其强大的推理能力。Sonnet 足以应对日常编码和补全任务。根据 CloudZero 的报告,Sonnet 是目前开发者使用最多的默认模型。
怎么做:在设置中将默认模型设为 Sonnet,只在处理复杂架构设计时才手动切换为 Opus。
第 3 招:从第一行代码就开始"缓存"
这是成本优化中"杠杆"最高的一环。Claude Code 是对话式的,每次交互都会携带大量系统提示词和对话历史。Prompt Cache 能将这部分重复内容缓存下来,后续请求的费用会大幅降低。通过缓存,某次会话中 高达 90% 的输入 Token 可能来自缓存,费用仅为标准费率的大约 10%。
关键点 :在会话早期就已加载的代码文件、系统说明等,会被模型视为可缓存内容。这意味着 对话开始后不要轻易新开会话,合理利用对话长度,能让缓存命中率非常高。在一次大型重构中,单纯依靠缓存,当天的 Token 费用就从预计的 40 多美元降到了不到 10 美元。
第 4 招:巧用 /compact,跑赢"上下文通货膨胀"
这是 防止 Token 爆炸的最后一道防线 。当对话上下文过长时,执行 /compact 命令会用 Session Memory 对对话进行免费本地压缩,或触发一次微压缩来删除冗余信息,从而在不影响核心逻辑的前提下清理上下文。
实操:
- 主动出击 :当感觉对话已持续很久或很冗长时,
/compact一下 - 避免闲置 :如果会话已闲置 1 小时以上,建议开启全新会话,而不是在同一会话中继续
第 5 招:关闭"Fast Mode",多花 6 倍的钱你确定需要吗?
通过对 Claude Code 源码的分析,一个容易被忽略的陷阱------"Fast Mode"浮出水面。在 Opus 4.6 模型上开启此模式后,成本是正常模式的整整 6 倍 ,达到输入 30/百万token和输出150 / 百万 token 的惊人价格。
在绝大多数日常开发和问题排查中,普通模式的速度完全足够。除非你对"实时响应"有极端要求,否则请果断在 /config 中检查并关掉它。
三、总结一下
以上 5 招叠加使用,足以把一个重度用户的月度成本从 250 美元的高位,拉回到 50 美元左右的健康区间。
| 技巧 | 核心动作 | 预期收益(降低 Token 成本) |
|---|---|---|
| 控制上下文 | 配置 .claudeignore |
50%--80% |
| 选对模型 | 默认用 Sonnet,必要时切 Opus | 50% |
| 利用缓存 | 保持长会话,提高命中率 | 60%--90% |
| 主动压缩 | 适时 /compact |
25%--40% |
| 关掉 Fast Mode | 设置中禁用它 | 83%(相比 Fast Mode) |
建议收藏本文,在实际使用中逐一实践这几项配置。如果在使用中遇到什么"烧钱"的糟心事,也欢迎在评论区分享你的"避坑"经验。