上篇《瑞幸 skill 引发的一些思考》发出去之后,评论区有读者好奇:让 agent 点一杯咖啡,token 要花多少钱?
这个问题问到了要害。上篇里我说,agent 时代每一次对话都在烧 token,流量不再是能无限摊薄的资产,它本身就是成本------但通篇都是推理,一个数都没给。光讲道理不给数,等于话只说了一半。
所以今天中午,我真让 Claude 点了一杯。先把结果放这儿:6 分 29 秒拿到取餐码,咖啡实付 12.75 元;这场会话烧掉 136 万 token,按 API 价折算 10.8 元。
一杯 12 块 7 的拿铁,背后站着一张 10 块 8 的 token 账单。过程和账单在前,但这篇真正想写的,是把这串数字接回上篇的几个判断。
先把单点了

瑞幸的 My Coffee Skill 挂在它的 AI 开放平台上,一个 9.9KB 的 zip,解压到 Claude Code 的 skills 目录就装完了。包里只有四个文件,没有一行可执行代码------整个 SKILL.md 就是一份写给 agent 的操作手册:用 curl 调瑞幸的 MCP 网关,八个接口,下单前必须跟用户确认什么,什么情况必须停下来问人。CHANGELOG 显示它从 4 月下旬到现在改了 23 个版本,前天还在更新。
12:38,干净目录里起一个会话(Opus 4.8),说"帮我点一杯咖啡"。几个值得记下的瞬间:
它先查登录凭证(本地有,跳过),然后问我在哪------位置拿不准它不瞎猜,直接追问,这是 SKILL.md 里写死的规矩。我报了公司附近的商圈,它列出 5 家营业中的门店,我指名常用那家。
说"大杯 深烘拿铁 冰",它搜到商品发现默认是热的,查属性、切规格------这里卡了 70 秒,切"冰"的接口参数连报两次"非法参数",第三次才试对。这是全程唯一的磕绊。
之后是一张确认卡:深烘拿铁 · 大杯 · 冰,预估 ¥12.75,原价 ¥17,优惠券自动抵了 4.25(skill 里有强约束:预览接口返回的券必须原样带进下单接口)。我回"下单",它核价、建单,终端里给出支付链接,手机扫码付款,回一句"已支付"------取餐码 688,预计 12:57 做好。准时。
整段对话的回放在下面这张图里。这张图本身也是 CCStats 桌面端导出的:会话视图里选中消息,就能直接导成分享图,敏感信息我打了码。

体验上老实说比自己开 app 慢,熟手一分钟的事它花了六分半。我在中间做的事:报位置、选店、报饮品、确认、扫码,外加给十几次 curl 权限点"允许"。
评论区问题的答案

会话结束,cc-stats 对着实验目录出了上面这份报告:10 轮对话,22 次 API 调用,input 18K、output 14K、cache write 71.6K、cache read 1.27M,缓存命中率 98.6%。
127 万的 cache read 是账单大头,这就是 agentic loop 的结构:每一轮调用都带着全量上下文,系统提示、19KB 的瑞幸操作手册、越滚越长的对话和接口返回,一个都少不了。上下文从 43K 一路涨到 74K,22 轮下来输入侧累计 136 万 token,好在 98.6% 走了缓存,按原价的十分之一计费。
按 Opus 4.8 的单价(input 5/M、output25/M、cache write 6.25/M、cacheread0.5/M)合计 $1.52,按 7.1 汇率约 10.8 元。咖啡 12.75 元,这一单的 AI 服务费率 85%。

三个对照,比单个数字更有信息量:
一,如果没有 prompt cache,136 万输入全按原价,整单 $7.16,约 51 元,是咖啡的四倍。缓存把它压掉了将近八成。
二,同样的用量换模型折算:Haiku 4.5 两块二,Sonnet 4.6 六块五,Opus 4.8 十块八,Fable 5 约二十八块(单价翻倍,新分词器还要多三成 token)------比咖啡本身贵出一倍。点咖啡这件事需要的智力,Haiku 大概率就够。
三,我是订阅用户,这 10.8 元是 API 等价折算,实际包在月费里。订阅党点咖啡无感,按量付费的 API 用户才会真在账单上看到这杯咖啡。
这些数字是怎么来的
文中的 token 用量、缓存命中率、费用折算,还有那张会话回放图,都来自 cc-stats------我自己写的一个 AI coding 会话统计工具(GitHub:github.com/androidZzT/... ),平时用它看自己每天在 Claude Code 上烧了多少 token、干出了多少活。
CLI 装好之后,对着任何项目目录跑一行命令:
bash
pipx install cc-statistics
cc-stats ~/Claude/luckin-test
就能出文中那份报告:对话轮次、工具调用分布、token 消耗、缓存命中率、效率评分,Claude Code、Codex、Gemini CLI、Cursor 的会话都认。
桌面端 CCStats.app 可以直接浏览会话内容,选中几条消息导出成分享图------文中那张对话回放图就是这么导的。平时我用得最多的还有额度预测和会话完成通知。
说回那个效率评分。cc-stats 给这场点咖啡的会话打了 D(19/100),理由是 1.4M token、零代码产出。它说得没错,只是它不知道,这次的产出物在取餐台上。
最后
回到评论区那个问题:用 agent 点一杯咖啡,token 花多少钱?
答案是:今天,用最顺手的配置,10 块 8;用最便宜的模型,2 块 2;订阅用户,0 元;第二杯,更少。
但这笔 token 钱买到的不只是一杯拿铁。这场会话之后,登录凭证存在了本地,常用门店、大杯深烘加冰、到店自提,这些偏好都可以沉淀成它的规则------下一杯不用再从头问起。点单只是开头:等它同样摸熟你的日程、通勤、会议习惯,一句"明早八点的航班"就能自动拆成订车、点咖啡、机场自提。token 烧掉的是钱,换回来的是它对你的了解。了解攒得越厚,琐事占用你的时间就越少------这才是这笔钱真正买到的东西。
上篇说,agent 时代的流量不再摊薄,它本身就是成本。这杯咖啡,算是给那句话标了个价。
- 上篇:《瑞幸 skill 引发的一些思考》
- cc-statistics:github.com/androidZzT/...
- My Coffee Skill:open.lkcoffee.com/skill