瑞幸 Skill 实测，看看点一杯咖啡到底耗了多少 token

上篇《瑞幸 skill 引发的一些思考》发出去之后，评论区有读者好奇：让 agent 点一杯咖啡，token 要花多少钱？

这个问题问到了要害。上篇里我说，agent 时代每一次对话都在烧 token，流量不再是能无限摊薄的资产，它本身就是成本------但通篇都是推理，一个数都没给。光讲道理不给数，等于话只说了一半。

所以今天中午，我真让 Claude 点了一杯。先把结果放这儿：6 分 29 秒拿到取餐码，咖啡实付 12.75 元；这场会话烧掉 136 万 token，按 API 价折算 10.8 元。

一杯 12 块 7 的拿铁，背后站着一张 10 块 8 的 token 账单。过程和账单在前，但这篇真正想写的，是把这串数字接回上篇的几个判断。

先把单点了

瑞幸的 My Coffee Skill 挂在它的 AI 开放平台上，一个 9.9KB 的 zip，解压到 Claude Code 的 skills 目录就装完了。包里只有四个文件，没有一行可执行代码------整个 SKILL.md 就是一份写给 agent 的操作手册：用 curl 调瑞幸的 MCP 网关，八个接口，下单前必须跟用户确认什么，什么情况必须停下来问人。CHANGELOG 显示它从 4 月下旬到现在改了 23 个版本，前天还在更新。

12:38，干净目录里起一个会话（Opus 4.8），说"帮我点一杯咖啡"。几个值得记下的瞬间：

它先查登录凭证（本地有，跳过），然后问我在哪------位置拿不准它不瞎猜，直接追问，这是 SKILL.md 里写死的规矩。我报了公司附近的商圈，它列出 5 家营业中的门店，我指名常用那家。

说"大杯深烘拿铁冰"，它搜到商品发现默认是热的，查属性、切规格------这里卡了 70 秒，切"冰"的接口参数连报两次"非法参数"，第三次才试对。这是全程唯一的磕绊。

之后是一张确认卡：深烘拿铁 · 大杯 · 冰，预估 ¥12.75，原价 ¥17，优惠券自动抵了 4.25（skill 里有强约束：预览接口返回的券必须原样带进下单接口）。我回"下单"，它核价、建单，终端里给出支付链接，手机扫码付款，回一句"已支付"------取餐码 688，预计 12:57 做好。准时。

整段对话的回放在下面这张图里。这张图本身也是 CCStats 桌面端导出的：会话视图里选中消息，就能直接导成分享图，敏感信息我打了码。

体验上老实说比自己开 app 慢，熟手一分钟的事它花了六分半。我在中间做的事：报位置、选店、报饮品、确认、扫码，外加给十几次 curl 权限点"允许"。

评论区问题的答案

会话结束，cc-stats 对着实验目录出了上面这份报告：10 轮对话，22 次 API 调用，input 18K、output 14K、cache write 71.6K、cache read 1.27M，缓存命中率 98.6%。

127 万的 cache read 是账单大头，这就是 agentic loop 的结构：每一轮调用都带着全量上下文，系统提示、19KB 的瑞幸操作手册、越滚越长的对话和接口返回，一个都少不了。上下文从 43K 一路涨到 74K，22 轮下来输入侧累计 136 万 token，好在 98.6% 走了缓存，按原价的十分之一计费。

按 Opus 4.8 的单价（input $5/M、output5/M、output$ 5/M、output25/M、cache write $6.25/M、cacheread6.25/M、cache read$ 6.25/M、cacheread0.5/M）合计 $1.52，按 7.1 汇率约 10.8 元。咖啡 12.75 元，这一单的 AI 服务费率 85%。

三个对照，比单个数字更有信息量：

一，如果没有 prompt cache，136 万输入全按原价，整单 $7.16，约 51 元，是咖啡的四倍。缓存把它压掉了将近八成。

二，同样的用量换模型折算：Haiku 4.5 两块二，Sonnet 4.6 六块五，Opus 4.8 十块八，Fable 5 约二十八块（单价翻倍，新分词器还要多三成 token）------比咖啡本身贵出一倍。点咖啡这件事需要的智力，Haiku 大概率就够。

三，我是订阅用户，这 10.8 元是 API 等价折算，实际包在月费里。订阅党点咖啡无感，按量付费的 API 用户才会真在账单上看到这杯咖啡。

这些数字是怎么来的

文中的 token 用量、缓存命中率、费用折算，还有那张会话回放图，都来自 cc-stats------我自己写的一个 AI coding 会话统计工具（GitHub：github.com/androidZzT/... ），平时用它看自己每天在 Claude Code 上烧了多少 token、干出了多少活。

CLI 装好之后，对着任何项目目录跑一行命令：

bash 复制代码

pipx install cc-statistics
cc-stats ~/Claude/luckin-test

就能出文中那份报告：对话轮次、工具调用分布、token 消耗、缓存命中率、效率评分，Claude Code、Codex、Gemini CLI、Cursor 的会话都认。

桌面端 CCStats.app 可以直接浏览会话内容，选中几条消息导出成分享图------文中那张对话回放图就是这么导的。平时我用得最多的还有额度预测和会话完成通知。

说回那个效率评分。cc-stats 给这场点咖啡的会话打了 D（19/100），理由是 1.4M token、零代码产出。它说得没错，只是它不知道，这次的产出物在取餐台上。

最后

回到评论区那个问题：用 agent 点一杯咖啡，token 花多少钱？

答案是：今天，用最顺手的配置，10 块 8；用最便宜的模型，2 块 2；订阅用户，0 元；第二杯，更少。

但这笔 token 钱买到的不只是一杯拿铁。这场会话之后，登录凭证存在了本地，常用门店、大杯深烘加冰、到店自提，这些偏好都可以沉淀成它的规则------下一杯不用再从头问起。点单只是开头：等它同样摸熟你的日程、通勤、会议习惯，一句"明早八点的航班"就能自动拆成订车、点咖啡、机场自提。token 烧掉的是钱，换回来的是它对你的了解。了解攒得越厚，琐事占用你的时间就越少------这才是这笔钱真正买到的东西。

上篇说，agent 时代的流量不再摊薄，它本身就是成本。这杯咖啡，算是给那句话标了个价。