一篇 kilo 8月份的老文了。不过观点没有过时。表述略夸张,10万刀也没啥依据。。。
20美元是永远的过去式,我觉得这个观点是没毛病的。
Token growth indicates future AI spend per dev
作者:EWA SZYSZKA 发布日期:2025年8月9日
Kilo刚刚在OpenRouter上首次突破了每月1万亿token的大关。
每个开源AI编码工具家族(Cline、Roo、Kilo)本月都在快速增长。

这种增长部分是由Cursor和Claude开始限制用户造成的。我们在7月初写了关于Cursor的文章,并在7月下旬写了关于Claude的文章。他们的限制[将用户推向了开源AI编码工具家族],造成了上图中的增长。Cursor和Claude需要限制是因为行业做出了一个错误的假设。
The industry made a flawed assumption about AI Tokenomics
行业期望因为原始推理成本快速下降,应用程序推理成本也会快速下降,但这个假设是错误的。
Raw inference costs did decrease by 10x year-over-year。这一期望让初创公司押注于一种商业模式,公司可以承受以显著亏损销售订阅,知道随着成本下降他们将实现健康的利润率。
Cursor's Ultra plan完美地体现了这种方法:向用户收费200美元,同时提供至少价值400美元的token,基本上以-100%的毛利率运营。

赌注是到第二年,应用程序推理成本将降低90%,创造160美元的毛利润(+80%毛利率)。但这并没有发生,应用程序推理成本不但没有下降,反而增长了!
Why application inference costs exploded
应用程序推理成本增加有两个原因:前沿模型每token成本保持稳定,每个应用程序的token消耗增长了很多。我们将首先深入研究前沿模型token价格稳定的原因,最后解释每个应用程序的token消耗。
The price per token for the frontier model stayed constant是因为模型规模的增加和更多的测试时扩展。测试时扩展,也称为长时间思考,是扩展AI的第三种方法,如下图所示。
虽然预训练和后训练扩展只影响模型的训练成本。但这种测试时扩展增加了推理的成本。像OpenAI的o1系列这样的思考模型在推理本身期间分配大量计算资源。这些模型对于具有挑战性的查询可能需要超过100倍的计算量,相比传统的单次推理。
每个应用程序的token消耗增长很多,因为模型允许更长的上下文窗口和模型更大的建议。稳定每token价格和更多token消耗的结合导致应用程序推理成本在过去两年中增长了大约10倍。市场领导者Cursor引入了200美元的计划,之前20美元是默认的。200美元的计划也被Claude Code和其他公司跟随。
The fixed $200 plan requires throttling the power users
今天订阅的最高端是200美元,但如果使用大量推理,重度用户会发现他们被广泛限制。这种限制以速率限制、使用低质量模型、上下文窗口压缩和其他技术形式出现。
如果你不想被限制,你需要自己支付推理费用。开源编码工具家族(Cline、Roo、Kilo)基于这个原则:"永远不要限制用户"。因为用户直接看到成本,这些工具也通过允许用户以下列方式降低成本方面领先:
- 将工作分解为许多可以各自高效运行的小任务
- 使用不同的模式,在Kilo中我们有Orchestrator、Architect、Code和Debug模式
- 结合闭源模型进行架构任务(如Sonnet 4)和开源进行编码(Qwen3)
- 在提交之前用AI增强提示
- 使用内存库优化上下文效率
- 启用提示缓存
- 当模型产生幻觉时允许终止运行任务
尽管努力降低成本,我们确实期望它们对重度用户继续增长。
App inference cost will continue to grow to $100k+ a year
我们期望应用程序推理成本快速增长。这由两个发展驱动:更多并行代理和需要更多工作后才能获得人类反馈。
人们今天正在试验并行 AI编码代理,Warp已经向人们提供了。我们期望并行代理成为行业的默认设置,并期待在Kilo代码中尽早而不是晚些时候引入它们。这将大大增加每人类小时的token消耗。
代理也能够在需要人类反馈之前工作更长时间。因为他们工作更多,暂停更少,这也增加了每人类小时的token消耗。
这两种效应的结合将把最高级别的成本推到每年10万美元。在软件上花费那么多钱并非没有先例,来自Cadence或Synopsys的芯片设计许可证已经是每年25万美元。
虽然每年10万美元以上的成本前景很多,但它总是可以更糟。
If $100k inference seems a lot wait until you look at training
对于大多数工程师来说,AI成本比AI训练阶段发生的事情大约小1000倍。这里普通"推理工程师"的成本被AI"训练工程师"的千倍更大影响所相形见绌。我们上面谈到的"推理工程师"可能赚10万美元并使用10万美元来比AI前的工程师提高很多倍生产力。一个顶级的"训练工程师"指导1亿美元的开支,每年赚取1亿美元。顶级前沿实验室在AI训练上花费数十亿,这项计算工作由少数人指导。马克·扎克伯格据称已经向这些人提供了1亿美元到10亿美元的"签约奖金",合同长度未知。推理和训练工程师之间的薪酬差异是因为他们的相对影响。你用少数人训练一个模型,而它被数百万人使用。
感谢阅读Kilo Code博客!