模型能力的一种衡量方法
怎么衡量大模型的能力?
现在的方法是使用一个测试集,去计算大模型的分数。它的缺点是,只能用于横向比较,很难衡量进步速度。
最近,一篇论文提出了一种新的衡量方法。
科学家首先计算,人类完成某一项任务需要多少时间。比如,计算 4 + 5 + 7,人类需要2秒,而计算 37 * 52 * 19,可能需要1分钟。
然后,测试大模型能否以50%的成功率完成这项任务。
研究发现,GPT-2 以50%成功率能够完成的任务,时间范围是两秒;Claude 3.7 Sonnet 是50分钟;O3 接近两小时;Opus 4.6 约为12小时。
也就是说,人类需要12小时才能完成的任务,Opus 4.6 的成功概率是50%。

结果就是上图,可以发现,大模型的进化速度在对数坐标下是一根直线。
每7个月,大模型能够以50%成功率完成的任务,时间范围扩大一倍。按照这个趋势,大模型将在2027年至2031年间,以50%的成功率完成人类专家需要一个月才能完成的任务。
如果这篇论文正确,就意味着年底发布的模型,将比年初强一倍。
我用 AI 生成了一个 JavaScript 引擎(英文)
作者用六周时间,生成了一个100%通过 test262 测试集的 JavaScript 引擎,涵盖所有98,426个场景。本文是对这件事的介绍。
解剖 .claude/ 目录(英文)

Claude Code 会生成 .claude/ 子目录,所有 AI 处理的底层数据都放在里面,本文研究这个目录到底有什么。
越使用 AI,越不担忧
因为,我发现 AI 编程只是流程的一部分,我的工作不仅仅是编写代码。
我的真正工作是,找出可以用代码解决的问题,然后解决它们,并验证解决方案是否有效。
AI 最终或许能够完全承担中间的编码部分,并帮助解决第一部分和最后一部分,但无论如何,仍然需要有人去发现问题、定义问题并确认问题已经得到解决。
这就是我的工作的80%内容。
花在 AI 编程的时间越多,对自己的职业生涯的担忧就越少,即使 AI 的编程能力越来越强。
摩尔定律的不可持续性
摩尔定律指的是,大约每两年,芯片上的晶体管数量就会翻一番。
但是,它还有一个伴生效应,很少人提到。那就是,大约每五年,++芯片工厂的建造成本就会翻一番++,而能承担这种成本的芯片公司数量则会减半。
二十五年前,大约有40家公司,可以建造芯片工厂,每个工厂的建造成本约为20亿至40亿美元。如今,只剩下两家或三家芯片公司(数量取决于你对英特尔的乐观程度),可以建造最先进的芯片工厂,建造成本飙升到几百亿美元。
如果按照这种趋势再过10年,芯片工厂的建设成本继续翻倍飙升,也许只有一家公司或根本没有公司,能够负担这样的成本。
目前,芯片的制造工艺已经逼近1纳米,再往下发展,技术壁垒和资金壁垒将同时接近极限。
预计,摩尔定律很快就会失效,未来增长主要在于算力,而不是单块芯片的计算能力。
未来的芯片将会像二手车,行驶速度都差不多,只是新旧差异。甚至觉得,2035年生产的芯片和2065年生产的芯片之间,将几乎没有什么实质性区别。