越使用 AI，越不担忧

模型能力的一种衡量方法

怎么衡量大模型的能力？

现在的方法是使用一个测试集，去计算大模型的分数。它的缺点是，只能用于横向比较，很难衡量进步速度。

最近，一篇论文提出了一种新的衡量方法。

科学家首先计算，人类完成某一项任务需要多少时间。比如，计算 4 + 5 + 7，人类需要2秒，而计算 37 * 52 * 19，可能需要1分钟。

然后，测试大模型能否以50%的成功率完成这项任务。

研究发现，GPT-2 以50%成功率能够完成的任务，时间范围是两秒；Claude 3.7 Sonnet 是50分钟；O3 接近两小时；Opus 4.6 约为12小时。

也就是说，人类需要12小时才能完成的任务，Opus 4.6 的成功概率是50%。

结果就是上图，可以发现，大模型的进化速度在对数坐标下是一根直线。

每7个月，大模型能够以50%成功率完成的任务，时间范围扩大一倍。按照这个趋势，大模型将在2027年至2031年间，以50%的成功率完成人类专家需要一个月才能完成的任务。

如果这篇论文正确，就意味着年底发布的模型，将比年初强一倍。

我用 AI 生成了一个 JavaScript 引擎（英文）

作者用六周时间，生成了一个100%通过 test262 测试集的 JavaScript 引擎，涵盖所有98,426个场景。本文是对这件事的介绍。

解剖 .claude/ 目录（英文）

Claude Code 会生成 .claude/ 子目录，所有 AI 处理的底层数据都放在里面，本文研究这个目录到底有什么。

越使用 AI，越不担忧

因为，我发现 AI 编程只是流程的一部分，我的工作不仅仅是编写代码。

我的真正工作是，找出可以用代码解决的问题，然后解决它们，并验证解决方案是否有效。

AI 最终或许能够完全承担中间的编码部分，并帮助解决第一部分和最后一部分，但无论如何，仍然需要有人去发现问题、定义问题并确认问题已经得到解决。

这就是我的工作的80%内容。

花在 AI 编程的时间越多，对自己的职业生涯的担忧就越少，即使 AI 的编程能力越来越强。

摩尔定律的不可持续性

摩尔定律指的是，大约每两年，芯片上的晶体管数量就会翻一番。

但是，它还有一个伴生效应，很少人提到。那就是，大约每五年，++芯片工厂的建造成本就会翻一番++，而能承担这种成本的芯片公司数量则会减半。

二十五年前，大约有40家公司，可以建造芯片工厂，每个工厂的建造成本约为20亿至40亿美元。如今，只剩下两家或三家芯片公司（数量取决于你对英特尔的乐观程度），可以建造最先进的芯片工厂，建造成本飙升到几百亿美元。

如果按照这种趋势再过10年，芯片工厂的建设成本继续翻倍飙升，也许只有一家公司或根本没有公司，能够负担这样的成本。

目前，芯片的制造工艺已经逼近1纳米，再往下发展，技术壁垒和资金壁垒将同时接近极限。

预计，摩尔定律很快就会失效，未来增长主要在于算力，而不是单块芯片的计算能力。

未来的芯片将会像二手车，行驶速度都差不多，只是新旧差异。甚至觉得，2035年生产的芯片和2065年生产的芯片之间，将几乎没有什么实质性区别。