越使用 AI,越不担忧

模型能力的一种衡量方法

怎么衡量大模型的能力?

现在的方法是使用一个测试集,去计算大模型的分数。它的缺点是,只能用于横向比较,很难衡量进步速度。

最近,一篇论文提出了一种新的衡量方法。

科学家首先计算,人类完成某一项任务需要多少时间。比如,计算 4 + 5 + 7,人类需要2秒,而计算 37 * 52 * 19,可能需要1分钟。

然后,测试大模型能否以50%的成功率完成这项任务。

研究发现,GPT-2 以50%成功率能够完成的任务,时间范围是两秒;Claude 3.7 Sonnet 是50分钟;O3 接近两小时;Opus 4.6 约为12小时。

也就是说,人类需要12小时才能完成的任务,Opus 4.6 的成功概率是50%。

结果就是上图,可以发现,大模型的进化速度在对数坐标下是一根直线。

每7个月,大模型能够以50%成功率完成的任务,时间范围扩大一倍。按照这个趋势,大模型将在2027年至2031年间,以50%的成功率完成人类专家需要一个月才能完成的任务。

如果这篇论文正确,就意味着年底发布的模型,将比年初强一倍。

我用 AI 生成了一个 JavaScript 引擎(英文)

作者用六周时间,生成了一个100%通过 test262 测试集的 JavaScript 引擎,涵盖所有98,426个场景。本文是对这件事的介绍。

解剖 .claude/ 目录(英文)

Claude Code 会生成 .claude/ 子目录,所有 AI 处理的底层数据都放在里面,本文研究这个目录到底有什么。

越使用 AI,越不担忧

因为,我发现 AI 编程只是流程的一部分,我的工作不仅仅是编写代码。

我的真正工作是,找出可以用代码解决的问题,然后解决它们,并验证解决方案是否有效。

AI 最终或许能够完全承担中间的编码部分,并帮助解决第一部分和最后一部分,但无论如何,仍然需要有人去发现问题、定义问题并确认问题已经得到解决。

这就是我的工作的80%内容。

花在 AI 编程的时间越多,对自己的职业生涯的担忧就越少,即使 AI 的编程能力越来越强。

摩尔定律的不可持续性

摩尔定律指的是,大约每两年,芯片上的晶体管数量就会翻一番。

但是,它还有一个伴生效应,很少人提到。那就是,大约每五年,++芯片工厂的建造成本就会翻一番++,而能承担这种成本的芯片公司数量则会减半。

二十五年前,大约有40家公司,可以建造芯片工厂,每个工厂的建造成本约为20亿至40亿美元。如今,只剩下两家或三家芯片公司(数量取决于你对英特尔的乐观程度),可以建造最先进的芯片工厂,建造成本飙升到几百亿美元。

如果按照这种趋势再过10年,芯片工厂的建设成本继续翻倍飙升,也许只有一家公司或根本没有公司,能够负担这样的成本。

目前,芯片的制造工艺已经逼近1纳米,再往下发展,技术壁垒和资金壁垒将同时接近极限。

预计,摩尔定律很快就会失效,未来增长主要在于算力,而不是单块芯片的计算能力。

未来的芯片将会像二手车,行驶速度都差不多,只是新旧差异。甚至觉得,2035年生产的芯片和2065年生产的芯片之间,将几乎没有什么实质性区别。

相关推荐
前端双越老师2 小时前
为什么现在 RAG 越少越少提及了
人工智能·agent
RFID舜识物联网2 小时前
RFID耐高温标签:汽车喷涂线智能追溯的破局之道
大数据·人工智能·科技·物联网·安全·汽车
ai产品老杨2 小时前
架构实战:基于 GB28181/RTSP 多协议兼容的 AI 视频中台——支持源码交付与边缘异构部署
人工智能·架构·音视频
前端技术2 小时前
华为余承东:鸿蒙终端设备数突破5500万
java·前端·javascript·人工智能·python·华为·harmonyos
xiami_world2 小时前
国内外4大流程图工具深度横评(2026年):从架构、协作、AI能力看选型决策
人工智能·ai·信息可视化·流程图
传说故事2 小时前
【论文阅读】RADAR:通过语义规划与自主因果环境重置的闭环机器人数据生成
论文阅读·人工智能·机器人·具身智能
leafyyuki2 小时前
从零到一落地「智能助手」:一次基于 OpenSpec 的流式对话前端实践
前端·vue.js·人工智能
VBsemi-专注于MOSFET研发定制2 小时前
面向AI管道检测机器人的功率MOSFET选型分析——以高集成度、高可靠电源与驱动系统为例
人工智能·单片机·机器人
liu_zhiyi2 小时前
Andrej Karpathy Skills:AI 智能体编程四项原则 介绍及扩展
人工智能·prompt