AI界的信仰危机：单靠“规模化”智能增长的假设，正在面临挑战

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

过去四年间，AI领域几乎将"智能来自规模"奉为金科玉律：神经网络越大、数据量越多、计算能力越强，模型就会变得更智能。这一理念催生了ChatGPT等产品，也成为当前AI革命的核心驱动力。然而，随着ChatGPT迎来两周年，这一信仰却与现实碰撞出新的火花：仅凭蛮力式的规模化扩展，似乎不再能持续带动AI能力的提升。

信仰动摇的关键时刻

眼下，全球科技巨头正押下前所未有的赌注。OpenAI正在寻求万亿美元的资金，以推动全球芯片生产；谷歌、Meta、微软和亚马逊也在大幅增加AI计算能力和基础设施的投资。这些举措------预计在2027年前总投资将超1万亿美元------都基于一个共同假设：对变压器模型的规模化扩展能够持续带来稳定的性能增长。

这种"规模化福音"的理论基础，可以追溯到2019年加拿大计算机科学家理查德·萨顿的经典论文《苦涩的教训》。他总结，AI 70年的历史表明，依赖计算力的技术往往优于试图模仿人类知识的方式。换句话说，重现智能并不需要彻底理解它，只需要更大的计算机即可。

一年后，OpenAI的研究证明了萨顿的假设：变压器模型的能力会随着模型规模、数据量和训练计算量的同步扩展而稳定提升，呈现出平滑的幂律曲线。这一发现被GPT-3及其后续模型如GPT-4、Claude 3.5和Gemini等验证，让"智能"从晦涩难懂的概念，变成了一场资源投入的工程问题。

OpenAI的CEO山姆·阿尔特曼更是坚定地宣传这一观点，他在近期发表的文章《智能时代》中简明总结了多年的进展："深度学习起效了，规模化带来了可预测的提升，我们因此加大了资源投入。"他甚至预言，超级智能AI将在未来"几千天内"降临。基于这一信念，OpenAI已成功融资220亿美元。

第一道裂缝

然而，现实情况正变得复杂。

以OpenAI的新一代模型Orion为例：训练初期，Orion的性能与GPT-4相当，符合规模化定律的预期。但随着训练的深入，性能提升却不如预期，尤其在编程能力方面，几乎没有显著进步------即便消耗了远超前代的资源。

类似的情况也出现在其他公司身上。谷歌最新的Gemini模型未达内部预期，Anthropic的下一代Claude模型开发也一再延期。尽管现有基准测试可能信号不足，但曾经的指数式增长如今更像一条"S曲线"，数据、计算和模型规模的每一次增加带来的增益变得愈发有限。

OpenAI前首席科学家苏茨克维尔的最新表态或许最耐人寻味。他对路透社表示："2010年代是规模化的时代，而现在，我们又回到了奇思妙想与探索的时代。每个人都在寻找下一个突破。"这番话，来自曾经最坚定的规模化倡导者，无疑是对行业发展路径的深刻反思。

三面"高墙"

规模化面临的挑战，大致可以分为数据、计算和架构三大类。这些问题共同构成了规模化模式下无法突破的障碍。

数据瓶颈

根据2022年的Chinchilla论文，数据和计算需要成比例增长，才能达到模型性能的最佳平衡。然而，目前可用的高质量人类创作内容已几近耗尽，剩余的大多是低质量、重复性或不适合训练的数据。

为了达到某些目标，例如让AI能自主撰写学术论文，可能需要训练模型消耗的浮点运算量（FLOPs）比现有水平高出100,000倍，而这需要远超当前可用高质量数据的规模。尽管有研究尝试利用"合成数据"（即AI生成的数据）来弥补，但这容易陷入"镜厅效应"：新模型继承甚至放大前代模型的偏见和缺陷。

计算与能源壁垒

规模化对计算力和能源的需求正变得难以承受。当前训练一个顶尖模型的能耗，已经接近小型城市的规模。而未来一代的AI模型，可能需要与国家级电力消耗相当的资源。

此外，计算需求的指数增长也带来了物理层面的限制，例如计算产生的热量和能源需求本身，正逐渐成为"无法逾越的墙"。

架构局限

当前的AI模型在处理"长尾问题"时表现尤为不足。这些问题中的特殊情况多到无法通过训练数据完全覆盖。变压器架构虽然在模式识别上表现卓越，但本质上是基于"下一个词预测"，无法真正理解或推理出更广泛的现实情境。

超越规模：新方向的探索

工程问题的解决在于优化现有技术，而科学问题则需要全新的突破。目前，AI领域的研究正试图跳出变压器架构的限制，例如开发更高效的推理机制或全新架构。

测试时计算：OpenAI的o1模型通过在推理阶段进行复杂推算，实现了极大效率提升。这种方法被认为比现有模型扩展规模的效率高出"100,000倍"。
新架构探索：包括状态空间模型（SSM）和RWKV在内的新架构正得到关注。前者擅长处理长期依赖和连续性数据，后者则显著降低了计算成本。
"世界模型"：一些专家主张，未来的AI需要摆脱文本模型的局限，转向具备因果推理和物理交互能力的"世界模型"。

多元化的未来

正如AI研究者François Chollet所言，过于专注于LLM的规模化，可能实际上让AI迈向通用智能的步伐倒退了5到10年。当前AI领域的单一化研究方向，迫切需要更多元的探索。

ChatGPT的出现让人类重新思考AI的潜力，而下一个转折点，或许将不再依赖于计算能力的简单叠加，而是基于对"智能"本质更深层次的理解。