AI界的信仰危机:单靠“规模化”智能增长的假设,正在面临挑战

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

过去四年间,AI领域几乎将"智能来自规模"奉为金科玉律:神经网络越大、数据量越多、计算能力越强,模型就会变得更智能。这一理念催生了ChatGPT等产品,也成为当前AI革命的核心驱动力。然而,随着ChatGPT迎来两周年,这一信仰却与现实碰撞出新的火花:仅凭蛮力式的规模化扩展,似乎不再能持续带动AI能力的提升。

信仰动摇的关键时刻

眼下,全球科技巨头正押下前所未有的赌注。OpenAI正在寻求万亿美元的资金,以推动全球芯片生产;谷歌、Meta、微软和亚马逊也在大幅增加AI计算能力和基础设施的投资。这些举措------预计在2027年前总投资将超1万亿美元------都基于一个共同假设:对变压器模型的规模化扩展能够持续带来稳定的性能增长。

这种"规模化福音"的理论基础,可以追溯到2019年加拿大计算机科学家理查德·萨顿的经典论文《苦涩的教训》。他总结,AI 70年的历史表明,依赖计算力的技术往往优于试图模仿人类知识的方式。换句话说,重现智能并不需要彻底理解它,只需要更大的计算机即可。

一年后,OpenAI的研究证明了萨顿的假设:变压器模型的能力会随着模型规模、数据量和训练计算量的同步扩展而稳定提升,呈现出平滑的幂律曲线。这一发现被GPT-3及其后续模型如GPT-4、Claude 3.5和Gemini等验证,让"智能"从晦涩难懂的概念,变成了一场资源投入的工程问题。

OpenAI的CEO山姆·阿尔特曼更是坚定地宣传这一观点,他在近期发表的文章《智能时代》中简明总结了多年的进展:"深度学习起效了,规模化带来了可预测的提升,我们因此加大了资源投入。"他甚至预言,超级智能AI将在未来"几千天内"降临。基于这一信念,OpenAI已成功融资220亿美元。

第一道裂缝

然而,现实情况正变得复杂。

以OpenAI的新一代模型Orion为例:训练初期,Orion的性能与GPT-4相当,符合规模化定律的预期。但随着训练的深入,性能提升却不如预期,尤其在编程能力方面,几乎没有显著进步------即便消耗了远超前代的资源。

类似的情况也出现在其他公司身上。谷歌最新的Gemini模型未达内部预期,Anthropic的下一代Claude模型开发也一再延期。尽管现有基准测试可能信号不足,但曾经的指数式增长如今更像一条"S曲线",数据、计算和模型规模的每一次增加带来的增益变得愈发有限。

OpenAI前首席科学家苏茨克维尔的最新表态或许最耐人寻味。他对路透社表示:"2010年代是规模化的时代,而现在,我们又回到了奇思妙想与探索的时代。每个人都在寻找下一个突破。"这番话,来自曾经最坚定的规模化倡导者,无疑是对行业发展路径的深刻反思。

三面"高墙"

规模化面临的挑战,大致可以分为数据、计算和架构三大类。这些问题共同构成了规模化模式下无法突破的障碍。

数据瓶颈

根据2022年的Chinchilla论文,数据和计算需要成比例增长,才能达到模型性能的最佳平衡。然而,目前可用的高质量人类创作内容已几近耗尽,剩余的大多是低质量、重复性或不适合训练的数据。

为了达到某些目标,例如让AI能自主撰写学术论文,可能需要训练模型消耗的浮点运算量(FLOPs)比现有水平高出100,000倍,而这需要远超当前可用高质量数据的规模。尽管有研究尝试利用"合成数据"(即AI生成的数据)来弥补,但这容易陷入"镜厅效应":新模型继承甚至放大前代模型的偏见和缺陷。

计算与能源壁垒

规模化对计算力和能源的需求正变得难以承受。当前训练一个顶尖模型的能耗,已经接近小型城市的规模。而未来一代的AI模型,可能需要与国家级电力消耗相当的资源。

此外,计算需求的指数增长也带来了物理层面的限制,例如计算产生的热量和能源需求本身,正逐渐成为"无法逾越的墙"。

架构局限

当前的AI模型在处理"长尾问题"时表现尤为不足。这些问题中的特殊情况多到无法通过训练数据完全覆盖。变压器架构虽然在模式识别上表现卓越,但本质上是基于"下一个词预测",无法真正理解或推理出更广泛的现实情境。

超越规模:新方向的探索

工程问题的解决在于优化现有技术,而科学问题则需要全新的突破。目前,AI领域的研究正试图跳出变压器架构的限制,例如开发更高效的推理机制或全新架构。

  • 测试时计算:OpenAI的o1模型通过在推理阶段进行复杂推算,实现了极大效率提升。这种方法被认为比现有模型扩展规模的效率高出"100,000倍"。
  • 新架构探索:包括状态空间模型(SSM)和RWKV在内的新架构正得到关注。前者擅长处理长期依赖和连续性数据,后者则显著降低了计算成本。
  • "世界模型":一些专家主张,未来的AI需要摆脱文本模型的局限,转向具备因果推理和物理交互能力的"世界模型"。

多元化的未来

正如AI研究者François Chollet所言,过于专注于LLM的规模化,可能实际上让AI迈向通用智能的步伐倒退了5到10年。当前AI领域的单一化研究方向,迫切需要更多元的探索。

ChatGPT的出现让人类重新思考AI的潜力,而下一个转折点,或许将不再依赖于计算能力的简单叠加,而是基于对"智能"本质更深层次的理解。

相关推荐
YRr YRr8 分钟前
深度学习Pytorch中的模型保存与加载方法
人工智能·pytorch·深度学习
DOT小文哥17 分钟前
百问FB显示开发图像处理 - JPEG图像处理
图像处理·人工智能·mfc·jpeg
小众AI27 分钟前
Perplexica - AI 驱动的搜索引擎
人工智能·自然语言处理·ai编程
简单风36 分钟前
canal同步数据到clickhouse
大数据
金鸣科技官方QQ39 分钟前
图片怎么转换成excel文件(客户端)
人工智能·深度学习·神经网络·目标检测·机器学习·ocr·excel
雪兽软件42 分钟前
人工智能如何改变你的生活?
人工智能
禾风wyh1 小时前
【机器学习】正向传播与反向传播
人工智能·深度学习·神经网络
Qspace丨轻空间1 小时前
气膜建筑:打造全天候安全作业空间,提升工程建设效率—轻空间
大数据·科技·安全·生活·娱乐
YRr YRr1 小时前
PyTorch:神经网络的基本骨架 nn.Module的使用
人工智能·pytorch·神经网络
Mephisto.java1 小时前
【大数据学习 | Spark-SQL】Spark-SQL编程
大数据·oracle·spark·sqlite·json·database