AI界的信仰危机:单靠“规模化”智能增长的假设,正在面临挑战

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

过去四年间,AI领域几乎将"智能来自规模"奉为金科玉律:神经网络越大、数据量越多、计算能力越强,模型就会变得更智能。这一理念催生了ChatGPT等产品,也成为当前AI革命的核心驱动力。然而,随着ChatGPT迎来两周年,这一信仰却与现实碰撞出新的火花:仅凭蛮力式的规模化扩展,似乎不再能持续带动AI能力的提升。

信仰动摇的关键时刻

眼下,全球科技巨头正押下前所未有的赌注。OpenAI正在寻求万亿美元的资金,以推动全球芯片生产;谷歌、Meta、微软和亚马逊也在大幅增加AI计算能力和基础设施的投资。这些举措------预计在2027年前总投资将超1万亿美元------都基于一个共同假设:对变压器模型的规模化扩展能够持续带来稳定的性能增长。

这种"规模化福音"的理论基础,可以追溯到2019年加拿大计算机科学家理查德·萨顿的经典论文《苦涩的教训》。他总结,AI 70年的历史表明,依赖计算力的技术往往优于试图模仿人类知识的方式。换句话说,重现智能并不需要彻底理解它,只需要更大的计算机即可。

一年后,OpenAI的研究证明了萨顿的假设:变压器模型的能力会随着模型规模、数据量和训练计算量的同步扩展而稳定提升,呈现出平滑的幂律曲线。这一发现被GPT-3及其后续模型如GPT-4、Claude 3.5和Gemini等验证,让"智能"从晦涩难懂的概念,变成了一场资源投入的工程问题。

OpenAI的CEO山姆·阿尔特曼更是坚定地宣传这一观点,他在近期发表的文章《智能时代》中简明总结了多年的进展:"深度学习起效了,规模化带来了可预测的提升,我们因此加大了资源投入。"他甚至预言,超级智能AI将在未来"几千天内"降临。基于这一信念,OpenAI已成功融资220亿美元。

第一道裂缝

然而,现实情况正变得复杂。

以OpenAI的新一代模型Orion为例:训练初期,Orion的性能与GPT-4相当,符合规模化定律的预期。但随着训练的深入,性能提升却不如预期,尤其在编程能力方面,几乎没有显著进步------即便消耗了远超前代的资源。

类似的情况也出现在其他公司身上。谷歌最新的Gemini模型未达内部预期,Anthropic的下一代Claude模型开发也一再延期。尽管现有基准测试可能信号不足,但曾经的指数式增长如今更像一条"S曲线",数据、计算和模型规模的每一次增加带来的增益变得愈发有限。

OpenAI前首席科学家苏茨克维尔的最新表态或许最耐人寻味。他对路透社表示:"2010年代是规模化的时代,而现在,我们又回到了奇思妙想与探索的时代。每个人都在寻找下一个突破。"这番话,来自曾经最坚定的规模化倡导者,无疑是对行业发展路径的深刻反思。

三面"高墙"

规模化面临的挑战,大致可以分为数据、计算和架构三大类。这些问题共同构成了规模化模式下无法突破的障碍。

数据瓶颈

根据2022年的Chinchilla论文,数据和计算需要成比例增长,才能达到模型性能的最佳平衡。然而,目前可用的高质量人类创作内容已几近耗尽,剩余的大多是低质量、重复性或不适合训练的数据。

为了达到某些目标,例如让AI能自主撰写学术论文,可能需要训练模型消耗的浮点运算量(FLOPs)比现有水平高出100,000倍,而这需要远超当前可用高质量数据的规模。尽管有研究尝试利用"合成数据"(即AI生成的数据)来弥补,但这容易陷入"镜厅效应":新模型继承甚至放大前代模型的偏见和缺陷。

计算与能源壁垒

规模化对计算力和能源的需求正变得难以承受。当前训练一个顶尖模型的能耗,已经接近小型城市的规模。而未来一代的AI模型,可能需要与国家级电力消耗相当的资源。

此外,计算需求的指数增长也带来了物理层面的限制,例如计算产生的热量和能源需求本身,正逐渐成为"无法逾越的墙"。

架构局限

当前的AI模型在处理"长尾问题"时表现尤为不足。这些问题中的特殊情况多到无法通过训练数据完全覆盖。变压器架构虽然在模式识别上表现卓越,但本质上是基于"下一个词预测",无法真正理解或推理出更广泛的现实情境。

超越规模:新方向的探索

工程问题的解决在于优化现有技术,而科学问题则需要全新的突破。目前,AI领域的研究正试图跳出变压器架构的限制,例如开发更高效的推理机制或全新架构。

  • 测试时计算:OpenAI的o1模型通过在推理阶段进行复杂推算,实现了极大效率提升。这种方法被认为比现有模型扩展规模的效率高出"100,000倍"。
  • 新架构探索:包括状态空间模型(SSM)和RWKV在内的新架构正得到关注。前者擅长处理长期依赖和连续性数据,后者则显著降低了计算成本。
  • "世界模型":一些专家主张,未来的AI需要摆脱文本模型的局限,转向具备因果推理和物理交互能力的"世界模型"。

多元化的未来

正如AI研究者François Chollet所言,过于专注于LLM的规模化,可能实际上让AI迈向通用智能的步伐倒退了5到10年。当前AI领域的单一化研究方向,迫切需要更多元的探索。

ChatGPT的出现让人类重新思考AI的潜力,而下一个转折点,或许将不再依赖于计算能力的简单叠加,而是基于对"智能"本质更深层次的理解。

相关推荐
正脉科工 CAE仿真1 小时前
抗震计算 | 基于随机振动理论的结构地震响应计算
人工智能
看到我,请让我去学习1 小时前
OpenCV编程- (图像基础处理:噪声、滤波、直方图与边缘检测)
c语言·c++·人工智能·opencv·计算机视觉
码字的字节1 小时前
深度解析Computer-Using Agent:AI如何像人类一样操作计算机
人工智能·computer-using·ai操作计算机·cua
说私域2 小时前
互联网生态下赢家群体的崛起与“开源AI智能名片链动2+1模式S2B2C商城小程序“的赋能效应
人工智能·小程序·开源
董厂长5 小时前
langchain :记忆组件混淆概念澄清 & 创建Conversational ReAct后显示指定 记忆组件
人工智能·深度学习·langchain·llm
莫彩7 小时前
Mapreduce 工业界批式计算经验汇总(下)
大数据·mapreduce
G皮T9 小时前
【人工智能】ChatGPT、DeepSeek-R1、DeepSeek-V3 辨析
人工智能·chatgpt·llm·大语言模型·deepseek·deepseek-v3·deepseek-r1
九年义务漏网鲨鱼9 小时前
【大模型学习 | MINIGPT-4原理】
人工智能·深度学习·学习·语言模型·多模态
元宇宙时间9 小时前
Playfun即将开启大型Web3线上活动,打造沉浸式GameFi体验生态
人工智能·去中心化·区块链
开发者工具分享9 小时前
文本音频违规识别工具排行榜(12选)
人工智能·音视频