寻找更深刻规律：大语言模型创造力的真正边界

2026-06-26

真正的创造，不是得到新的答案

关于大语言模型是否真正具备推理能力，近年来一直存在激烈争论。随着OpenAI o1、o3以及DeepSeek R1等推理模型不断出现，越来越多实验表明，大语言模型已经能够完成复杂的数学推导、程序设计、多步规划以及自我修正，因此将它们简单视为"高级自动补全"已经越来越难以成立。然而，这场争论也逐渐暴露出一个更深层的问题：我们究竟应该如何理解创造？

如果创造只是不断产生新的答案，那么今天的大语言模型已经展现出令人惊讶的能力；如果创造意味着在已有知识之间建立新的联系，它们同样已经能够完成大量组合性创新。但科学史上的真正创造，从来不仅仅意味着得到新的答案，而意味着发现能够统一更多现象、更深层次的规律。牛顿统一了天体运动与地面运动，麦克斯韦统一了电与磁，诺特统一了对称性与守恒律，现代数学不断将看似无关的对象纳入同一个理论框架。真正伟大的理论，并不是知识越来越多，而是越来越多知识在更深刻的规律下获得统一。

因此，讨论大语言模型是否具有创造力，真正需要回答的问题并不是它会不会推理，而是它是否能够不断发现比现有理论更深刻的规律，并据此重新组织整个知识体系。

大语言模型已经跨过了"不会推理"的阶段

过去几年，大量研究已经证明，大语言模型确实具备一种功能性的推理能力。面对数学证明、程序设计或复杂问答，它们能够维护中间状态、尝试不同解法、发现错误后重新规划求解路径，这些行为已经不能简单理解为逐词预测。与此同时，人类与模型在许多日常因果推理任务中甚至表现出高度一致的错误模式，这说明模型内部已经形成了一定程度的结构化计算，而不仅仅是在机械地复现训练语料。

然而，这种能力几乎全部发生在既有规则之内。模型能够在已有规则允许的空间中进行高效搜索，却很少主动修改规则，更难以发现支撑不同规则体系的共同结构。近年来关于规则泛化的研究也发现，大语言模型可以学习新的规则，并能够在特定规则集内进行推理；但一旦更换规则组合，其性能便迅速下降。问题并不在于模型不会执行规则，而在于它缺乏主动发现更深层规律、重新组织规则体系的能力。

因此，今天关于"模仿还是推理"的争论已经不再是问题的核心。真正值得讨论的是：为什么一个已经能够推理的系统，仍然难以像数学家和科学家那样不断产生新的理论？

预测学习的三重边界

第一重边界来自信息。

很多人认为，这种局限只是因为当前模型的目标函数设计得不够好，只要未来设计新的训练目标，模型自然能够完成规则创新。然而，更深层的问题并不在于目标函数，而在于预测学习的信息来源。Transformer学习的是训练数据中的统计结构，它能够压缩已有信息，却无法凭空获得训练数据之外的新信息。如果一种新的理论尚未被任何人发现，它便不会出现在训练语料之中；既然不存在任何统计信号，模型也就无从预测这种理论。这里并不是目标函数"没有要求"模型这样做，而是预测本身根本没有可以利用的信息。

不过，新信息并不仅仅来自现实世界。经验科学中的新知识通常来自实验不断提供新的观测事实，而纯数学中的重大突破，则常常来自形式系统内部不断累积的逻辑张力。集合论悖论推动了公理化集合论的发展，希尔伯特计划的失败催生了可计算性理论，这些突破并非来自新的实验，而是来自体系内部出现的矛盾、证明失败以及不完备性所形成的新约束。无论来自现实世界还是形式系统，本质上都意味着预测系统之外出现了新的信息来源。

第二重边界来自逻辑。

大语言模型本质上学习的是条件概率分布，它始终在估计下一个token出现的概率。然而，概率并不能替代逻辑。数学证明讨论的是命题是否必然成立，而不是它成立的概率有多高。即使一个命题的概率无限接近于1，它仍然不能等同于严格证明。证明结束意味着逻辑上的必然，而概率模型始终只能不断逼近某个未知分布，并不存在"已经证明最优"这一状态。因此，大语言模型能够模拟推理过程，却无法仅凭概率学习建立真正意义上的逻辑必然性。

第三重边界来自表示。

更深刻的问题在于，不能表达，并不意味着不存在。数学的发展史反复证明，许多对象在被正式定义之前就已经以某种方式存在于理论之中。负数、复数、超越数乃至现代数学中的许多抽象对象，都曾长期处于"无法自然表达"的状态。超越数不能表示为任何整数系数多项式的根，却真实存在，而且几乎所有实数都是超越数。这说明，表达能力本身并不是存在性的边界。真正困难的，不是预测新的表达，而是建立一种新的表示，使原本无法统一的对象进入同一个理论框架。

更深刻的规律如何产生

科学的发展，并不是不断增加规律，而是不断发现规律之间更深层的不变量。

数学的发展几乎是一部不断扩展表示方式的历史。从自然数到整数，从有理数到实数，再到复数，每一步都不是简单增加新的对象，而是在保持已有理论相容性的前提下，建立一种能够统一更多对象的新表示。欧拉提出复数指数，并不是一次大胆的猜测，而是在指数运算律、解析函数、微积分以及三角函数之间越来越多约束共同作用下形成的自然结果。为了同时保持这些约束成立，数学最终只能走向复数指数这一更深层的统一。

物理的发展同样如此。牛顿总结了运动规律，哈密顿重新组织了运动的表示方式，诺特进一步揭示了守恒量与对称性的统一关系。每一次理论革命都不是简单增加新的公式，而是在越来越多约束无法继续被旧理论统一之后，引入一种新的表示，使原本彼此独立的规律成为同一个结构的不同表现。不变量并不是某一条具体规律，而是跨越众多规律之后仍然保持稳定的深层结构。

因此，真正推动科学发展的，并不是不断压缩已有知识，而是在越来越多约束不断积累之后，不断寻找能够统一这些约束的新表示。当新的表示建立之后，更深刻的规律便自然显现出来。

创造是发现更深刻的规律

近年来，人工智能领域越来越多地使用最小描述长度、世界模型以及信息压缩来解释智能，认为智能的本质在于不断寻找更短、更简单的理论。然而，科学史表明，真正重大的理论突破，很少表现为文字、公式或者程序长度的简单缩短，而更多表现为表示方式的改变。

哈密顿力学并没有减少物理公式，而是将运动重新表示为相空间上的演化；诺特定理并没有减少数学对象，而是在对称性的表示下统一了各种守恒量；群论、范畴论乃至现代几何的发展，也都不是不断缩短描述，而是不断寻找新的数学语言，使原本彼此独立的对象在新的表示中成为同一个结构。从形式上看，理论甚至变得更加复杂；但从结构上看，整个知识体系却获得了更高层次的统一。

因此，科学创造真正优化的对象，并不是描述长度，而是规律的组织方式。新的理论之所以伟大，并不是因为它更短，而是因为它能够用一种新的表示，将更多规律纳入同一个不变量之下。压缩往往只是这种统一带来的结果，而不是推动创造的原因。

这也意味着，未来人工智能的发展方向，并不仅仅是构建更大的语言模型，更不是简单接入更多工具、浏览更多网页或者调用更多API。如果所谓"交互"只是扩大模型能够访问的数据范围，本质上仍然是在扩充训练语料，而没有突破预测学习的边界。真正重要的是让智能体持续面对新的约束：实验可以失败，证明可以中断，程序可以崩溃，形式系统可以暴露矛盾。正是在这些新的约束不断积累之后，旧的表示方式逐渐失效，新的表示方式才有出现的必要。

或许，这正是当前大语言模型创造力真正的边界。今天的大语言模型已经能够在既有规律之内进行复杂推理，也能够在已有知识之间建立新的组合关系，但距离真正意义上的创造，仍然缺少主动改变知识表示方式、发现更深层不变量，并据此建立新理论的能力。科学的发展，从来不是不断寻找更短的描述，而是不断寻找更深刻的规律；而规律真正变得深刻，并不是因为它们被预测出来，而是因为它们能够在新的表示下，将越来越多原本孤立的知识统一为同一个世界。