本文是一种思想上的探索,而不是严格的数学论证。许多类比并不精确,部分表达甚至可能在技术上是不成立的。目的不是给出形式化证明,而是尝试从一个更高的视角理解自回归模型与智能之间的关系。现有数学基础并不坚实,这更像物理学家的工作方式:先提出结构性的猜想,在实践中检验它是否具有解释力,再看是否值得事后补充严密的理论。
关注的起点是"可计算性"的层级变化。低维代数问题可以求精确解。随着复杂度上升,精确表达逐渐消失,只能转向数值逼近。当变量和结构进一步增长,甚至无法保证问题可判定,计算本身成为资源与结构之间的博弈。数学史上多次出现这种转折:不是技巧不够,而是对象本身跨越了某种结构边界。
当维度极高时,精确的点态刻画往往让位于统计结构。此时无法追踪每一个确定解,而是描述整体分布的性质。这种转向在统计物理、随机过程和现代机器学习中都出现过。一个基本直觉是:高维问题在认知上会自然退化为统计问题,而统计结构成为高维可计算性的替代形式。
在概率论中,联合分布可以按链式法则分解:
p(x1,...,xN)=∏t=1Np(xt∣x<t) p(x_1,\ldots,x_N)=\prod_{t=1}^N p(x_t\mid x_{ \lt t}) p(x1,...,xN)=t=1∏Np(xt∣x<t)
这只是一个恒等式,但它提供了一种组织高维结构的方式。整体被拆解为一系列条件结构。每一个条件分布只依赖于已经给定的前缀,而不需要一次性处理整个空间。自回归模型正是沿着这一分解方式构造生成过程。
可以曾尝试将这种分解类比为微积分中的链式法则,借助斯托克斯定理去理解"由局部构造整体"的思想。但这里必须说明:这只是结构层面的类比,而不是严格的对应。自回归并不是边界积分,也不是微分形式的精确等价物。这里表达的是一种方向:在高维空间中,往往无法直接处理整体,只能通过一系列局部条件递归地逼近它。
从几何角度看,可以设想真实数据并不均匀分布在整个序列空间,而是集中在某个低维统计流形上。给定前缀之后,下一步的条件分布相当于这个流形在当前约束下的一个切片。模型训练的过程,就是在大量样本上估计这些局部切片的形状。整个联合分布并不是被一次性"求解",而是在生成过程中逐步构造。
这里的"统计性导数"说法,也只是一种形象表达。条件概率并不是导数,但它确实刻画了在给定历史条件下,概率质量如何沿着某个方向展开。如果将联合分布取对数,链式法则变为加法结构,这种逐层累积更容易与"局部贡献叠加整体"的思想对应。再次强调,这只是思想上的对应,而非数学同构。
在讨论输出层时,可以换一个视角。训练通常被理解为:给定前缀,预测下一个词汇。但如果倒置为"词汇如何在隐藏表示空间中区分不同前缀",问题就转化为几何划分。前缀通过网络映射为隐藏向量 hhh ,每个词汇对应一个向量 wiw_iwi ,概率由 wi⊤hw_i^\top hwi⊤h 决定。在这个意义上,词向量确实像是隐藏空间中划分区域的方向基。但这并不意味着它们真的是"前缀子空间的法向量"。前缀本身并不构成线性子空间,这种说法只是几何直觉的表达。
更重要的观点在于:自回归加注意力只是逼近智能的一种方式。它类似于用定积分逼近面积,是一种可计算方案,而不是本体。扩散模型、能量模型或未来尚未出现的结构,也可能逼近同样的行为分布。模型结构不等于智能本身。
如果从更抽象的角度看,可以把智能理解为一种从历史到行动分布的映射:
F:History→Distribution \mathcal{F}:\text{History}\rightarrow\text{Distribution} F:History→Distribution
这个函数空间是极高维的,甚至可以看作无限维。模型训练的过程,是在可计算的参数子空间中寻找一个可采样的逼近。自回归只是对这一映射的一种分解方式。它并不是唯一的,也未必是最终形式。
因此,可以将当前的大模型理解为:在高维可采样函数空间中的一次工程性探索。它并不证明智能就是条件概率的链式分解,也不意味着智能可以完全还原为函数逼近。它只是说明,在极高维结构中,递归条件分解是一种可行的计算路径。
这篇文章的所有类比,都应被视为试探性的结构猜想。数学上它们尚未形成坚实体系,许多地方可能需要更严格的重述,甚至会被证明不恰当。但如果这些类比能够帮助我们更清晰地理解"从求解到生成"的转向,或者帮助解释为何自回归在实践中有效,那么它们就具有探索价值。
在物理学史上,很多理论最初都是先通过直觉与实验建立,再在数学上逐步补强。也许对智能的理解也会经历类似过程。现在所做的,也是在高维空间的迷雾中试探路径。是否成立,不完全取决于形式推导的完美程度,而取决于它是否能在实践中持续产生解释力与预测力。
如果未来出现完全不同的模型结构,同样能够逼近智能行为,那将进一步说明:我们面对的不是某一种算法,而是一类可采样、可逼近的高维结构。自回归只是其中一条已被验证的道路,而不是终点。