先了解一下 高尔顿板,这是个展示中心极限定理的物理装置,这装置比代码更直观。我将大数定律和中心极限定理视作宇宙的根本规则,不禁用它们解释一切。
既然 LLM 本质上是个概率机,而那些涌现出来的神奇效果又被各种矩阵,张量,非线性函数绕晕了头,而我们连自己头脑也同样不了解,再加上程序员看不起哲学,既然一切成了一团迷雾,概率的事还要概率自身来解释,而高尔顿板就是一个现成的概率机,所以用它来可视化概率导致的神奇效果的原理,显然高尚。
说白了,还是 "结构决定概率"。
我对高尔顿板稍加改造,让小球碰钉子时不再 50% 左右随机,而是改变钉子的距离,形状,坡面,角度等,使其左右概率不再 50%,进而改变最终概率分布,然后引申到世界模型和世界观。
我不会亲自手工去做一个这样的物理装置,试错成本太高,暂时只用 Python 模拟,即便如此,由于我不会编程(我也不是一点也不会编程,我稍微会一点编程),只能让 AI 协助完成代码。下面实验所有代码均在 https://github.com/marywangran/Galton-board
在自定义之前,先给一个 geogebra 版本的第三饭实例 https://www.geogebra.org/m/vhrkq3jw,说明这是可行的,并且已经有别人做了:

先 Python 自定义个简单的,将高尔顿板修改成双峰分布:

结果输出如下:

这意味着改变钉板结构就能影响输出概率分布,而 LLM 本质上跟这一回事,神经网络的每一层节点权重影响着最终的输出,这些权重等价于钉子的间距,经过一系列概率运算后,就能得到稳定的输出概率分布。
现在看一个真实的 "预测下一个词的装置",当我输入 "我是" 时,在办公室场合它输出 "经理" 的概率更高,在睿公馆,则输出 "工人" 的概率更高,这一切都是概率算出来的,先看效果:

如上图,小球放入的特定位置表示一个特定输入 token,改变小球放入的位置,就可以改变输入,上图例子而言,输入就是 "我是"。
解释一下为什么模拟多次,每次多个小球下落,因为它本质上是概率,每次的结果理论上都离散不可预测,但大量小球多次下落就呈现稳定分布,这正是大数定律的体现。
下面是办公室场合的模拟:

结果分析如下:

除此之外,还可以增加温度,从而改变输出概率分布的模糊性,或软化或硬化。
只要你理解了经典高尔顿板,就能理解 LLM 无非也就是 "结构决定概率" 的实例,这里面没有神秘的行为,只有概率,而概率是那些钉子的布局决定的。
下面看一下训练的过程,即如何通过改变每一层钉子的间距分布,最终使输出符合目标概率分布。
按照经典 LLM 梯度下降法,过程不外乎:
- 前向传播:模拟小球下落,收集最终分布;
- 损失计算:KL 散度 + 正则化项;
- 反向传播:根据误差调整钉子参数;
- 梯度下降:带动量的参数更新;
目标概率越高的区域,钉子越密集,影响越更大,反之亦然,且可在不同层部署不同的钉子分布,模拟深度网络。最终的目标就是调整钉子的位置分布。
下面是一个训练的可视化过程:

训练结果:

部分过程输出如下:

但既然要物理模拟,也就不必全部照抄 LLM 的梯度下降,更直观的就是把装置倒立,让小球倒着走一遍,这实际上对应着变分推断或贝叶斯逆问题求解的思想。
以下是基于贝叶斯推理的训练实例:

部分输出如下:

高尔顿板的模拟很棒,但真实 LLM 参数规模千亿级,远超钉板模拟的几十个,而 LLM 注意力的全局连接机制也无法在高尔顿板的概率传播中显式体现,也许还没传播到足够远处,小球就已经落到最底层了,显然这并不是 Transformer 的一个同构模拟,但这些都不重要,我只关注概率的本质,而关于这一点,高尔顿板表现了出来。
既然可以轻松用物理方式模拟概率的本质,还能如此契合 LLM 的本意,相似才相容,如果遍地都是,那可认为内核就是。不禁让人觉得世界的本质或许就是概率,本文可以作为前文 世界的本质是概率,没有因果 的续篇。如前文题目,这也是我多年来形成的世界观。
量子力学告诉我们,微观世界本质上是概率性的,薛定谔方程描述的是概率幅的演化,这意味着:
- 宏观确定性只是概率的统计表现,就像气体分子运动是随机的,但宏观上服从热力学定律;
- 自由意志可能是高维概率的选择,我们的 "选择" 可能只是概率云坍缩的结果;
- 因果关系可能是条件概率,A 导致 B,本质是 P(B|A) 很高,仅此而已;
推之,宏观世界的本质也是概率,微观到宏观的过程就是一个大数定律抽样过程,样本越多越宏观,抽出了 "形象",便是 "抽象",概率坍缩到了期望。
在我的世界观中,我们既是高尔顿板中的小球,受概率支配,又是调整钉子的训练者,能改变概率,还是观察结果的记录者,使概率坍缩,在这看来,量子力学就是世界的公设,基于此,我们是在发现世界,还是在训练世界。
就像LLM 通过训练生成文本,宇宙通过演化 "学会" 产生意识。我们均由宇宙这 "大模型" 生成,同时也在生成新的 "文本",这视角下,科学是理解宇宙的训练算法,是调整宇宙的参数,而哲学是探索宇宙的采样策略。
我喜欢两样东西,一个是纯机械装置,一个是坐标系。我的高尔顿板,就是这个宏大隐喻的一个微小但完美的实例,而我的世界观,则将这个高尔顿板延伸到了整个世界坐标系。
推荐一本书,伊藤清《世界是概率的》:

这本书讲的是伊藤清的心路历程,他通过严密测度论,为看似杂乱无章的随机过程,建立了一套堪比牛顿力学,逻辑自洽的演算规则,我目前正在学习这套规则,为了描述我的概率世界。
LLM 表达得很清楚,文本,过往,涌现,涵盖的正是文,史,哲,程序员这帮机械论,符号主义者总看不起文史哲,想到这个,我就越爱文史哲。
浙江温州皮鞋湿,下雨进水不会胖。