熵的本质 | 从物理起源到信息与复杂系统

注:本文为 "熵的本质" 相关合辑。

略作重排,如有内容异常,请看原文。


熵是什么 1:第一章、熵的物理起源

原创 talentmonkey 2026 年 1 月 14 日 12:31 上海

一个物理学的概念,从热力学开始,到统计力学,渗入信息学,然后是生物,最后甚至在经济、政治、文化等各领域都找到了自己的生态位。

这就是熵。

熵是什么?已经有过很多种大相径庭的定义了。每个人都有一种模糊的感觉:有序的东西随着时间的演化,最终就变得无序了------这就是熵增;而有些系统借助外部的能量,又自发的精巧起来,它们具备了熵减的能力。

为什么会这样的众说纷纭,有时又是自相矛盾。

实际上,熵的概念并不复杂,但是被极大地混淆了。

从本文开始的一系列文章势必要改变这一局面,对熵的来历、性质、作用等做一个彻底的探查。同时,我们也将引入诸多的开放性问题,理清这门学科未来的发展方向。

一、熵的物理起源

1、守恒、约束、相互作用规则......

熵来自于物理,在人们研究蒸汽机做功问题的理论化,即卡诺循环时,不断发展和精细化了这一概念。这不是一个历史课,所以我点到即止,后面直接从高观点入手。

实际上所有的理论都在研究限制下的性质。比如数学中高维的 Stokes 公式,就是边界和内部的守恒律。

而熵则是守恒、约束、相互作用规则等限制下的性质。

物质的能量是一种守恒量,物质存在的有限空间是一组约束,物质的相互作用又必须满足一套规则,或者说物理定律。比如说热力学和统计物理传统研究的理想气体,是在一个方盒子(约束)内,总能量(守恒),并且满足弹性碰撞(即动能、动量都守恒)的系统。基于这样的系统,我们才有了温度、压强、熵......等不同的概念。

我们完全可以广义化这组概念!能量只是物质(或研究目标)状态或属性中的一种。在讨论等离子体时,电荷也是守恒的。未来的物理,研究目标可能有更多的属性,也完全可以有更多守恒量。约束和相互作用也一样,可以把研究目标放在任意的约束条件下、让所研究的目标发生不同的相互作用,我们都可以研究这个系统广义的温度、压强、熵......等以及更多的衍生概念。

让人很意外的是:各种棋类的不同点仅在于它们有不同的守恒、约束和相互作用。棋子的移动是在棋盘空间中的移动,它不会凭空消失,也不能随意跳跃,但可以因为和别的棋子的相互作用而被消灭或生成。我们真的也可以研究一盘棋的温度、压强、熵......

需要补充的一点是:从最抽象的角度来看,守恒、约束、相互作用都是限制,对它们进行分类只是操作上便利的考虑。比如从诺特定理我们知道:动量守恒对应于空间平移对称。动量守恒因此既是守恒,也可以看作是约束或者相互作用规范,都是特定研究系统中不可违抗的性质。

现在只提到守恒、约束、相互作用这些性质。以后,我们会增加分类的!

把视角拉回物理。

如果有速度分布狭窄或被区间限制的自由粒子系统,比如能量被势垒或量子化限制住了。或者有不同的相互作用,比如不同的能量及动量交换函数。那这个系统自然有不同的熵和变化可能。

传统系统中能量是单边限制的,有最小能量,并可以通过不断注入能量直到系统能量无穷大。前面提到过,能量只是属性的一种。也可以有这样的系统,它的属性会限制在上下限内。比如一块磁铁,最低能量状态是所有单元与外场方向相同,而最高能量状态是所有单元与外场方向相反。能量(或者说属性)作为可调参数的存在,使得目标系统的整体状态有了极大丰富的可能性。我们的研究目标和这个世界都多彩了起来。再强调一遍:如果作为把能量广义化后的属性更多,系统也将更复杂,更多彩,更值得研究。

有广义的能量,没有广义的势垒和量子化行不行?如果粒子数有限,能量连续,在当前的限制和相互作用规则下,系统将会很快完全热化,所有粒子都集中于最可几分布。

只有势垒和量子化导致的能隙等的存在,才能保证粒子状态的散布,也才能保证有丰富多彩的宇宙。这也是对我们这个世界为什么是量子化的人择原理的、哲学的解释!

我们将会看到,L 约束和演化规则等的主要作用也是,让系统不容易越过势垒,进入别的区域。即使相空间某些维度位置接近,也可能不能直接跳过去。以侧方停车示例,车只能从某些有限的位置和方向才能倒进去,虽然停在所有的位置和方向都是不违背物理限制的。也可比较 LLE 算法描述下的瑞士卷数据,位置近邻未必流形近邻。

于是我们知道了:约束越多,越可能避免状态混同。后面,我们还将看到:状态混同的宇宙,是不会有复杂层次结构的。当然,即使有约束,空间和时间维度的粗粒化和跳线等,也可以达到跨时空的效果。它们将是对相空间可分解性的平衡力量。

2、L 约束

数学上用于描述函数局域变化率的指标称为 Lipschitz 常数,而满足这个条件的函数称为 Lipschitz 连续。

在式∣f(x,y1)-f(x,y2)∣≤L∣y1-y2∣中,L 即为 L 常数。我们可以简称 Lipschitz 连续的函数满足 L 约束。实际上,在机器学习模型的训练中,考虑到训练的稳定性,L 约束一般被直接作为限制条件用于控制更新步长的幅度。

没有偏题,我们说的正是物理。物理所研究的物质,其组织形式是这样的:它们互相之间位置近邻;它们位置的变化------也近邻。我们的世界是有速度限制的,光速不可逾越,没有任何物质可以突然从一处消失并在另一处出现。不失一般性,我们将这种位置近邻、位置变化也近邻的性质,在物理的场景下也称为 L 约束。

为了把事情说得更明白一些,我在此先建立一个棋盘宇宙 A:一个棋盘,比如就是 8×8 的横竖格点。有 32 颗白棋和 32 颗黑棋。一般来说我们认为所有 32 颗白棋都在左侧四列,另外 32 颗黑棋都在右侧的分布情况是一种有序。而把所有棋子随机散部在棋盘格点上时是某种无序。

设想,我们现在又有一个棋盘宇宙 B,并且有一个先将 A 中的位置随机打乱然后固定不变的查找表 T。棋盘宇宙 A 中的每个格点都可以通过查找表 T 对应到 B 中的唯一一个格点。在 B 中的棋子排布到底是有序还是无序?要做这个判断,我们需要确定两件事:

①、作为这个映射的源,A 中的棋子排布是否有序;

②、查找表 T 是否附带的保持了 A 中的邻域关系。

即使 A 中相邻的两个格点,被 T 映射到 B 后不再具体的相邻了,但我们在 T 中记录了它们曾经邻域的关系,那就可以认为它们还维持了这层关系,我们就可以说 B 和 A 是同构的。于是我们对 A 和 B 将会有相同的有序与否的判断。反过来,如果 T 没有附带这样曾经的邻域信息,同构不成立,有序与否,在映射后也就没法保持了。新系统 B 的有序与否依赖和原系统 A 的同构关系。

所以并不是重排序关系,而是邻域关系或是更广义的关系,才是评价有序与否,及状态间是否接近必须的。即使对映射结果做不同粗细粒度的观察,这一点都是重要的。这正是 L 约束:保持近邻关系后,交换 A 中相邻的两个棋子,等同于交换同构的 B 中对应的两个棋子。

从传统的评价有序和评估熵的外部视角,如果我们只看到 B 中的棋子是乱序的,而没有注意到不同格点之间保持了邻域关系,那我们就会得出 B 中的棋子是无序的、熵是大的这样的结论。如果我们交换了 A 中相邻两个格点的棋子,也有可能得出 A 中熵变化小,而 B 中有可能熵变化大的结论。

一个不能保持邻域关系的、任意的、仅位置对应的查找表,源空间粒子移动就会破坏目标空间的 L 约束。所以熵必然也和 L 约束有关。在连续空间中才有的速度和加速度,在查找表(或函数)变化空间中的对应物也是被源空间限制住的。

于是粒子位置、有序性和熵都应该是渐变的。我们因此得到了一个推论:传统熵是外部视角的,一个合适的熵(下文称合理熵)应该是内蕴的。就像微分几何,内蕴的视角才真正揭示出了结构的本质:比如三维空间中看到一张卷曲的纸,从内部视角看实际上仍是平直空间。

在热统(热力学和统计物理)的研究中容纳自由粒子的空间一般是一个长方体。相比于其中理想气体粒子的尺度,粒子在这样空间中的运动能在大范围、多层次保持 L 约束,也因此是近似我们后文会提到的等概率和近各态历经假设的。于是在这样的限制下传统熵和合理熵是一致的。但是在约束空间足够复杂以后,外部看起来的传统熵,就未必是一个合理的指标了。我们真正需要的是合理熵。当然,如果复杂空间能通过邻域保持下的某种压缩或变换,逼近一个更平直的传统空间,这个传统空间上的传统熵,是会接近复杂空间下应该有的合理熵的。

以上静态环境下的讨论可以在动态时重新来一遍。在新重排和被保持的邻域关系下,伊辛模型、动力系统及演化、熵和信息等都值得重新定义。传统熵是在平直空间下定义的。前述合理熵要求满足空间的 L 约束,我们完全可以将这个约束扩展到时间。时间的 L 约束,对应了时间的单向流动,时间跳跃不被允许。至少在物理上,我们能研究的局部子系统是从某个点开始,在 L 约束的限制下,外扩有限的时间和空间后的区域。

还可以得到几个推论:

①、所谓因果关系,就是时间方向上的 L 约束。

②、归纳法是相信时空作为一个整体符合 L 约束。而反对归纳法,则是觉得未来的时间可能和历史不连续。作为时空中的个体是没法分辨的,甚至没法知道当前时刻之前是否真实,这就是休谟问题。不过如果你相信时空都是符合 L 约束的,那么归纳法就不是问题。

我们没有看到打碎的鸡蛋复原,也可能因为,我们的时间和鸡蛋打碎的时间同方向,实际上鸡蛋可以复原,即从世界以外的视角来看倒转是可能的。而内蕴的看,是时空及其中物质和关系的 L 约束限制了我们。有相互作用才会有演化,只有单体不存在演化。

③、集合论是空间性的,时间是空间实体的演变。时间和空间都可以是离散的集合性的,也可以是连续渐变的。但似乎说拓扑性更好,拓扑上的状态之间正需要满足 L 约束的结构。

排中律等公理,也有物理背景。L 约束和排中律有显著的关系。L 约束使得实体不能平白无故的出现、消失或远程联系,这样系统局部是稳定的,相互作用也是稳定的。排中律可以看作某种对自身的 L 约束。拓扑相连的实体属于一类,有内外之分的才会有排中律。

我们可以想象无数个魔法世界,爱丽丝漫游的奇境,就是一个混乱的,不满足 L 约束的世界。杰恩斯在概率论沉思录第五章也讨论过特异功能存在的概率。这么看来我们所存在的这个现实世界可能真的有某些特殊性。就像非欧几何中最特殊的那个是欧式空间一样,我们的世界也属于一个最特别的世界:满足 L 约束的世界。

在机器学习中也有没有免费的午餐定理。即,任何模型都在某个场景下是有用的。但,这个世界只有某些模型是有效的。有效的模型处理各层次符合 L 约束的世界产生的数据,时间的 L 约束又导致模型各层功能渐变。这是一个深刻的命题。

在后文,包括研究相空间时,我们还会一再的回到本小节所讨论的话题。

记住 L 约束。

3、物理的现实

让我们更物理一些,研究一下位置、速度、相互作用等会怎么影响一个系统。以及这些系统会有哪些性质。

在蒙昧时代,理想气体只有偶然的两两碰撞,统计物理最早期的研究建立于其上。H 定理从可逆微观机制推导出了热力学第二定律。人们开始研究平衡态和非平衡态。这些概念也渗入了信息、模型、生物、经济等越来越多的领域。

之后固体物理等因之有更复杂和密集的粒子间关系,平均场近似等越来越复杂的工具开始被逐渐使用。甚至硬度,作为一种涌现的概念,也可以认为来自于 L 约束,只是此时约束更严格,分子几乎不能移动。

在后面我们还会正式定义非平衡态:即相空间所有可能位置中某个可以加更多约束的位置,或者相空间中那一块我们最不无知的区域。

以理想气体为例,让我们看看关于一个孤立系统,只知道部分信息,其后续的演化如何?不失一般性,我们此处限制讨论的系统都处于传统空间中,空间没有复杂的结构。

① 有位置、无速度、无相互作用

假设我们可以随时观察到所有粒子的位置,而无法知道其速度,粒子间也不会通过碰撞等相互作用交换速度等性质。从某个(位置的)非平衡态开始,即所有粒子集中在一个较大空间中的一小块区域。因为对速度的无知,我们可以假设各种速度的可能性。这将导致系统有不同的演化方向,并且这些方向有更大的概率趋向于(位置的)平衡态(即粒子位置在大空间分散开来),更小的概率维持在(位置的)非平衡态(即粒子所在区域保持不变或收缩)。这个意义上来看,位置的传统熵是熵增的。从演变过程中的每一个时间点开始,观察一下所有粒子的位置,并得到其传统熵,其后续另一个时间点下所有可能位置分布的传统熵的平均,都是不减的。

我们分析了对位置确知、速度无知的情况。下面也会分析速度确知,位置无知的情况。甚至于对速度无知,可以继续分解成对速度的方向和大小的无知。每种情况的演化都可以导向传统熵的不减。

需要注意的一点是,从统计的角度,传统熵不减,是因为统计是丢掉信息的过程。但每个单独的世界,后续演化是不一样的,只看单独的世界,这个演化或计算,是可能会产生新信息的。在第二章相空间,一组更高的观点下,我们将会看到本章提到的一些结论将会自然而然的、优雅的出现:比如无知和对多个可能系统的统计就对应等概率;又比如演化是否产生信息,来自于我们是从全时空还是时间片的角度看待整个系统,等等。

把话题拉回,传统的理想气体系统有温度也有熵。但是我们刚才研究的系统,只确知位置,对速度无知,无速度就无温度。所以我们研究的是有熵而无温度的系统。不要惊讶,我们还会搞出其他一些奇怪的系统。

② 有位置、有总能量、无速度、无相互作用

相比上一种场景,我们多知道了系统的总能量,且能量守恒。这是一种对系统所有粒子速度分布的约束。但是具体的各粒子的动力学信息我们还是不知道的。位置分布仍然会散开,但速度受到了更多的限制。多了一份约束,相比前者,传统熵增加的可能性被进一步压制了。

③ 无位置、有速度、无相互作用

还是在孤立的理想气体系统,如果我们确知所有粒子的速度,而对它们的位置一无所知,在每次打开系统观察一下所有粒子的位置,计算一下传统熵,然后遗忘掉它们的位置。那么我们也将会发现,传统熵的平均也是不减的。

④ 无位置、有能量、有相互作用

考虑到理想气体中速度和能量的对应关系,只有速度、没有位置时,就是能级系统。此时如果有相互作用即粒子间的碰撞就会让粒子交换速度和能量(动量守恒和能量守恒),速度或能量分布可以变化。如果没有相互作用就相当于能级之间有不容易越过的势垒。

理想气体的粒子是有位置的。我们上面说的有无都是"确知"和"无知"。于是即使对粒子的位置无知,它们还是可以有位置的,也可以有扩散的性质。

可以进一步设想设想只有速度和相互作用,甚至没有位置、没有扩散的系统。我们就得到了伊辛模型。

就像速度和扩散受到 L 约束一样,碰撞这样的相互作用也普遍受到某种近邻相互作用优先的限制。这是对 L 约束的进一步推广。

⑤ 位置、速度、相互作用及其他

一般的物理系统中,粒子(或研究目标)最明显的性质就是时间和空间的关系,即位置(空间之间的关系)和速度(空间和时间的关系)。所以理想气体研究的就是这样的系统。

确知位置、速度随机;确知位置和总能量、速度随机;位置随机,确知速度;位置随机、确知能量和相互作用......我们可以得到一系列不同的系统,这个列表甚至可以随着我们对系统的信息知道的越来越多(或者说约束的不断增加)而不断加长。像不像实数的位数?!

每一种组合,都可以算传统熵。不断增加要考虑的信息(或约束),传统熵和自由能等的计算就丰富了起来。

知道了不同信息的传统熵,还是同一个熵吗?就像不同国家有不同的货币,它们可以互相兑换吗?可以的,不同场景下计算出来的传统熵可以兑换。不同属性比如位置、速度和能量对于计算熵,会有某种对偶的性质。比如能量和位置都影响分布状态,能量经常性的有某种单边(最小能量)或双边(最大和最小能量)状态限制,位置有空间性的限制。它们因此也都影响运动,并被运动影响。类似的组合会有很多组对偶。注意到"时间"也有单边的限制,这甚至让我们想到了 wick 转动的神奇。

我们将在第二章相空间发现熵其实就是相空间或更确切的说演化轨道大小的表征。我们也将在第三章认识世界中进一步了解最大熵和时空互换的奥秘,不同属性之间甚至有某种类似测不准的规律。

⑥ 扩展层次

前面我们对粒子间关系的信息认识变多了,但粒子本身还是全同的。这个粒子和那个粒子没有什么不一样,但是如果不一样呢?

如果是不同物质的粒子混合,就要考虑,每类物质一直向更细或更粗粒度能做怎样的拆分和组合。即便同种物质,某些部分连成了不同大小的组分,也会有类似的问题。这和物质的相变也息息相关了。宇宙中只已知少量的夸克,一百多种元素,但已经组合出了无数的奇观。难以想象只有一种粒子的世界会多么无趣。在第二章我们会讨论粗粒化,第三章认识世界、第四章演化与生成以及第五章层次化等后续章节我们将继续展开这个话题。

如果有更少的 L 约束限制,即更宽泛的邻域限制和速度变化可能性,系统就会看起来像是具备略微的瞬移可能性。宇宙和我们前面的分析都杜绝瞬移这种现象,但并不是说这完全不可能。如果我们把系统看作某种空间或时间的粗粒化或量子化,就可以逼近瞬移的性质。

L 约束的多少、演化规则及损失函数等共同作用影响系统。在对系统做粗粒化后,L 约束等也将可以扩展到复杂的结构,比如空间和时间维度上局部的或多层次的限制。就像我们前面所说,守恒、约束、相互作用规则等都是对系统的限制,后文当然还会继续扩展这个限制的集合,但无论如何,粗粒化后,它们都将会有丰富和复杂的层次产生。

让我再举一个小例子:L 约束比如相互作用优先发生在近邻相关粒子之间。但超导体中作为费米子的两个电子形成 Cooper 对后,通过交换声子形成远程配对和长程关联,共同表现出玻色子的行为。这就是高层的 L 约束。我们在第五章层次化以及跳线等条目会专门研究这个问题。

⑦ 自然的综合函数

请问你有没有想过为什么是温度、压强在物理研究的早期就进入了人们的视野,而不是其他量?因为,这些量是自然(界)的、自然(而然)的综合函数。

温度、压强等应该是"最自然"的综合函数。其他对粒子分布进行估值和分类的函数都不如它们自然。甚至可能按自然程度,对所有可能的函数进行一个排序。让我们来做一些理论分析和证明。

首先,温度、压强等宏观量,是从能量和动量守恒的限制中涌现出来的。根据诺特定理,能量守恒对应了时间对称,动量是空间对称。(当然的,后面我们会提到,高层对称也完全可以类似的有高层的诺特定理)。

并且压强也可以看成时间相关量,只不过相比于温度,它们两者一个是平面量,一个是空间量,因此前者的时间影响被缩小了,而后者达到所谓平衡态的弛豫时间要更久。甚至从微观的、量子的角度考虑,任何物理量都有时间性,只不过被影响的涨落幅度在空间和时间不一样罢了。

其次,如果可以知道逐渐增多的随机的不同粒子的位置和速度,对于某个具体的粒子的状态,我们能知道多少?如果能获得相同的信息量,我们应该优先获取哪些信息才是最优的?当然这和最优定义是相关的。

比如一个合适的最优目标就是粒子:在哪、什么时间、怎么动,这恰好对应了位置和速度。

需知,理想情况下我们可以直接得到任意微观和宏观量,而在真实世界中则需要借助其他仪器间接得到,那么对上面问题的回答就不太一样了。物理上如果我们获得了目标粒子和周边其他粒子越来越多和越来越精确的相互作用信息,我们就自然的得到了平面的时间均值"压强"和空间的时间均值"温度"。

因为,粒子的全同性,使得宏观态只能在某些方向上进行统计。比如我们不能统计,"某个"粒子处于某状态下、其他粒子随机,的概率。而只能统计多少个粒子处于某状态的概率。在第 7 节我们也将提到,对于时空和其中的个体及相互作用,我们都只有有限的认识。我们的测量,也只能优先测量宏观值。

当前选择这样的观察视角和测量方式,也来自于时空的 L 约束,是特定计算和测量能力下和作为观察者的人相匹配的最简单的约束。

于是从最优的定义出发,我们回到了对自然的综合函数,即对温度、压强等的测量需求。而改变最优定义,很可能反而需要其他宏观指标。

然后,压强、温度等这种宏观可测量指标,本身也是在用测量仪器的宏观性来测量被测物的宏观性。这就涉及了测量仪器可以反映哪些属性,有没有普遍意义的微观属性测量仪器,或其他宏观性测量仪器等问题。就像我们刚做的分析,宏观仪器需要更多时间和空间才能测量微观。

L 约束,以及只有大系统才能操作微小粒子或短时间,像是一种守恒。希望你想到了不确定性原理(或说测不准)。

从另一个角度来看这个问题,越小的东西越容易被涨落影响,或者说其实是我们对其越无知,所以要更多的时间和空间平均来测量和操作是必然的。

当然这一切也可以从被操纵物和操纵物整体的熵和能量等来解释。要想让特定大小的局部有超出一般的能量或有序,或我们对其有知,只有在更大的系统中才能提升这个概率。这几乎和麦克斯韦妖的热力学解释雷同。

当然,未来有可能会发现某种跳线(第五章层次化),使得在某些状态下让我们能获得额外的收益。也许那时加速器或会获得更现实的发展。

最后,就像前面提到的,如果对所有的函数进行一个排序,温度和压强作为均值是优先的选择。更进一步的可以有一系列的高阶矩。如果我们对目标系统不那么无知,甚至可以计算或测量一些非平衡的高阶矩函数,这将是在第五章层次化中重点展开的内容。

⑧ 改变最优定义

温度、压强、熵等都是一个系统的统计性质,是一种对信息的压缩。不同的压缩方式有可能定义类似但完全不一样的温度、压强、熵等等。传统上把某处的温度定义为粒子的平均动能。

我们当然也可以有另外的把相空间中一组状态归类的方案,它们甚至同样可以导向传统熵增的过程。比如现在计算平均,是从中心开始由近及远的、不遗漏的计算一个半径区域内的均值。完全可以有另一组方案,我们收集的有效信息是与上面不同的状态、能量和能级等。比如我们只能测量和计算特定原点开始间隔 1、2、4、8 位置粒子的统计属性,这在数学上是合理的。但从物理角度,不符合近的粒子容易相互作用的现实、难以实现,从统计物理的角度,也不满足对称性。

因此现在已有的温度和压强等属性的测量和对系统的归类方案,将是物理现实和概率角度,最符合实际、最对称和演化路径最稳定的。

4、传统视角下熵和熵增

就像我们提到过的,传统对熵和熵增的定义和解释有很多,以讹传讹的也不少。比如有人说孤立系统会熵增,有人说熵守恒,还有人说熵只是统计意义上在演化中增加的,随着系统的涨落也偶尔会熵减。如果从高观点看回来,就会发现他们可能都只对了一部分吧。

传统上认为系统的平衡态是一个重要的概念,而平衡态是和时间尺度有关系的。实际上如我们后面将要展开的,平衡态更本质的来源是计算和测量能力的不足,系统的某些方面只能当成一样了。对系统认识的时空尺度越宽,本来就是对系统越无知,把越多的时空当成无差别的状态来看。

我们当然也可以根据涨落的幅度来定义平衡态。比如无论是多粒子和还是少粒子,都可以定义涨落幅度分布,设定在某个概率区间或时间可能性区间内没法进一步分辨了,就可以认为达到了平衡态。涨落也来自于无知。

需知,孤立系统的涨落来自系统内的相互作用,非孤立系统的涨落可能有系统外部的贡献。同时也只有从某个不全面的或信息不足的视角来看一组特定的参量,比如温度或压强,涨落才能定义,也同时必然是一直在变的。

传统视角的平衡态、熵等概念都没法解释 FPU 回归何以看似系统热化了,又能回归有序的现象。而对这一类问题仔细思考,必然导致我们寻求其他更精细的定义和解释。

注:FPU 回归,即费米等发起的数值实验。按常理系统经过不断相互作用,会热化到不可分辨差异的平衡态,但实际上系统后来又恢复了外部看起来的有序。

5、新视角下熵和熵增

要想在准静态或平衡态下把熵的概念说清楚是不现实的。因为这本身就是一个含时的甚至不断复杂的概念。完整的说明我们留待第二章相空间。在那里会展开说轨道、各态历经、等概率、可分解等等各方面的细节。但在本章,铺垫至此,我们已经可以先把一些结论引导出来了。

传统的相空间,主要考虑几何和空间约束,这个约束下有非常多物理可行的运行空间或轨道。它们当然都符合 L 约束。前面提过一次,熵是相空间或演化轨道大小的表征。

我们需要厘清:某个约束下可能的所有状态,和某个约束下当前正在运行的状态是不同的。前者可能包含了很多后者,后者有一些隐含的约束,可能有自己的独立轨道。

所谓有序,就是能很方便的加上(额外的)约束。大的可能性相空间中,一个连续演化的系统实际占有相空间只是一个子集,是原相空间的子空间。而不同的子空间也有不同的稳定性,或者说是否容易被扰动。

所谓高熵状态(因为对应了更少的约束,从无知的角度)只是有更多的路径可以达到。而低熵状态即使和高熵状态同处于一个物理空间或可能性相空间,则具备更方便的把约束加回去的能力。

再来一个例子:对于理想气体,如果把包含气体粒子的最小长方体空间作为状态集合空间。当粒子处于一个大空间中的一小块空间区域时,约束很容易加回去,系统是低熵状态。甚至当没有相互作用和速度时,静止粒子可以始终处于大空间的非平衡态,或者说小空间的平衡态。因为此时,时间等同于静止。但是这样的系统很容易被扰动,不同的扰动也将带来不同的后续粒子分布变化、弛豫情况、有无周期性,而这一切都可以作为是否容易热化的指标。于是我们可以定义平衡态为难以增加新的约束的状态,而系统达到平衡态就可以用于定义热化了。

再假想这样一个系统,在一个三维方盒子的小空间内所有粒子都只在一个和某个盒子面平行的二维平面上运动,粒子间没有相互作用。系统的后续演化并不会扩散空间,我们很容易把约束加回去,让这个系统实际成为一个二维方盒系统。显然系统不会熵增,但也很容易受到垂直于此面方向上的扰动。

在扰动下,曾经有序的状态只在有限空间或有限时间区域内才能达到。之后就有可能加速热化。弛豫时间和性质被原来的轨道、扰动形式等共同决定并可估计了。

由此我们可以对温度、自由能和熵等做出物理的、信息的及微观解释,和估计其变化方向。

你当然会想到,传统的平衡态和熵不容易解释 FPU 问题等一系列问题,并会问新的定义可以解释它吗?可以的,因为 FPU 问题说明这样的系统可以增加新的约束。这将是我们后面内容的一个中心课题。只不过,怎么加上约束,未必是传统的单调的几何和空间上的加约束的那种简单方式了!

6、时间片、全时间,以及进一步的扩展

一个系统,符合共同约束的特征维数越多,越不会熵增,但轨道也越长。

这句话是什么意思?以一个圆心在原点的圆作为例子。去除坐标系,圆上的每个点都是等同的,它们有相同的距原点距离------半径。可以认为圆上匀速运动的点处于平衡态。

此时,我们加上坐标系,但是只看此圆在一个维度上的投影,就会发现这个投影符合大部分时候处于平衡态或趋向平衡态的状态,偶尔也会远离平衡态。平衡态是投影线段上坐标原点附近的区域,非平衡态是接近线段两端的区域。平衡态时,投影的速度较大;非平衡态,投影接近静止。

比较二维系统和它的投影,邻域关系都被保持了。但是显然前者始终处于平衡态,熵不变;而后者则在平衡和非平衡态间振荡,在特定的观察粒度下熵偶尔会变化。

反过来,所观察的维数越少,涨落越大,无知越多,系统越容易熵增。

当然,在低维视角下容易熵增的系统内生存的个体,被动的或有意的,必然会把测量或研究的重点投入到平衡态的那部分,那里最无知!于是其中可能有最大差异的那些维度就会逐渐显现出来。这种此消彼长的均衡性,也将作为最大熵的注脚,进一步确证了它的可行性。我们在第三章认识世界及其后还会进一步展开这个话题。

就像物质的空间扩散,如果没有特别的约束,并不会只在某个维度扩散,而在其他维度收缩。比如面积恒定的油膜散开总是趋于圆形。如果真的有空间不对称散开这种特例,就完全可以认为有时间反演的对应物。

扩展一下:

我们讨论的熵无关分布状态,而是和占有多大的相空间有关,是局部还是全局视角。我们当然可以也应该继续把时间拿到相空间里来!

熵或信息量的定义类似哥德尔完备问题。传统视角只会看到特定时间片下的熵。但单时间片的空间熵,就不如全时空的熵,全时空又比不过无穷宇宙的全时空。我偷偷的把下一章将要提到的各态历经和等概率整合到了这个系统内!

如果加上更多的条件,比如初始分布、相互作用、随机或涨落的实际性质等等,随着对系统的认识越来越全面,我们会发现相空间越大、轨道越长、熵也越稳定。

宏观视角下,切片,因为没有全局信息,因而总是看起来在自己的子空间是平衡的,而在全空间是局域平衡的和非平衡的。和全局在一起就会趋于全局平衡。如果考虑包含局部空间的更大空间,或者包含所有时间片的整个时空,又忽略粒度问题或者演化轨道是闭合的,熵和信息确实是不变的。

很重要的是,以后要评价熵或确定熵是否变化,要看从哪个层次来看。熵增是有视角的,这个视角就来自加约束。

值得一提的是,有时间片下空间内的熵,也有了时空熵,脑洞一下当然也可以有空间片下时间内的熵,用来研究某个空间维度确定下其余空间维度和时间的熵。甚至有没有可能有其他时间维度的可能性?不过,物理是关于有用处的科学,这是和数学不一样的地方。

7、当前熵

我们已经提到熵,就是评估系统的相空间有多大,轨道有多长,能加多少约束。因为有演化规则和时间维度,不同状态之间可以通过轨道互相转换。从无限细粒度空间和无限长时间的全时空维来看,熵是恒定的。但考虑到在时间维度的计算能力,和对空间及规则的测量能力(分辨率),我们远做不到全知全能。

我们能计算和测量的,只是当前时空附近的很小一块时空区域。这个意义上,熵有点像实数,对它的截断类似一个平台,是受限于我们作为观察者认识能力的约束。

时空的熵是全局性质,时间片的熵又太狭隘,且并没有很好的利用时间维的信息或我们的计算能力。当前时空的熵和计算及测量能力相匹配,所以更合适也有价值。我们主要应该研究当前时空的熵。

本章第 6、7 节是静态视角描述,我们将会在下一章从动态的视角重来一遍。


熵是什么 2:第二章、相空间(上)

原创 talentmonkey 2026 年 1 月 15 日 00:05 上海

二、相空间

为了更深入的从数学语言研究熵及其衍生概念,有必要发展一套形式系统,这就是相空间。

相空间可以表达系统所有可能的状态,相空间中的每个点都对应了一个系统的一个可能状态。

配分函数联系了系统的微观和宏观状态,也可以表征平衡态轨道的长度等信息。而轨道,是系统演化时各状态在相空间中划过的路径。

遍历理论研究保持测度的动力学理论。其中最著名的就是刘维尔定理:在保守的哈密顿系统中,相空间中代表点密度随系统演化保持不变。

轨道及其演化性质可以用 KAM 理论描述。

书本上的关键词提供到此为止。但是真实世界更加复杂。

第二章将分为两部分,上部介绍一些基础性的问题;下部则是一些扩展内容。

二 上、基础

1 从连续到离散

理想气体所研究的粒子都是量子化的,和模型处理的数据一样。但实际上考虑更理想的情况,气体和数据也可以是属于一个连续分布的。后面所讨论的噪声、平台、最大熵、褶皱、势垒......等等都可以是连续性意义下的。这样甚至会更直观:我们可以通过连续性来掩盖很多各态历经性和势垒等在离散情况下势必要面对的问题。这有助于跳脱真实世界而建立直观的物理图像。空间连续的对偶就是时间无限长。我们自然不可能有这样无穷的计算和测量能力,所以这两者就都只对(无知的)平衡态系统有更多意义了。

跨越一步,从连续性问题到离散,我们将迎来更加丰富和复杂的世界。这正是本文的目的所在。

量子化(或离散、或粗粒化),让轨道可以不用、也不能无限细分。熵和信息这才有了限度。

信息曾被定义为一个独立的观察者对某事物的不确定程度,这是把事物看成独立实体的视角。变换视角我们也可从关系的角度,将其定义为经过某处理后获得的"省事"的增量。因为连续值的信息量无穷大,只能看差值。物理中的熵也一样。我们将在第三章中熵的平台再展开这个话题。

把一个连续系统离散化有多种方式。比如庞加莱截面。不过连续两点在原系统的时间间隔可以不一样。实际上,查找表或离散化就没有时间概念了,步长不一定对应时间,或不一定对应恒定时间间隔。

并且一个动力系统可以不依赖函数。函数只是我们对真实世界演化规律的一种压缩和简化。我们一般研究的函数都满足 L 约束。一个动力系统没有内部函数,只依据查找表跳步,当然也可以遍历或者收敛。我们也可以评估它的熵或其他性质。不过如果我们研究的离散系统能找到一个对应的满足某个函数的连续系统,那显然对分析会很有帮助。

除了庞加莱截面这种丢失大量信息的低维映射,对一个连续系统做何种时空粗粒化能够更有助于分析,也是我们在后文讨论的重点。

传统统计物理优先考虑平衡态,此时弛豫时间和相互作用并不那么重要,重要的是等概率和各态历经。

等概率假想空间的平行宇宙,各态历经假想时间的扩展。

从高观点来看,等概率和各态历经都是对系统无知时的无奈之举,就是最大熵。

2 等概率

等概率来自于对空间性质的无知。就像我们在第一章给出的例子,如果知道系统有某些属性,但却不知道具体的数值,我们就会应用对称性等约束,将每种可能性的具体系统都来一份,并期望它们的平均结果不会太差。假设宇宙各向同性。那么从不同位置切出很多块,互相之间可以认为是等概率的。

概率论中有放回的抽样,天然用了统计物理中的等概率。字符串的 hash 算法得到等概率分布,以及伪噪声,都是计算和测量能力不够,或无知带来的。

仍然遗留两个问题:

① 什么才是等概率?

等概率,我们应该选择这个还是那个参照系下的数值?当有多组参照系,不同量纲通过耦合参数连接起来时,比如光速就是一种时间和空间间的关系、引力常数关联了质量和空间距离,我们应该怎样在不同量纲间分配概率?

同组参照系下不同维度只要做到正交,那就可以保证不同参照系的等概率是一致的。比如在二维的地图上,随意旋转和平移正交的 XY 坐标系,并依据不同的坐标系来选择等概率,最后的结果是等效的。也可以说我们实际上需要的是对称性,物理上的时间、空间平移、空间旋转对称性等,正对应了诺特定理。

比较麻烦的是多组不同的参照系间怎么选择等概率?在第三章认识世界,我们将提议,有可能现在感知到多组量纲的存在,可能只是因为我们并没有探查到宇宙的足够底层。这些不同的量纲可能只是共同底层的涌现产物。我们要尽量选择那些边界性的、底层的量纲在它们的合适认识尺度上分配等概率。这就是杰恩斯的最大熵。一个例子是:抛硬币后的各种情况概率分布是怎样的。作为一个有常识的人,我们知道硬币是很薄的,几乎没有可能性会在抛出后在台面上立起来。但一个外星人,如果只知道硬币是圆柱体,被抛到一个平面上,就要假设作为圆柱体的硬币高和半径的不同可能性如何分配。这正是多种量纲的一个最简单例子。之所以强调合适认识尺度,就是寄希望于我们对自然的认识是逐渐扩展的,不会大幅度的偏科。一个系统我们不太可能只对某些方面研究透彻、别的方面一无所知,并且始终维持这个状态。详细的展开要留到第三章的最大熵和第四章的伊辛模型了。

② 真的能等概率吗?

所有可能的状态都会等可能的出现吗?第一章接提到过侧方停车的例子。物理世界并不禁止某些状态出现,但是因为状态间的转移必须符合 L 约束,有些状态将是难以达到的。

特别是在比如相空间不对称的时候,等概率将更难以满足,下面我们还将看到各态历经也有类似的问题。

只不过如果我们研究的系统不是在平直空间,而是在某个拓扑之上,拓扑本身的性质就有可能在平直空间视角下产生超越 L 约束的效果。试举一例:一个矩形区域,如果我们把左右两边缝合起来就得到一个圆筒,再把上下圆筒缝合起来就能得到一个环面(游泳圈形)。这样我们就让运动到边界处的粒子可以定向的跳跃到对应的另一面并出来了。即使是一个假想的例子,它也将有助于简化很多问题的分析。比如如果把平直三维宇宙做无数的等大小切分,那么从一个盒子型边界内移出去的粒子进入到另一个盒子,我们可以假想它实际只是回到了原盒子的对称平面处。这样孤立系统就可以想象为全宇宙的一个缩影来研究了,等概率也自然而然的出现了。而单独的盒子将会丢失很多这种方便和优良的性质。

值得说明的是,如第一章所述,只要粒子相比其运行的几何空间足够小,空间及边界平直,等概率就会被极大可能的逼近。而即使一个系统不是等概率的,我们还是有可能算出一个等效空间和分布,使得在等效分布的情况下近似是等概率的。我们在第 6 节将会初涉这个问题,并在后文展开。

3 各态历经

各态历经假设指的是,孤立系统从任一可能的初态出发,经过足够长的时间,会遍历相空间所有可能的状态。

3.1 有时可以

各态历经的动力,像是一种会不断演化下去的惯性。在物理世界中惯性是与时间联系在一起的,只要时间流动,事物就是会保持惯性,也会保持演化。

在机器学习,当模型收敛到损失的局部最小值附近,投入一步计算就会驱使模型向前走一步,合适的方向和步长将会使模型进入一个极限环,各态历经发生了。

当然,各态历经也可以是集合论性质的,此时我们会逐渐丢掉序列的马尔可夫性。比如抛硬币,一个理想的硬币在随机抛掷的情况下(我们后面将一再表明随机实际上是无知的代名词),其序列是各态历经的。随机使得 L 约束和平面上的拓扑限制等问题都被隐藏了,使各态历经更容易发生。真实系统受内外涨落影响,就对应了这种情形。

3.2 有时不可以

从约束的角度来看,比如第一章第 5 节讨论过一个二维平面上运行的系统,天然的也属于一个三维空间系统。任何一个二维平面上的初态也属于三维空间的可能状态。但这个系统显然不可能在两个空间下都是各态历经的。只能说偶然的扰动,很容易让只在二维空间中的系统扩散到三维空间去。

另外作为有低维流形的数据(如一类图像等),在低维流形上也很难各态历经,比如某些通路比较狭窄或异常等原因造成的相空间不对称,不仅会造成等概率失效也会影响各态历经。

考虑到粒度问题(物理的量子化或模型的粗粒化等),系统就更难各态历经了,一些状态离开了就很难再回到甚至是附近(即连准各态历经都做不到)。注意:模型的计算误差也等同于一种量子化。

从数学的角度,各态历经要求各状态有相等的概率被采样到,如果把演化看成马尔科夫过程,对转移概率和起始状态分布也就有了更多的要求。如果某些关联状态间的路径是狭窄的,或马尔科夫矩阵是降秩的,那各态历经当然不满足。

所以各态历经是一种时间性质的最大熵。有限历史依赖的马尔科夫性是一种计算能力的近似,是无知时的无奈。

3.3 改造不可以到可以

和等概率一样,我们如果能对不易各态历经的系统做一些改造,其各态历经性也会大大的改善。

微正则系综的孤立方盒子,可以看成无限空间中,有周期性边界条件的情况。周期性边界条件也可以使得有限粒子数模拟的结果能更好的应用于粒子数多得多的实际系统。我们甚至可以继续扩展这个分析到正则系综和巨正则系综。

大部分真实孤立系统,只能做到准各态历经。但是如果通过适当的拓扑粘结,就会极大的改善系统的各态历经性。比如我们提到过的圆圈或轮胎面上的系统,相比长方体空间的性能改善。

多提一句,为什么添加拓扑结构就可以缓解等概率和各态历经不满足的风险?很简单,增加拓扑结构,就相当于放松了对系统的约束,而性质是限制下涌现出来的,放松约束就会导致特别的性质丢失,各种状态等效或者实际上是我们对这些状态无知,于是等概率和各态历经就更容易满足了。

实际上有不同的拓扑粘结方式,比如在对于二维正方形,除了刚才提到过的粘结成环面,我们还可以把左和下边粘结,上和右边粘结,甚至考虑定向的话,可以把左边倒向再和右边粘结等等。什么样的拓扑会有助于各态历经性?

反过来,对于阻碍等概率和各态历经性的所谓相空间狭窄或异常区域,如果我们拉伸那片区域呢?让通路更宽广如何?从离散化的角度,对这样的区域提高分辨率或测量能力,都会有助于等概率和各态历经性。提高分辨率也放松了系统特定位置的约束。

最后我们将会发现,拓扑和提高分辨率的方式都值得分类。传统的等概率和各态历经性乃至熵等甚至都只是一个低阶属性。在更高的层次上,它们都将被重新定义和估计。我们对于熵的混乱,就来自于从混杂的不同视角来描述系统,同时使用了未精细定义的术语。这是本文力求澄清的重点。

3.4 安排轨道

等概率是对于相空间的所有可能状态来说的。各态历经是对于相空间中的演化轨道来定义的。

在做机器学习或任何理论的时候,都假设我们所觉知的数据有内部的结构,或称低维流形。传统平衡态自然也是低维流形所对应的相空间意义上的。提前说一句,低维流形也是我们计算和测量的边界,这之下无知让我们觉得所有状态都一样。那么怎么才能把相空间中的各状态连接成一个轨道?

对于相空间中的两个状态,之间连线,似乎有多种可能的方式。前面提到过庞加莱截面,其中连续两点之间的连线是某个曲面上的测地线,这是微分几何意义下的。含有特定两点的庞加莱曲面选取可能性有很多,似乎也暗示了可能有多种安排轨道的遍历方式。

举个最简单的例子,在量子化的正方形四顶点间遍历的通路,既可以是绕正方形四边的,也可以是连接对角后交叉的方式。

在真实的系统中,轨道并不能很自由的被我们在不同的状态之间连线,它受初始状态比如方向的限制、也受 L 约束,或说某些状态的下一个可能状态的自由度是受限的。当然,我们数学上确实可以将其转变为一个等效系统,其中各状态之间更容易被随意连接。更多的这部分内容在第五章层次化再行展开。

不同的可能轨道都分别是可能性全集的子集。有些很有规律,有些更为复杂。为了特定的目的哪些可以互相等同或转变,也是有现实意义的问题。不同连接方式中有没有最特殊的那个,就像所有空间中最特殊的那个是平直空间一样?其应用场景有比如模型的蒸馏:完成相同的任务,最小的最高效的那个是最特殊的。

不严谨的说,最短的路线,从表征系统的角度,就是符合柯氏复杂度的那条。而非最短路线,是某种程度上可分解的。后面几章我们还会不断回到这个话题。

再举一个例子,在一个最简单的圆环上采样,不同步长会得到不同的采样序列。如果步长不是圆周长的有理数倍,这个采样甚至可以不重复的永远进行下去。这也将引出两个重点:

① 第一章提到过的局部视角的当前熵和全局视角的熵;

② 熵和各传统统计物理量都应是分层次的,但现在没有分,这造成了很多悖论或混淆。

3.5 回到低熵

我们已经提到过熵是能对一个系统把约束加回去程度的度量。

我们也提到过,从不同视域来看一个系统会有不同的熵,越全面的看一个系统,其熵越稳定,越局部的来看熵越有可能出现熵增或偶尔涨落导致的熵减。

无妨,我们这里就从局部视角超越第一章的静态观,来看一下在相空间的场景下,回到低熵是怎么回事,什么样的系统容易回到低熵。

有两点影响一个系统回到低熵:

① 轨道太长,回到低熵的时间过于久;

② 太多状态不在各态历经轨道上,从这些状态出发的系统最终落在了准各态历经的极限环上。

如果前者只是回到低熵的可能性较低,后者则是不可能。这两种情况有时也会共同作用。

实际上无相互作用系统更容易各态历经,而有相互作用系统则比较难。一个例子是无相互作用理想气体相比有相互作用的,更容易回到一个更小的空间,后者因为粒子之间的排斥力,让这种可能性几乎不存在。

有各种约束、相互作用、和在某种全局势场或热浴等外部影响下的系统,都不容易各态历经,也很难恰巧"压"回某个相空间的特定位置。自然也影响回到低熵的可能性了。

如前所述,相互作用也是约束。约束越多,状态空间可能性越少,轨道的类别和长度会受到限制。

轨道越长,或轨道所有状态数占全相空间状态数越少,都会显著的影响回到低熵的可能性。

仍然需要注意的是,传统约束是简单的空间几何性的。我们在第一章第 5 节提到过,对于复杂情况更复杂的约束是需要考虑的。

还是一个例子:在平面矩形系统中运行的粒子,如果只在某条一维线方向上运行,约束是很容易以几何空间的方式加进去的。但是如果粒子的水平和垂直方向的速度比,是和矩形的竖边与横边边成比例的,那么虽然这看起来是一个二维系统,但实际上还是一个一维系统。请仔细思考这个图像,两个维度的周期公约,将会使二维系统的轨道等同于一维的。

还有一个有趣而重要的问题,不同的约束都对熵和低熵能否达到产生了影响。仅从效果来看,这些不同的约束能否做到等效互换?

这个问题再次引导出了本文的核心:不同的系统有不同的分解方式,这将导致对系统的不同分类。进而这些精细的视角,将会产生一些高层熵之类的概念。

3.6 有点幸运和未来的隐忧

因为状态之间只有通过转移才能达到,是关系性的,而等概率和各态历经则是个体性的,并没有考虑对近邻和历史的依赖,所以两者之间以及它们和真实情况之间都有不匹配。

不过好在,对于我们普遍研究的传统的热力学统计物理系统,其中运动的粒子和系统边界相比于系统所在的三维空间都是小量,因此对等概率和各态历经的影响并不大。所以我们可以接受等概率和准各态历经的描述基本符合现实。

但是,对于小系统或更复杂的约束,传统将会越来越容易失效。我们会陷入无知和混沌的大潮,也会惊异于秩序从混沌中涌现的异象。后面,让我们扩展视角,把这些问题一揽子解决。

4 时空或切片

虽然在第一章第 6 节已经初涉这个话题,但是让我们在相空间和轨道等的动态视角下再来一遍吧。

为了计算链状分子的熵,既可以针对特定长度的分子状态来计算,也可以把所有长度状态一起来计算。它们分别对应了不同的各态历经区域,前者是更小的空间切片,也对应了更小的极限环。

传统统计物理中的熵是所有等效状态数的 log。再说一遍,这里的等效和平衡态一样,都来自于无知。而所有状态都是空间性的和静态的。当然即使在空间中,也可以像上面链状分子那样,划分不同的子空间来分别计算它们的熵。但是!从平衡态视角离开,我们的世界、我们研究的目标系统都是在处于不断的动态变化之中。目标系统可以从一个状态转移到另一个状态,然后我们评估它们才会说熵增了,或熵减了。时间影响了弛豫的速度,就好像我们训练模型的速度被 GPU 计算单元的频率影响一样。

传统上,我们计算熵,只在空间的、简单几何的、外部的视角,但却漏掉了时间、结构和内部视角。熵的认识混乱始于此。

如果考虑时空,我们就避免了只考虑空间,对时间的无知。

如果考虑系统复杂的、层次化的关系,我们将避免对系统结构的无知。

类似流体力学的欧拉视角和拉格朗日视角,或者我们提到过的微分几何的内蕴和外部视角。外部视角为系统增加了额外的限制,而内部视角是纯粹的系统相关的。

如果考虑系统内部的结构,我们将避免无关信息的干扰。

考虑整体的、结构的信息,避免无知和自大,而不只是空间的切片,就可以解决涨落和熵减等疑难。

于是我们终于可以解释 FPU 回归:外部视角下,系统热化后回到了熵小的区域,但是实际的内部结构的约束空间还是全时空的,熵并没有变化!

热力学和统计物理中温度、熵等量一直搞不清,可能就是因为它是和时空、结构、视角有关的量。必须同时考虑这些因素才能渐进的定义。而其他如理论力学、量子论、相对论等都没有这样的要求。

拓扑序等理论开始慢慢使用了系统的高层特征,但仍还是比较简单的应用。

扩展一下,我们甚至可以设想超越三维空间和一维时间的统计力学。以及把传统的时间看成类似有单边墙壁的空间。而各态历经的系统实际上让时间片的状态在某个时间回到了过去。这个图像正像我们在空间场景下提到过粘结矩形得到的环面。我们于是也可以粘结时间。周期性时间的系统,总熵是恒定的,虽然它的时间片熵可能有点恼人。

这种视角的转变可以扩展到很多问题。如动力学临界现象是普遍临界现象的含时特例。也有好些理论可以从静态最优化问题导出动力学方程,如变分法等。

5 当前熵

从动态视角,我们也再次回顾第一章第 7 节的当前熵。

系统何时处于平衡态,是和我们对该系统的空间分辨率和历史未来无知的程度相关的。如果我们可以明确分辨不同状态间的区别,那并没有平衡态。势能转变的不可逆性,或熵的单调性等,也都是无知或视野狭窄带来的错觉。

如此说来,平衡态就是状态间不可分的情况。如果随着时间的演化,我们用简单的空间的几何的手段难以把约束加回系统去了,那就是传统上认识到的熵增。如果像 FPU 回归这样的系统,我们感知到了简单约束加回系统的可能性,就惊异于熵减。

受限于作为观察者对时空的认识能力、存储能力和计算能力,我们一般的只能认识轨道上有限分辨率和有限区间内的时空。我们能看到的只有当前相空间。这样的空间,约束不同于整个轨道上所加的约束,且也在时时不断的变化,因此我们才感觉到系统似乎没有道理的在有序和无序之间变迁。

对于在当前相空间中熵减的系统,我们作为观察者从外部加上了不同于其内蕴的约束,以为系统又有了在新框架下做功的能力。这无非是麦克斯韦妖的翻版,原系统和观察者系统被放在了一起,而我们一会用原系统的视角、一会用观察者的视角,并且只用时空中的一小段来评价熵和做功能力,这并不合适。

回归本源,熵是相空间状态数的对数。我们一定要随时问自己的是,我们现在在哪个相空间下进行计算。后面我们甚至要不断提醒自己,考虑到空间的可分解性和层次化结构,我们是在相空间的哪个层次下进行计算。这样才会始终保持清醒。

就像平直空间,特别而不普遍一样,除了很少的理想化的周期性系统,大部分系统的演化,就像实数一样是无穷尽的。它们没法用熵、也没法用柯氏复杂度来度量,但是如果用特定时空粒度的当前相空间来度量就完全可以。我们甚至可以对一个系统在不同粒度下进行熵的衡量,并得到粒度间隙所对应的熵密度。

作为一个特例,数学上一个收敛或不收敛的数列,也可以看作一个演变的系统,内部也有自己的动力学、轨道或吸引子。也完全可以对其分析熵和信息量等概念。当然除非是代数数,我们对它的理解永远也只能是有限的,其结构即使做层次化后也是无穷的。我们因此也只能研究某个粒度下的当前熵,或粒度间隙的熵密度。

注:代数数,即能用有理数作为系数的方程的根。非代数数,即超越数,不能获得有限的结构。可以认为一个数如果能用有限个数的有理数方程系数表征,这个数就是有结构的,也是能被压缩的。我们还将在第三章认识世界和第五章层次化等处展开这个话题。

6 (近似)可分解

在前文一个微不足道的地方,我们已经提到过高层熵这个概念。这其实是本文的中心概念之一。只要我们从全局的、结构化的视角来研究一个系统,这是必然要面对的问题。只不过我们传统研究的物理上的理想气体甚至凝聚态物理的结构层次都太低了,所以这个概念并不易发觉,这也带来了对熵概念定义、表述和应用的巨大混乱。本节我们从高层熵的基础:(近似)可分解开始。而高层熵的扩展会在后文展开。我们将在那里发现,把各种熵统一在同一个完备的视角下,会澄清我们一直以来的疑虑。

6.1 概念引入

如果理想气体是稀薄的或相互作用微弱的,一个空间中的气体系统,甚至可以分成多个,每个都在自己演化,而相互之间的交互只是一个小量。整个系统的相空间就像泰勒展开一样,完全可以看成是主成分和小量的叠加。而主成分是可以分离成两个或多个不同系统分别分析的。比如我们可以随便一刀切下去把空间分为两半,分别研究左边和右边的所有粒子后续如何演化,再乘起来就能近似得到原来总系统的相空间演化。

还有其他拆分方式,比如理想气体的相空间可以拆成位置空间和动量空间。但这种拆分方式下,两个空间间的交互就不再是小量了。

不断增加约束,当然也包括相互作用等,之前的那个小量的作用就会逐渐强大起来。

很快我们将发现简单的方法可能只能将系统拆成有冗余、非正交的子集。单纯的将拆出来的空间相乘很难拟合原来的系统了。

回到理想气体系统,空间约束确定了以后,所有粒子的当前位置和动量,可以唯一决定历史和未来的轨道。实际上轨道上的状态,都可以完全决定一个系统。不同的位置、运动方向和速度组合,就类似不同的模型初始化条件。后续演化的性质和统计性质,都受初始化的影响。

与外部约束一样,初始条件作为一个内部约束,把相空间和轨道限制在更小的范围内,不同的初始条件给出了不同的限制。而不同的约束之间,有些是相近的,有些是差异大的。约束决定轨道状态和大小,进而决定熵。

因此我们可以通过对约束的分类,来做对系统相空间和轨道的分类。需要注意一点,L 约束是物理上特别的。我们在后文扩展这一系列概念后,这可能就不再是必须的了。毕竟,我们很难直接加热凝聚态物理中特定点位的粒子,但我们可以作弊一般的改模型特定位置的参数!

就像我们对矩阵所做的分类和对称性研究,以及用特征值来决定矩阵间交互作用的性质等一样。我们研究相空间也势必要研究约束的分类,研究那些显性或隐性约束的存在性和类别。

拆分,才能对系统的内部结构有更深入的理解。以之为基础,我们才能建立高层熵等概念,统一和澄清这个领域传统的混乱。从高层熵,我们最后甚至会连接到不可计算的柯氏复杂度,这个对特定系统估计结构复杂性的指标。

6.2 三个角度

① 自由能

前面提到过在三维空间中的二维平面运动的粒子这样的系统。我们还可以有一个更具象化的例子:一个整体挥动的铁锤,携带着它的每个分子一起运动。每个分子既有铁锤挥动方向的运动,又有与这个方向垂直的运动。

这样的系统有什么样的能量、自由能、温度和熵?我们是否要扩展原来的定义来容纳类似的系统,并且保证和原有系统的自洽?

传统自由能有公式 F=E-TS,即自由能等于能量减温度乘以熵。

一个完全有序的系统,所有能量都分布在有完全等同序状态的粒子上,此时的完全等同是不含任何无知的等同。在理想大铁锤的例子中,粒子没有和运动方向垂直的速度分量,所有动能都平均分布在每个粒子上,每个粒子与铁锤整体速度相同。

此时,系统可以被加以最大的约束,只有唯一的状态,熵趋于零。铁锤的自由能等于总能量。当总能量在自由能和熵之间分布时,只要记得熵来自总状态数,我们当然可以得到温度。并且随着熵逐渐趋近到零,得到温度的渐进曲线。

当二维系统向三维扩散,或者大铁锤砸到某物上发生了整体的速度改变,作为系统组成部分的各粒子就可以有了垂直于原约束条件的速度分量。

低温带来系统低能量约束下的有序,而自由能是有能量情况下其他约束带来的有序。低温难以放松能量约束,除非给系统增加能量;而自由能放松其他约束就可以用于做功了。放松约束,破坏原来的有序结构,就会造成自由能降低和熵增大,而总能量不变。这是一对有趣的对偶。

当然,如果把一个低温有序的子系统和一个高温完全无序的子系统作为一个总系统,在高温子系统向低温子系统放热的过程中,也会达到某种共同有序性的破坏,从而系统熵增加和可以对外做功。

简言之,在物理的有序系统放开约束、热化的过程中,保持了能量和动量守恒,本来集中于某个维度的动能减少,而增加其他维度的动能。状态空间变大,熵因此增加了。

所以,对于一个系统,我们可以按照熵或者能加多少约束来进行拆分或分类。

需要注意的是,物理世界必须满足能量及动量守恒。但在其他系统中,比如机器学习模型中,我们未必要(在每个层次都)满足这个限制。这就为系统的拆分和分类带来了可能的广阔空间。

② 分立轨道

一个相空间中所有可能的状态能被一条轨道连接起来吗?如果可以那就是各态历经,但我们已经说明这很难达成,即遍历性因为各种原因破缺了。这是时间维度的破缺,另一个空间维度的破缺就是我们非常熟悉的对称性破缺。

既然各态历经一般不对,我们假想对相空间中所有的初始状态推动它们演化下去,在有粗粒度限制的状态数有限的场景下,轨道必然会回到某个相同的状态,但未必有周期。当然如果有无限细粒度,除非轨道有周期,那结果是可能无限复杂下去的,好在我们并不需要考虑这种场景,不仅我们的计算和测量不允许,对于实际应用也不必要。这在第三章认识世界会再展开。

如果有粗粒化后有周期性当然后,就像有理数有循环节一样完美。但即使没有周期性也没事,KAM 等研究告诉我们,在足够长的时间或样本下,轨道是会存在某种模式的。那么,就可以依据不同的轨道对相空间进行分类了。此时,相空间将会存在多组环路或分区,环路内部可以绕各自的极限环准遍历,分立的环路之间被粗粒化的势垒阻隔。如果加上随机性,这些势垒也可能被偶然的跳过。

物理图像是这样的:整个相空间被层次化的分割了,根据粗粒度的程度,每个层次有势垒分割的多组独立区域,区域内近各态历经,区域间因为势垒阻隔其相互迁移时间远大于区域内相互迁移的时间。同时越高层、粒度越粗的层次,区域间的跃迁可能性越低,迁移时间越长。当然,传统平衡态统计物理,并不考虑迁移时间的长短,也忽略了空间的细微结构,这些都不可能被注意到。只能说,在越小的时空区域或越粗的时空粒度,等概率和各态历经是被逼近的,但细观之下,就不是那么回事了。

相空间和轨道基于此而在某个粒度下就可以近似分解了。

实际上玻璃态也是相空间分立分区的。我也差不多快图穷匕见了:相空间的近似可分解性,和机器学习的分层结构不能说完全一样,也已经是足够相似的了!

传统统计物理研究的系统足够简单,不会有那么多层次,所以一直没有设想到这种联系。然后在碰到生物、经济等复杂系统时应用少层次的分析和术语来描述复杂的系统,才出现了诸多的悖论。我们有必要发起哥白尼式的革命,反过来,应用处理复杂系统的、机器学习式的、层次化结构化的思维,重估统计物理的问题,把其中的研究方法和术语带到真实世界那些扩展了的层次上,这将有助于不同学科用共同的语言解决原来没有发现实际是本质相同的问题。

③ 非完整约束

在理论力学,有非完整约束问题。同样是描述没有任何硬性的约束某些状态不能存在,但是现有的系统就是难以达到的情况,我们提到过侧方停车的例子。

孤立系统的空间状态对相空间大小、可分解性以及熵等属性的分类和变化也是有影响的。如果不是传统的方盒等对称空间,而是有奇怪形状,更可能束缚住某些粒子、或某些速度等属性的粒子、或随演变某些时候容易束缚粒子的系统,问题的复杂度就会陡然上升。我们应该能意识到,从几何或拓扑的角度,某些形状的盒子之间是可以互相转变的。相空间分解和分类实际上也面对着类似的问题。

其中有些约束是完整的,比如空间限制或 L 约束等;有些则带有了足够的自由度,如初始状态的某些分量。

我们甚至能从可分解性出发,解释哪些状态集合是更容易因系统演化而被轨道后续触达的,这也从另一个角度解释了无知带来的熵更大的状态是如何产生的。以及机器学习中的彩票假设和关键学习期,在当前的语境下,也完全可以被解读为其实就是参数空间可分解和分解结构的问题。

一个复杂的系统,不断加约束的过程中,约束越多,对应的状态越少。约束是可分解性的来源,约束的多样性又导致了分解的层次性。

就像我们一再说过的,统计物理中那种简单的几何空间式的约束,将难以表征层次较多的系统。加入层次化的合适的约束才有助于对相空间做最优分解。约束种类少------特征少;近似原轨道、误差小------表示能力强。这就是好的约束。我们再次把统计物理和机器学习的术语联系了起来!

6.3 计算和测量优势

可分解性,也影响计算和测量的效率,比如对系统的采样能力。

各态历经状态间转换,是时间性的,因此可以有速度的概念。在机器学习场景下这一点就更为重要,轨道的哪些阶段是可以提升速度,或说使用时间更加粗粒化的计算而不带来显著误差的?这有可能带来计算的加速。

同一个相空间的不同轨道,和同一个轨道的不同阶段都是有价值做这样分析的。就像在无摩擦世界中的振子或动能势能转化的过程。我们把时钟拨快并同时调整力的大小,不会影响轨道上后续的结果。某些固体或电路可以通过调整热导率、电阻电容电感等,以及时间尺度使得一类系统等效。此时空间也可以看成演变速度的阻力,或者有时空耦合的常数存在。某些孤立的硬球和能级系统,调整速度和能级,之后的演变速度变化但顺序不变。有相似的能量、熵和演化周期并可以互相替代。它们的内外涨落和时间的作用满足共同的约束。

但在其他场景就未必有这样简单的关系。

物理场景下,可以提升速度或改变几何尺度而轨道相似的那些系统的相空间,相当于某些约束与系统其他部分之间的某些属性是有线性关系的,因此可以做到线性加速。同时从层次化的角度来看,这些约束也可以是被提到高层的。注意我们说过物理世界的约束等同于机器学习世界的特征,这个图像就更清晰了。

一般高层约束则对应了低层视角的非线性加速方案,只要系统依赖少量被合适组合的约束或特征。

更直白的说,在机器学习场景,物理世界的这种加速还对应了模型的蒸馏。蒸馏使得系统越过了势垒或拓扑问题,用小系统的轨道拟合大系统的轨道,降低了系统的弛豫时间。甚至从传统的单环采样,逐渐达到能更高效的多环或多层次环采样。

机器学习中的蒸馏不仅缩减网络层次,也优化每层的大小。我们刚刚解决了时间加速的问题,当然也同样可以解决哪些空间区域是一致的问题。从物理角度就是,我们的测量能力被提升了,从机器学习角度则是计算并行化需求被降低了,同样的计算能力将可以支持更多的其他任务。

6.4 分层

轨道根据可分性,可以类似矩阵有秩或特征值这样的概念。刚刚提到的计算和测量优势,也决定了系统某个方向把约束加回去的难易程度,或说可压缩性,即熵减能力。从机器学习角度,某个或某类特征集,越和损失直接相关,越可以单独拎出来压缩掉和用于加速运算或测量。

三维空间中的二维系统容易受到扰动而熵增。KAM 也提出不同的初始条件,受扰动后续变化的可能性不一样。动力学研究系统随时间的演变,类似的也可以研究系统某些参数变化,演化轨道在相空间的变化过程,这也关联上了李雅普诺夫指数等。

上面两段是两种不同的视角看同一个问题。

需要注意的是,我们可以在不同的粒度以不同的层次做相空间的分解和分类、结构化、重整化......

在第三章认识世界和第五章层次化,我们还会看到更多的层次及其应用,包括不同层次的熵------本文的中心观点之一。

6.5 提取能量的多种可能

在 6.2 节我们提到自由能和做功的关系,本节也观察自由能的层次性。

某些吸引子也可以做进一步的分解。比如绕太阳椭圆旋转同时进动的星体。椭圆轨道是一个子吸引子,椭圆轨道按圆形旋转是另一个子吸引子。这种进动,加入时间维后就是可分解的。类似环面上的单粒子运动,也可以看成可分解的。

自由能可以看成熵的平台(第三章术语)以下的,等待热化的那部分能量,或者潜在的可以并入当前相空间的那部分能量。

自由能有多少,也要看提取的方式能多有效。如果只能从传统的几何约束角度,甚至某个随机的低维投影方向来提取能量,那扰动后只是在这个方向发生了热化。其他方向不会发生能量和动量约束以外的改变。

提取系统的自由能,从微观视角是把有序变成无序,就没法往一个方向使力了。越无序的系统,越不可分解。从这个角度来看,自由能也是可以有高层的,而传统定义只存在于低层。

能从哪个方向提取自由能做功,和观察者具备多少系统相关的信息有关。比如傅里叶变换和压缩感知的信息提取能力就不相同,也对应了对世界结构的不同认识。压缩感知在我们这个世界略胜一筹,但在第五章层次化中我们将提到,它也只是迈出了少少的一步而已。

在第二章相空间扩展篇中的粗粒化小节也将探讨随机投影以外的其他方案。

6.6 杂项

除了自顶向下的分解,研究简单系统如何组合成复杂的也是有益的。

通过加入或放松某些约束,特别是在量子化场景下,可以导致相空间轨道互相拼接或拆开的可能性。也有可能拆开轨道互相缠绕的轨道,其分析需要辫群等技术的支持。当然需要注意的是,数学上,我们可以随意让轨道打断或重连。但是物理上有 L 约束等各种现实约束,于是分解和组合也就有了更多的限制。

除了轨道直接的分解或连接,特定子系统的状态也可能是组合产生的。比如随机行走这种外部随机扰动影响下的状态变换,可以拆分为系统自身的状态和外部的影响。只剥离出来外部影响,这种随机性扰动本身是各态历经的,而且各种粗粒化下都是各态历经的。而随机行走反而是从各态历经上涌现出来的性质。这提示我们基于低层约束完全可以涌现出很多更高阶的性质。比如随机行走,一维和二维都是常返的,三维就不常返了。时间关联函数等能部分的描述这些差异。

除了外部的随机扰动,还有很多东西会影响系统的可分解性。比如温度或压强。当温度更高,系统涨落更大时,原来被势垒分割的多个子空间中运行的轨道上的某个状态更容易穿过势垒,系统也更容易各态历经,或无知。

实际上,温度和压强都可以促进相互作用,提高穿过势垒的可能性,核聚变正是这样发生的。温度提高速度,压强促进位置接近。我们提到过,传统热力学也有温度和压强的关系,一个是体一个是面。温度提高增加轨道随机性,高温和加压,盖过系统原来的约束,相当于去除约束,让系统的可分解性减弱,同时各态历经性增强了。

值得补注的是:基于计算和测量能力不足的共识,从当前熵的视角,孤立系统涨落的来源,是能量和状态限制下,轨道上特定局部状态的起伏分布。所以温度升高也会增加系统涨落的可能性。

相空间可分解性,来自原空间的可分解性,而基于大量原空间粒子及其数据的集合中获得更全面的信息,也就更容易做合理的分解了。

必须说,相空间和轨道的(近)可分解性,是层次化视角的开始。

7 稳态和非平衡

当我们研究的系统不断的和外界交互,有持续的能量、物质流时,当然也可以有相空间和轨道的描述。

一根铁棒,一端接入热源,一端接入冷源,当整个系统稳定时,并不是平衡态,但是稳态。宏观上铁棒各处温度不会有小涨落以外大的变化。这种一边注入能量一边耗散的情况,对应了最小熵产生。

我们更关心的是,此时的相空间和轨道是怎么样的,还能不能用一贯使用的定义和技术来描述?至少在刚才铁棒这个场景下,相当于系统处于一个均衡的势场之中。这个势场的作用宏观上是可以从原始相空间中直接移除的。甚至,这个轨道是宏观上可逆的。

但是不断把粒度变小,我们可能会注意到这样的一个图像。从微观角度,在轨道周围有很多其他状态不断的落到轨道上,并且随着轨道方向,这些状态被不断的压缩,进而因为量化的原因,它们变成了相同的状态。想象一股不断有外部缠绕进来细线的粗绳可能方便理解。总之,在这样的图像下,因为微观的限制,宏观上轨道不再是可逆的了。即使轨道环路固定,这是一个微观上不断有熵产生和耗散的过程,也是一个不断增加和丢弃信息的过程。这种限制同样是物理带来的。我们可以依需要,在一些人造的系统中加入类似的约束。

对于更复杂的非平衡态或少粒子系统和大系统混合后相空间及轨道的变化和熵的流动等都值得进一步的研究。

8 特别的轨道

在此总结一下轨道可能变化的种类和性质。

8.1 单向演化

当相空间演化被约束时,如量子化的能量间隔等,可能会让相互作用改变前后状态的方向固定,导致单向演化。系统不可逆。

8.2 收缩和膨胀

为一个系统不断增加约束将导致相空间和轨道收缩。物理世界中主要有两种不同的方式达到这一效果:降温和做功。其实他们都在增加约束。降温,可以看成通过做功压掉了能量,或者说让能量与系统分离了,产生了做功一样的熵减效果。于是相空间变小了。

一个耗散系统的相空间,根据耗散和输入能量的均衡情况,可能收缩也可能增大。能量因此某种程度可以看作广义约束。

有阻尼摆,轨道和相空间不断收缩。广义的散射,系统从一组比较小的相空间状态,转变成一组比较大的状态。非平衡态、稳态、平衡态都是从某个角度和粒度看下来、对某些信息无知、只能看到当前相空间时对系统下的判断。

在内外涨落博弈的影响下,相空间的大小、形状都会发生变化。

8.3 马尔科夫性

除了随机性或大时间跨度等对系统某种程度无知的情况,系统一般的满足 L 约束。只有有限的历史和空间记忆和外推计算和测量能力,这就是马尔可夫性,神经网络的逐层处理也可当做一个例子。所以我们刚才提到的轨道性质都可以通过研究系统的马尔可夫性来逼近。

非平衡统计力学中的郎之万方程、主方程等和马尔科夫链都有关系。

常返或不可约(任意状态可相互到达)非周期(不能回到单位阵)的马尔科夫链才是遍历态或有唯一平稳分布(状态概率不变)。

不可逆、不可分解、收缩或膨胀都可以来自对马尔科夫链性质的分析。

对于更复杂的情况,还能平稳吗?比如三体问题,能否达到平衡态。以及三体这样连续的问题,是否有可能连续不平稳,但某些离散化的结果是可以平稳的,都是值得探究的问题。

8.4 离散化及信息增减

就像我们曾经提到过的,连续性问题更容易分析。但是我们的计算和测量能力是有限的,只能处理离散化的信息。只是在某个粗粒度下,观察轨道,也只能在这个粒度下判断信息的增减与否。时空切片、当前熵、有损粗粒化都只能让我们看到整个系统的一个侧影。某个粗粒化下,信息量甚至有对应的上限。

当我们扩展了视野区域,从时间切片到时空全局,从当前熵到更多的存储和计算,从粗粒化到细粒化,我们被带向了更广阔的相空间和信息。

当然,新旧的空间都难以是平直的,而更多的是扭曲的。经典力学中,哈密顿雅克比理论把相流变成点,把系统演化的时间轨迹拉直。我们也想知道各种局部的视角和离散化对于相空间和信息的大小、多少有怎样的影响。

我们不仅需要做的是对相空间和轨道分解和分类,更重要的是对不同的局域视角和粗粒化方案做分解和分类。

这种对格子系统开始的分析将是全新的课题。格子系统上也会有周期性系统,其上的熵和信息是不变的。但有些格子系统,因为它低层(如果有的某个)连续系统的复杂性,可能是会非各态历经的、可逆的、丢失信息的,等等。相空间状态的格子系统的演变,可能用查找表跳变就能描述,但函数性的分析,将能抓住底层的结构。

量子化以后,不同系统对历史的依赖时长也不一样。底层周期性的系统有可能依赖的更短。

9 扭曲

平直空间是简单的也是稀有的。改变约束条件就很容易扭曲相空间和轨道。而我们面对越来越复杂的系统必然会面对这样的情形。

本节给出扭曲何以产生的一个例子,并说明可分解仍然是我们关注的重点。

9.1 三体

传统研究的理想气体一般地在一个二维矩形或三维长方体内,这是简单的场景。但是如果为其加上势场就会越来越复杂起来。我们提到过插入冷热源的铁棒实际处于平直均匀势场,相空间会产生单一方向的梯度,就像一块下密上疏的海绵。如果加入单一中心引力的势场,情形就会更复杂起来。你可以想象把刚才平直但有密度差的海绵卷曲起来的样子。

势场的存在将扭曲平直空间,而三体这样的场景就更为复杂了。每个粒子既作为扭曲空间的引力源,也作为其他粒子扭曲后空间中运行的实体。

三体问题可以是等概率或各态历经永恒回归的吗?对应的信息量怎样,有上限吗?

现在的研究表明,特定的初始状态是可能达到轨道回归和稳定的。但大部分随意的情况是不可解的。

但是,既然我们的测量和计算能力是有限的,研究特定时空粒度下的这些问题是有意义的。比如粒子出现的密度空间范围是怎样的,单纯从势能最大的角度就可以定义边界。

深入的研究甚至可能不仅获得像电子云一样的密度分布,还能得到某些高层属性。

9.2 扭曲了也要可分解

不同的涨落或无知,会使得系统的等能面变宽,原来狭窄的相空间和轨道可能互相融合或改变拓扑,进而改变可分解性。除了能量,改变空间和时间视域,也都会产生不同的影响。

相空间被挤压或拉伸以后,要保持某种原尺度的分辨率,类似的限制下状态就会有缩并和分裂,轨道也会有集总和分岔。甚至会发生跳变,想象挤压一袋砂石的情形或液晶的排布就很容易获得这个图像。在机器学习中也有 loss spike 这样的实例。

增加不同的约束为相空间和轨道带来不同的扭曲,就像我们给出的例子,如果我们可以做到低层的某些约束之间的等效和互换就可以直接带来计算和测量的优势。如果没有明显的等效可能性,我们只好自行寻找合适的粗粒化或高层的约束视角,来达到我们的目的。

我们在本章下半扩展部分、第三章认识世界、第五章层次化等处继续这个话题。在那里我们甚至不仅要解决对演化系统更深刻的理解、分解和加速,还要继续扩展我们的能力到对特定目标的满足。它们最后可能有一个共同的名字:压缩。


熵是什么 3:第二章、相空间(下)

原创 talentmonkey 2026 年 1 月 16 日 06:50 上海

二下、扩展

在相空间的扩展部分,我们着重研究系统的一些特殊性质。

就像之前所提到的,演化是否带来信息,必须从某个粗粒度的角度来看。如果空间恒定而连续,粒度可以极其细,演化并不会带来新信息。但在合适空间粒度的视角下,系统展现出了新的性质。相对应的,对时间进行不同的粗粒化,当然也会有不一样的性质。物理图像是:空间角度的粗粒度捆绑了多个轨道,时间角度的采样把轨道径向压缩了。

而当系统简单和复杂时,也展现出不一样的性质。我们关注两方面问题:①、对简单系统的分析,能不能无缝的衔接复杂系统,甚至能否作为一个桥梁帮助我们理解越来越复杂的系统;②、如果陷入无知,我们能否从确定性推演,觉察到底是何时无知降临,以及能否从无知和随机性中找到确定性。

粗-细、时-空、小-大、确定-无知,是我们这部分的主题。

1 粗粒化

物理中天然有简并的概念,即把哪些状态看成是一样的。统计物理中不同的状态分类下,有不同的状态数。怎么得到不同状态类的状态数,以及它们之间的演变是统计物理的核心问题。这也涉及到相空间如何分解。

简并有可能是天然的,也可能是我们某种程度的无知造成的。当然,为了实用的目的,我们也可以主动做粗粒化,达到和简并类似的效果:把哪些状态看成是一样的。

粗粒化可以来自计算、测量和随机。

1.1 随机投影

除了直接更改空间尺度的比例尺,对系统进行随机投影是最简单的粗粒化方案了。

通俗的说,根据 JL 引理,塞下 N 个向量只需要 O(logN) 维空间。被随机矩阵投影的数据,也能保留信息,或说大概率恢复出原始信息。这也是压缩感知技术的理论基础。

实际上从无知或最大熵的角度,转换矩阵越随机和满秩,被投影的原数据各维度信息被随机而公平的保存下来。相比之下,如果我们对于要处理的系统或数据有特定的知识,就可以利用这种知识来改变投影的方式,在保留相同投影后信息的条件下,保存更多的投影前信息,提升对系统的复原能力和处理效率。

噪声矩阵投影可以单步保存信息,在需要的时候再通过复杂变换提取信息。而用其他更合适的变换保存信息,就可以把计算更多的放在前处理(训练)中,并在后处理(预测)时更快。前处理(或说训练)的过程就是在调整哪些维度可以被粗粒化掉。另一个角度说,我们可以根据需要调整所谓投影的噪声水平。

随机投影这种不需要太多计算量就可以找到的(近似)低维结构,也是一种约束。可以和图像生成模型的的语义和感知压缩做一个对比。随机投影(及压缩感知)的计算量和效果可以对应的是感知冗余,是比较浅层的。对于结构层次简单的系统,这种投影、或粗粒化、或约束可以达到比较好的效果,即我们会发现投影后系统熵或信息保持较好,可分解性等性质如果有的话没有被严重破坏。但是对于复杂的系统,这样粗粒化或加约束并不行,重要的系统信息比如可分解性会被漏掉,毕竟投影胡乱的压缩了原来复杂、层次化的轨道。我们需要的是对系统更深入的理解,最优的还原系统。合适的粗粒化,是第五章层次化的基础。

1.2 定义

遍历理论表明,确定和随机动力学是同一过程的细粒和粗粒度描述。

相空间和动力学中某些状态足够近,就可以把它们聚合在一起,粗粒化掉。本质是当不影响对系统的分析时,可以将某些不太相关的小量丢弃,或抓住重点有助于采样等后续处理。时间维度的粗粒化也可以是增加跳线,以达到准各态历经。

粗粒化的过程,相当于对系统做了重整化,相空间和轨道都收缩了。

我们已经知道,一般坐标系下的相空间不是等概率和各态历经的。传统物理处理简单结构的相空间,此时可以近似等概率和各态历经而无大的差错。但在面对复杂系统时,就会得出很多悖论。

为了在超越简单的复杂场景下使用传统的概念,有必要选择合适的广义坐标,使得在这个新的坐标系下,等概率和各态历经继续满足。我们要在无知的最大熵,和有知的层次化结构之间做出选择。

力学和热力学,微观和宏观经济,群体遗传学和宏观进化论。后者都是对大量前者的分析,只有超越简单的平均或随机投影这样原始的粗粒化,选择合适层次化的粗粒化方案,才能发现系统内部的结构。

我们需要的不再是单一维度的线性变换式的粗粒化,我们需要的是函数变换这样的广义粗粒化!

将系统通过合适的非线性函数映射到低维流形和直接降低分辨率都是粗粒化,并且是一个谱的左右两端。

1.3 测度

既然单一维度的线性的粗粒化对于复杂系统不可取。那此时微观态空间体积也可以是不规则的了。以扩展的勒贝格测度来描述,就是不再能用诸多规范的小球等半径增长来覆盖整个空间,然后以这样的方式来定义空间的大小和结构。

比较动力系统中的奶和咖啡混合,或者面包师映射及猫图像的拉伸等。合适的物理图像是,我们可以以混淆前的、与坐标轴平行的粗粒度网格作为系统的拆分依据,而不能根据混淆后图案、以坐标不变的粗粒度来测度系统。上面的例子中合适的做法是,随着系统的演化,我们要保持粗粒化结构和数据局部结构共同变化。这样的粗粒化才是合理的,对相空间和轨道的分解和分类也才是有意义的。

当我们能跟随系统从简单演化到复杂,当然可以使用上面这种简单的粗粒化方案。当我们直接得到一个未知系统时,就必须用类似机器学习的方式来学到那个合适的粗粒化函数。

在时间维度也一样,粗粒化要看需要保持多久历史的马尔科夫。以及把时空作为一个统一的系统,有时有助于选择更合适的时空粗粒化方案。

1.4 不同粗粒度的差异

有这样一组开放问题,虽然理想的连续系统,在任意的压缩和拉伸下内蕴性质不变。但是对不同约束应用不同粗细粒度的视角下,展现出来的性质将可能完全不一样:

随机性和确定性、可逆与不可逆、弛豫时间、当前熵和信息、相空间和轨道的可分解性及分类如何变化,等等。如果加上我们后面将提到的系统从小系统逐渐增加复杂度,其变化将更加惊人。

在一组互相无法分辨的粗粒化方案下,确定系统后续的演化,比较对系统一定程度无知,而粗粒化方案确定的演化,也可能是对偶的,这可能是有趣的问题。

如果我们能越来越细粒度的观察一个系统,随着维度或约束的放宽,我们会得到越来越大的相空间和更长的轨道,这样逐渐接近全知的视角下,当前熵大部分时候只有相比相空间大小来说很小的涨落,不会有大的变化。

但当我们用越来越粗的视角观察一个系统,随着维度或约束的收紧,如果这个收紧的方向不均匀,就会使得轨道上的当前熵有较大的起伏。不过考虑到,作为观察者探究世界能力的发展过程,一般的专注于未知的部分,也因而是较为平均的。因此很可能当前熵的起伏有一定的边界限制。

在不同的时空尺度下,以不同的视角和粗粒度来看,系统平衡性也是不一样的。对于理想气体,我们一般地认为其局部迅速达到平衡。而对整体做极端粗粒化后,除非一开始是所谓非平衡态,否则各处也是平衡的。但是我们很容易发现某些尺度下不同的涨落存在。真实的宇宙更是这样,微波背景辐射也是有疏密及层次的。第四章演化与生成将会给出一些解释。

总之,在不同层次和不同粗粒化视角下观察一个系统,查看当前熵的变化,甚至可能反映这个系统或宇宙的一些本质的性质,比如某种标度不变性。所以我们后面将会仔细的研究熵和信息等的层次问题。

1.5 应用

平衡态,或无知也可以打包成某种吸引子。定义不同粒度的平衡态,当然也有了不同粒度下的吸引子。极限环如果调整时空粒度,也可以有吸引子不变或变等的各种可能。

在第一章第 3 节提到过自然的综合函数。当关于一个系统,只有部分粒子的、位置和动量中的部分、知道某个精确度,对系统的估计能多准,能估计哪些统计值,前述不同维度属性之间互相替代的可能性,以及等概率怎么分配是粗粒化问题的简单形式。

除了时空,多组分的混合及不可逆也是粗粒化意义下的,也可以从不同尺度来看,和吉布斯佯谬等也有了关系。在后文也将给出一个佯谬的层次化和粗粒化后的新解释。

量子隧穿,同样可以看成粗粒化了的越过势垒的连续动力系统。

比较机器学习中的流模型和普通模型,流模型只受涨落如计算误差的影响。而普通模型相当于流模型各层主动的去掉或剪枝一些和变换不太相关的小量。在模型处理前后,相空间和轨道的大小,受到计算带来的内外涨落、模型的主动压缩和对重要信息的生成及保持带来的影响。是否满足无目标的压缩,或有目标的生成全赖于粗粒度方案的选择。

协同学中快变换被平均(粗粒化)了,留下慢变换。

倍周期分岔,比较粗粒化后的吸引子融合,可视作反过程。

2 采样

2.1 目的

统计物理和模型中都有采样问题,要采样的准,也要每次采样独立。

理想情况是如果能把时间内化,并且系统样本相对于采样维度是等概率的,那直接随机采样就可以。但这样能成功的情况很少见,比如采样图像为狗的样本,采样维度如果是简单的像素坐标和亮度,那几乎不可能成功。统计物理的语言就是,目标轨道只在相空间中一个很小的区域,而且没有找到合适的约束或粗粒化条件。

即使当轨道已经被找到,主要的限制也在于对于一个系统一般都需要通过准各态历经,逐渐迁移采样。而即使是可遍历的分布,如果不能在有限时间获得足够多样和全面的采样,也是没有实用价值的。

当相空间越大、轨道越长,如果相空间因可分解性而在不同区域之间存在势垒的话,循着轨道进行采样得到足够的样本将会非常漫长。

值得比较一下这样两个属性:弛豫过程和采样过程。前者是从非平衡态向极限环趋向的过程,比如自旋玻璃的弛豫时间就很长,从所有可能图像的相空间找到狗图像所在的轨道并不容易;后者是在极限环上行进的过程,如果轨道够长采样效率就不高,即使找到狗图像所在的轨道,要能走一圈找出所有有代表性的狗图像也有难度。对于特定大小的相空间,这两个速度近似互为倒数。

2.2 低维流形、分解、随机

在上节粗粒化,我们已经列出了一个谱:从随机投影,到局部可分解,到找到系统的低维流形,对系统的认识不断加深,我们可以做更好的广义粗粒化。对于采样问题,可以有类似的操作。

如果能对系统结构有完全的层次化理解,找到了相应的低维流形,就可以在一个比目标轨道更小的轨道上随机采样,再映射回目标轨道,这是最方便之道。扩散模型是当前较好的找到近似低维流形的方案。

即使只能找到轨道的部分可分解性质,通过在已知的分解性环路上随机和采样,也能方便的跨越势垒,有效的提高采样速度。

如果对系统更加无知,我们只能不得不单纯随机一下状态,弛豫到轨道,或跟随轨道演化来进行采样。不过有时候这反而能得到一定的好结果。第五章将会提到偶然跳线的作用。

实际上庞加莱截面上的采样就是一种随机采样。而一般布朗运动那样的随机采样,服从正太分布,属于轻尾分布,不太能取得极端值的分布。而考虑到一般的相空间结构因为状态间满足 L 约束,为了能更快的在更广大区域和层次间进行采样,更高效的选择是莱维飞行。这是一种在不同层次随机化的折中,可以看成某种不同层次角度的最大熵,相比布朗运动这样单层次的随机就会效果好很多了。比较一下,传统的最大熵,是处理同一层的样本。

值得注意的是传染病和纸币流动等也是莱维飞行。

2.3 MCMC

既然提到采样问题,不得不提一下 MCMC(马尔科夫链蒙特卡洛),一个非常有名的采样算法。在半个多世纪前就有了很成功的应用。大致的原理是,既然想采样就要找到一个满足细致平衡条件的马尔科夫链,以此采样就能得到平稳分布下的数据。而偶然得到的转移矩阵马氏链一般的并不符合要求,于是就增加拒绝采样的环节来丢弃不符合要求的数据。并且在多维场景下,从多个不同的维度交替采样,又能得到升级版的吉布斯采样。

MCMC 本质上利用了同一个轨道上不同样本间的相关性,为轨道增加了一个约束,然后通过这种约束来帮助采样,其实就是对相空间和轨道进行分解的特例。而这种相关性在传统是低层次的。更复杂的层次和结构必须用机器学习模型才能发现了。

本质上,传统统计物理和机器学习中的各种方案,从这个新的视角都可以广义化,并在一个更通用的谱或方案中找到自己的位置。这将有助于我们为各学科的历史和所关注的问题,找到更本质的联系。而以往这些朴素的思想,即使现在面对复杂的问题,作为一个基础单元也可以应用到很多局部的环节。

另一个值得注意的是,就像我们前面提到的,样本的独立性一般是采样必须要有的,使用 MCMC 时临近样本有较强的相关性,此时就要做稀释采样。但如果具备一步采样直接估计多步后的结果,那这种操作就没有必要。这很像模型蒸馏。

粗粒化和采样问题都可以看作蒸馏的特例。粗粒化类似通过蒸馏让网络每层变小,而采样的目的是通过蒸馏让网络的层次降低。而在实际使用时,可以根据具体目的折中这一系列的操作。

甚至,从更宽广的视角来看,推测性解码是仅使用蒸馏的加强版,折中计算和测量能力,找到下一个跨越最多当前熵的区间的结果。

3 少粒子

3.1 一些任务

在传统物理系统中,小系统和大系统接触,大系统只有温度进入讨论,是某种能量可获得性的度量。这一般的也是因为物理系统的层次会比较简单,而大系统很难有大偏差。

但是少粒子系统就不一样了。小系统不容易大偏差,也容易受到内外涨落的影响,从约束的角度来看也并不多。在这样的系统中除了温度等表征速度均值的量,方差等逐渐高阶的量也更为重要了。从相空间可分解性角度,即使在物理系统中也具备了丰富的可能性。

对少粒子系统的研究有可能架起一座对复杂系统的层次化结构进行分析的桥梁。比如,随着分辨率提升、或粒子数增多、或不同约束增多,不同粗粒化条件下,相空间变大的趋势、可分解性以及系统的基础结构会发生怎样的变化。都是值得研究的开放性问题。

3.2 两种测量方式

我们此处也可以有外部微扰的和内蕴测量的两种方式,来评估系统的性质。

比如对系统的结构,或各层次熵的度量。既可以外部的,对少粒子系统逐次添加不同的随机扰动,评估扰动前后状态及属性的变化,这种以不同外部系统作为测量工具的评估方式。也可以内蕴的追踪更长时间和使用更高时空分辨率来估计。前面也提到过不同方案的选择,要考虑测不准,以及不同维度成本的折中,主动和被动的视角都是有分析价值的。

4 混沌、随机和确定

贝叶斯和大数定理等,开启了在不确定和确定中探寻联系的先河。

路径积分和最小作用量等也都可以看成把这一思想的发扬光大。

一直以来作为只有有限计算和测量能力的观察者,我们能知晓的只有当前相空间。当计算逐渐触达历史和未来,当测量开始探查我们的视域以外或内部更细粒度,我们就逐渐趋于无知。

当然有时候不想知也是一种无知。可以比较粗粒化和简并。当我们想知道或计算及测量能力足够时,原来一样的东西,就会以及值得被分开。

混沌一般的是计算或时间的无知,随机是我们对空间和测量的无奈,我们却又在其中努力寻求确定性。相当多的热统问题,其实都是在追寻随机热力学的确定性结果。

随机过程建立在概率论和泛函的基础上,是研究随机现象变化规律的数学理论。统计物理研究大量物质在时空中的分布和演变。可以说它们是同一个问题的数学和物理分身。

4.1 一些方向

我们在研究统计物理时会面对如下一些值得关心的问题。当然这些问题在统计物理的扩展如生物、经济、机器学习模型中会更加复杂而有趣。

① 确定问题的随机化

任何模型都可以有确定性和随机化的版本。

为了简化起见,一般用马尔科夫模型研究系统的演化,而受特定噪声扰动的链转移情况是怎样的?马尔科夫模型可以看作有特定相互作用的伊辛模型或元胞自动机的特例,于是也可以研究随机化的伊辛模型。比如把伊辛模型当成演化的过程同时受某种含噪声场的影响。我们已经知道有复杂结构系统的相空间和轨道是可分解的和有势垒的,于是随机的可能性是分层的,也要看是在结构的哪一层随机,并在本层受 L 约束或势垒的影响。

② 确定可以来自随机

我们讨论过的系统受内外涨落同时影响时,合适的情况下系统甚至可能维持稳态,比如冷热源中的铁棒、或训练收敛后的模型。那么有没有可能我们现在觉得确定的一些事物或过程,其实也是大量随机性的集总效应?比如费曼图和加津斯基定理都表明,内部无限的可能性,会在外部显示出确定性。是不是有可能我们认为是确定性实体的量子,也是输入输出变动但整体处于平衡状态的外部性质?虽然脑洞有点大,但这样思考和保有这样的可能性是有价值的。

从随机矩阵也可以产生某些有序的结论。无序不是乱序。如果宇宙是无序的,也可能产生现在被发现的一些对称性。

其他一些例子还有:弦在两端固定或绕圆环等情况下,受限震动而只有整数频率的情况,实际可能是不断连续震动加总产生的效应。以及玻尔兹曼分布、波色和费米统计、黑体辐射、素数分布等都有来自离散的看似随机的基础,而实际又有对应的连续性曲线。

③ 可以在不同层调控随机性

如何通过参数扰动等各种方式平衡不同的噪声条件达到想要的状态,属于混沌控制的 OGY 方法。甚至能达到某种锁相的效果。而锁相也可以认为是通过合作达到的广义吸引子。在后文第五章层次化等章节中,我们将会再次阐述熵以及各传统热力学统计物理量都是有层次化视角的。于是混沌控制,也将可以精细化的定义:我们是在调控哪一层。这是熵力连接系统结构不同层次的起点。

带重要性采样的蒙特卡洛,就可以认为是一种只在某个简单层次应用随机性,而其他层次保持确定的例子。

关庆扬的随机定位技术,有助于理解对数凹分布------凸几何和采样的核心对象,和证明 KLS 猜想。以及其热路径解释也是有趣的话题。

④ 时空的尺度和互换

噪声和随机漂移都可以驱动涨落、热运动、不可逆过程和进化。随机漂移是弛豫时间较长的噪声,而环境噪声的时间尺度较短。

随机和伪随机都是无知,分布也相似。一般的是空间的和时间(计算带来的)的无知,在应用时,可以一定程度互换。

迁移率边是有序和无序的交界,KAM 理论研究微小扰动后系统的长期稳定性。它们可以看成相似问题的空间和时间版本。

确定性系统的演化计算量大了有成本。对于演化规则的细节探查也有成本,因此不得不用随机过程或统计物理来应对。所以未来的不确定,其实也都来自于成本。而且这些成本之间是可以互换的。

这种互换并不是恒定的。和认识及交互的能力也有关。在第三章熵的平台及最大熵,我们还会研究这个话题。

传统概率研究的课题,在某时间片上的多种状态间是不确定的,但在连续时间演化中是确定的。比如量子系统的演化其实是确定的。我们今后也有可能扩展这个概念到:空间确定但时间不确定或时空都不确定。当然就像传统概率在时间片上有确定性的总概率为一,和时间片间的转化概率确定。这种新的扩展也必然是符合某个更高的守恒量的。如果此处,能想到我们提到过熵的时间片、全局、以及当前熵等概念,就会发现它们结构的相似之处和一定的对应关系。

4.2 随机-确定转换

中心极限定理产生特定均值的正态分布。不过我们首先好奇的是,随机从何而来,确定又如何产生。

对于超出当前计算能力或演化很多步后的结果,从当前视角看我们对其无知。对于测量范围以外或精细能力之下的空间,我们依然无知。这些都是是受限于计算、存储和测量能力造成的。所以我们提到过当前熵的概念。以及把有限的能力在不同维度之间分布,也会得到某种测不准。

但是对无知做统计,又会得到确定性的分布。对分布进一步做均值、方差等矩分析,又能得到确定性的值。

很多理论都有局部-整体、确定-随机,等成对的两个版本。我们会发现局部加总得到某个层次下的整体,而整体又是另一个层次下的局部。这个过程中会不断出现随机和确定之间的转换。

系统微观演化依据的自然规律是决定性的,一定层次的宏观因为分辨率和计算能力的不够而导致的无知是随机性的,对这个随机的层次继续集总,将再次得到决定性的宏观。惠更斯原理、路径积分等都是如此。从无数的低一层或多层确定性分布中抽取一部分,因为最大熵的概率平均,所以抽取有限分量就可以逼近和代替整体了。在第四章演化与生成,我们会仔细研究这个过程微观下是如何产生的:演化使系统有了疏密之分,然后产生褶皱、拓扑变换和势垒。第五章层次化的一个重点也是,确定性的产生来自层次关系的跳线。

让我们解剖一个特别的例子来说明随机和确定性的互相转化:从力学到动理学到流体力学,就是一个典型案例。

从确定性的力学到动理学,随机性出现;再到流体力学,随机性消失、确定性再次出现。统计独立连接力学方程和动理学,局域守恒和平衡连接动理学和流体力学。碰撞项消除得到流体力学方程,相互作用信息进入输运系数,这也使我们想到了电学的屏蔽效应和流体中运动物体的等效质量等物理现象。

物理相互作用有特征程,物理过程有特征时间。比碰撞时间长的时间尺度内,局域参量被平滑。最终局域温度、压强、密度、能量、动量,这些宏观量成为流体力学方程的主要变量。在第五章层次化,我们还将看到更多低层相互作用强、高层弱的例子。

还值得注意的是,玻尔兹曼方程的随机性来自于,分子混沌拟设或初始条件的随机性。而信息的丢失既可以来自随机化,也可以来自平均化。我们有疑问:随机化和平均化可以或何时可以等效吗?从力学到动理学再到流体力学,就是先随机再平均。

答案是这样的:随机的时候,我们对系统的细节不知道,但是对于分布有一定的预期,所以让某些状态因随机而是接近一致的,并且寄希望于对整体结果影响不大。这样的期望本身是天真的,但是演化做了补救,或者说我们所在的这个宇宙只要基于一个不要太离谱的初始化分布,不断演化,最后居然都能在某个层次上得到差不多的结果。(希望读者此时也能想到等概率和各态历经在当前几何及空间约束的情况下能被近似满足的原因。)反过来说,调整预期,将计算的结果与对世界测量的结果对齐,就可以得到演化早期的大致分布。这一块的具体展开,将留待第三章熵的平台及有效理论等处。而平均的时候,我们出于只关注重点的目的,将一些次要的信息丢掉了。

所以整体的物理图像是这样的,我们基于当前已获得的信息,建立世界的结构。因为无知,对每种可能都用最大熵或等概率把它纳入进来。其中差不多的状态我们选一个代表;为了得到集总效应,再做一次平均。之后,将得到的理论和现实测量及计算对齐,修改有知和无知的参数,重来一遍。广义化的平均过程还可以是带权重的。随机化的过程,是一对多或多对多的测量和采样,而确定性过程是多对一或一对一的集总。

从这个视角看,机器学习中的激活函数 relu 就是一种(只折叠一次的)对数据的随机操作,而线性变换又类似某种平均。最后寻求对齐的训练过程,就是在调整平均方案的权重。

值得注意的是理论力学中研究的虚位移、变分法和最小作用量在新的视角下也可以是有层次的,我们不断要问自己是在哪一层下做这样的计算。对于噪声的分类、如何加噪声来随机化、怎么处理平均和时间维度的演化,都应该有分层的视角。

4.3 各类应用

物理世界或模型中,涨落来自无知,可以来自系统内外。

粒子物理中的各种守恒,有些只在某些阶段守恒,有些可能不是真正的守恒,而是高级抽象的一种近似或综合。散射截面也是来自随机性的统计性结论。

如前所述,温度是一个集总的自然的抽象概念。特定温度下,比如水的液态区间,还是会有一定量粒子的速度在典型的固态或气态区间。所以对于越来越少粒子的系统,尚可讨论温度,却不宜讨论固液气态了。

渗流问题和二维或三维空间的连通性有关,有一个基于随机性的确定性阈值。阈值也可看成势垒及相空间可分解的问题。随着局部联通路径的增多,达到渗流阈值后,导电和流动性的突变,明显对应了相空间的分解和分类问题。对数凹分布包括布朗运动的性质、溶胶和凝胶的形成也与此同理。

晶体生长,内部位错等拓扑异常的产生和宏观效应,以及准晶或其他分形结构,也有随机性和确定性的影子。

生物脑的计算和测量受诸多随机性的干扰,但是最后结果能保持一定程度的稳定。甚至神经系统传输信号,在噪声和衰减下稳定,都可能来自于混沌通信的同步调制机制。而灵感是随机跳线的作用。我们在第五章层次化,会论证这一点。

随机共振,噪声能量能向信号转移,特定的噪声,反而增加信噪比。其思想可能应用于模型训练或预测。

信息论中的噪声、郎之万方程等的随机项,在不同环境可以有不同的噪声分布,并且噪声也是分层的。

数据增强和多模型结果的 ensemble 有助于提升效果和泛化能力。

模型训练和物理系统都受内外涨落的影响。也都有演化的动力学因素。值得建立语境和各种属性的对应,比如稳定性、弛豫时间、平衡态状态大小、物理系统的彩票假设...等等。

SGD 是随机近似的变体,其早期版本有 Robbins-Monro 算法和 Kierer-Wolfowitz 算法。

自然语言的词元和语句等都是互相定义和支撑的。语义之间也可以用类似路径积分来表述。反过来物理世界需要 transformer 的等价物吗?或者物理世界更好的表示是什么?


熵是什么?一场 200 年的探索之旅

原创 Zack Savitsky 集智俱乐部 2025 年 5 月 14 日 20:32 上海

导语

时间为何总是向前流动?为何世界在宏观层面呈现出确定性,而微观世界却充满不确定?这背后,隐藏着一个深刻的物理学概念------熵。熵的增长规律,紧密关联着我们最基本的经验,揭示了自然界不可逆的演化方向。自 1824 年萨迪·卡诺首次提出熵的概念以来,它的内涵在物理学、信息论、生态学等领域不断演化。

在两百年后的今天,我们正在迎来对这一量化指标的全新理解:熵不再被视为系统固有的属性,而是相对于与系统互动的观察者而言的属性。这种现代观点揭示了信息与能量之间的深刻联系,这一联系正推动着微观尺度上的微型工业革命。

研究领域:熵,不确定性,观察者,熵增,信息论,热力学第二定律**

Zack Savitsky | 作者

乌穆语、梁金

| 译者

任超

| 审校

Quanta | 来源

什么是熵?一个衡量我们的无知程度的标准。

整整两百年前,一位法国工程师提出了一个理念,试图量化宇宙不可避免地走向衰退的过程。然而,如今我们所理解的"熵" (Entropy),与其说是关于世界的一个客观事实,不如说是反映我们日益增长的无知。接受这一真相,正促使人们重新思考诸多领域的问题,从理性决策到机器的极限,无一例外。

生命就像一部关于毁灭的文集。你所建造的一切最终都会崩塌。你所爱的人终将逝去。任何秩序或稳定的感觉都不可避免地会瓦解。整个宇宙都走在一条令人沮丧的漫漫旅途之上,最终抵达一个单调沉闷,而又极度混乱的状态。

为了刻画这种宇宙级的衰退,物理学家们使用了一个概念,称为"熵" (Entropy)。熵是对系统无序程度的衡量。有一条定律宣称熵总是不断增加,这条定律被称为"热力学第二定律" (Second Law of Thermodynamics)[1],它是自然界中最无法逃避的法则之一。

我长期以来一直被一种感觉所困扰,那就是宇宙似乎总有走向混乱的普遍趋势。秩序本质上是脆弱的。制作一个花瓶需要数月的精心规划和艺术创作,但用一个足球砸碎它却只在一瞬间。我们一生都在努力理解这个混乱且不可预测的世界,然而,任何试图建立控制的努力似乎总是适得其反。热力学第二定律断言机器永远无法达到完美效率。这意味着,无论宇宙中出现了怎样的结构[2],其最终作用都只是进一步耗散能量------无论是最终爆炸的恒星,还是将食物转化为热量的生物体。哪怕我们竭尽全力,我们仍然是熵的代理人[3]。

"生活中唯一确定的东西只有死亡、税收和热力学第二定律,"麻省理工学院的物理学家塞斯·劳埃德 (Seth Lloyd) 写道[4],我们无法避开"熵"这个概念。熵的增长与我们最基本的经验紧密相连,它解释了为何时间总是向前流动[5],也解释了为何世界看似是确定性的,而不是量子力学中的不确定状态[6]。

尽管熵具有根本性的重要意义,但它却可能是物理学中最具分歧的概念。"熵一直是个难题,"Lloyd 对我说。这种争议源于"熵"这个术语在不同学科间的混用和扭曲------它在物理学、信息论、生态学等领域含义相同,但却格局分野。但更深层的原因在于,要真正掌握熵的本质,需要克服一些令人不适的哲学障碍,这种思维上的深刻转变,使许多人难以全面理解。

在过去一个世纪中,物理学家们努力将看似无关的领域统一起来,他们为熵带来了新的光芒------将观察的焦点从外部系统转向观察者自身,并将概念的中心从"无序"转变为"无知"。如今,熵不再被视为系统固有的属性,而是相对于与系统互动的观察者而言的属性。这种现代观点揭示了信息与能量之间的深刻联系,这一联系正推动着微观尺度上的微型工业革命。

在熵的概念首次提出的两百年后,我们迎来了对这一量化指标的全新理解,它不再是虚无主义的象征,而是更具"机会主义"的象征。这种概念的演变正在颠覆旧的思维方式,不仅关乎熵本身,还关乎科学的意义以及我们在宇宙中的角色。

火的动力

熵的概念源于工业革命时期对制造完美机械的尝试。一位 28 岁的法国军事工程师,名叫萨迪·卡诺 (Sadi Carnot),试图计算蒸汽动力引擎的极限效率。1824 年,他出版了一本 118 页的书[7],书名为《论火的动力》(Reflections on the Motive Power of Fire),并在塞纳河畔以 3 法郎的价格出售。卡诺的书在科学界几乎无人问津,几年后,他因霍乱去世,许多手稿和他的遗体一起被火化,化为灰烬。然而,这本书有一些得以幸存,其中蕴含着热力学这门新科学的火种------火的原动力。

17 岁的萨迪·卡诺。

图源: 路易-利奥波德·布瓦伊 (Louis-Léopold Boilly)

卡诺认识到,蒸汽引擎的核心是一种机器,它利用了热量从高温物体流向低温物体的倾向。他设计了所能想象的最有效的引擎,并为热量转化为功的效率设定了一个上限,这一结果如今被称为"卡诺定理" (Carnot's Theorem)。他在书中最后一页提出的一个警告最具深远意义:"我们不应该指望在实践中完全利用燃料的全部动力。"总有一些能量会通过摩擦、振动,或其他不受欢迎的运动形式而耗散。完美的效率是无法实现的。

几十年后的 1865 年,德国物理学家鲁道夫·克劳修斯 (Rudolf Clausius) 阅读了卡诺的书,为那些注定要耗散的能量比例创造了一个术语。他称之为"熵" (Entropy),这个词来源于希腊语中的"转变"一词。随后,他提出了后来被称为"热力学第二定律" (Second Law of Thermodynamics) 的理论:"宇宙的熵趋向于最大值。"

那个时代的物理学家错误地认为,热是一种流体(称为"热质"(caloric))。在接下来的几十年里,他们逐渐意识到,热其实是单个分子相互碰撞的副产品。这一视角的转变,使得奥地利物理学家路德维希·玻尔兹曼 (Ludwig Boltzmann) 能够用概率重新定义并深化熵的概念。

鲁道夫·克劳修斯(左)首次提出熵趋于增加的洞见;路德维希·玻尔兹曼将这一增加植根于统计力学。

Theo Schafgans (left); Creative Commons

玻尔兹曼将分子的微观属性(例如它们各自的位置和速度)与气体宏观属性(例如温度和压力)的区分开来。试想一下,假设不是气体,而是一组在棋盘上的相同棋子。所有棋子确切坐标的列表,被玻尔兹曼称为"微观状态" (microstate);而它们的整体构型------例如是形成一个星形,还是都堆积在一起------则被称为"宏观状态" (macrostate)。玻尔兹曼根据能够产生某一宏观状态的微观状态数量,来定义该宏观状态的熵。一个高熵的宏观状态,是指有许多与之兼容的微观状态------即许多可能的棋子排列方式都能产生相同的总体模式。

棋子形成特定有序形状的方式是有限的,而它们随机散布在棋盘上的方式却多得惊人。因此,熵可以被视为无序的衡量标准。热力学第二定律由此成为一个直观的概率陈述:物体看起来杂乱的方式远多于整洁的方式。因此,当一个系统的组成部分随机地在不同可能构型间切换时,它们往往会呈现出越来越混乱的排列。

,时长 00:33

视频标题:熵是什么?

熵是无序的衡量标准。它对应于一个整体状态下可能存在的微观构型的数量。

1/3:假设一个盒子里有九个粒子,它们必须聚集成一个大正方形。这种状态只有 16 种可能的方式;

2/3:现在假设这些粒子可以占据盒子中任意方格,可能的排列方式达到了 94,143,280 种;

3/3:因为粒子分散排列的方式多得如此之多,粒子进入分散状态的可能性是压倒性的。这正是热力学第二定律的核心思想:一个封闭系统的熵总是增加的。

约纳斯·帕尔诺 (Jonas Parnow) 和马克·贝兰 (Mark Belan)/《量子杂志》(Quanta Magazine);创意共享 (Creative Commons: CC BY-ND 4.0)[8]

在卡诺的引擎中,热量从高温流向低温,因为气体粒子完全混合在一起的概率,远高于按速度分隔------一边是高温、快速运动的粒子,另一边是低温、缓慢运动的粒子。同样的道理解释了为何玻璃会破碎、冰会融化、液体会混合、树叶会分解。事实上,系统从低熵状态转向高熵状态的自然倾向,似乎是宇宙中唯一能可靠赋予时间一致方向的现象。熵为那些本可在正反方向上同样发生的过程,刻画出了时间的箭头。

熵的概念最终远远超出了热力学的范畴。"当卡诺写下他的文章时,我认为没人能想象到它将会带来什么,"艾克斯-马赛大学 (University of Aix-Marseille) 的物理学家卡洛·罗韦利 (Carlo Rovelli)[9] 说道。

物理学家卡洛·罗韦利长期强调物理学中量的观察者依赖性,包括熵。

图源:Christopher Wahl

熵的延伸

熵在第二次世界大战期间迎来了新生。美国数学家克劳德·香农 (Claude Shannon) 当时致力于加密通信渠道,包括连接富兰克林·D·罗斯福 (Franklin D. Roosevelt) 和温斯顿·丘吉尔 (Winston Churchill) 的通信线路。这一经历促使他在接下来的几年里,深入思考通信的基本原理。香农试图测量一条信息中所含的信息量,他通过一种迂回的方式做到了这一点------将知识视为不确定性的减少。

克劳德·香农,被称为信息论之父,将熵理解为不确定性。

图源:Estate of Francis Bello;Science Source

乍一看,香农提出的公式似乎与蒸汽引擎毫无关系。给定消息中可能出现的一组字符,香农的公式将"下一个字符的不确定性"定义为:每个字符出现概率与其概率对数的乘积之和。但如果每个字符的出现概率相等,香农的公式就会简化,并与玻尔兹曼的熵公式完全相同。据说物理学家约翰·冯·诺伊曼 (John von Neumann) 曾敦促香农将这一量称为"熵"------部分原因是它与玻尔兹曼的熵密切相关,还有部分原因是"没人真正知道熵是什么,所以在辩论中你总能占上风。"

正如热力学中的熵描述了引擎的效率,信息熵则捕捉了通信的效率。信息熵对应于弄清消息内容所需的"是或否"问题的数量。高熵消息是没有模式的,无法猜测下一个字符,因此需要许多问题才能完全揭示其内容。而充满模式的消息包含的信息较少,更容易猜测。"信息与熵之间呈现出一幅非常美妙的交织图景,"劳埃德说,"熵是我们未知的信息;信息是我们已知的信息。"

1957 年,美国物理学家 E.T.杰恩斯 (E.T. Jaynes) 发表的两篇里程碑式的论文[10] 中,通过信息论的视角审视热力学,巩固了这一联系。他将热力学视为一种从不完整粒子测量中进行统计推断的科学。杰恩斯提出,当一个系统只有部分信息已知时,我们应对符合这些已知约束的每种构型赋予相等的可能性。他的"最大熵原理" (Principle of Maximum Entropy) 提供了一种对有限数据集进行预测的最无偏方法,如今被广泛应用于统计力学、机器学习[11] 和生态学[12] 等领域。

因此,在不同领域中发展出熵的概念,却能彼此契合。熵的增加对应于微观细节信息的丢失。例如,在统计力学中,当盒子里的粒子混合起来,我们无法追踪它们的位置和动量时,"吉布斯熵" (Gibbs Entropy) 就会增加。在量子力学中,当粒子与其环境发生纠缠,从而打乱其量子态时,"冯·诺伊曼熵" (von Neumann Entropy) 上升。当物质落入黑洞,外界失去对其信息时,"贝肯斯坦-霍金熵" (Bekenstein-Hawking Entropy) [13] 也会上升。

熵始终衡量的都是无知:对粒子运动的无知、代码中下一个数字的无知,或量子系统确切状态的知识缺失。"尽管熵最初因不同动机被引入,如今我们能将它们全部与不确定性的概念联系起来,"苏黎世联邦理工学院 (Swiss Federal Institute of Technology Zurich) 的物理学家雷纳托·伦纳 (Renato Renner) [14] 说。

然而,这种对熵的统一理解引发了一个令人不安的问题:我们谈论的是谁的"无知"?

,时长 00:21

视频标题:熵作为不确定性。

熵也可以被视为不确定性的衡量标准。一组粒子的无序程度越高,它们的确切排列就越不确定。

1/2:我们以有序状态开始,你知道所有九个粒子聚在一起,点击方格即可揭示粒子的位置。

2/2:在任何可能排列的更无序状态下,找到一个粒子无法告诉你其余粒子的位置。点击方格,找到这种高熵状态下的粒子。

约纳斯·帕尔诺 (Jonas Parnow) 和马克·贝兰 (Mark Belan)/《量子杂志》(Quanta Magazine);创意共享 (Creative Commons: CC BY-ND 4.0)[15]

主观性的气息

作为意大利北部的一名本科物理学学生,卡洛·罗韦利从教授那里学习了熵和无序增长的概念。但他感到有些不对劲。他回家后,将油和水装进一个罐子,摇晃后观察液体分离------这似乎与他所学的热力学第二定律相悖。"他们告诉我的都是胡说八道,"他回忆当时的想法,"显然教学方式存在问题。"

罗韦利的经历揭示了熵之所以令人困惑的一个关键原因:生活中不乏看似秩序增加的情况,从孩子收拾卧室,到冰箱冷却火鸡。然而,罗韦利也明白,他对热力学第二定律的"胜利"只是幻觉。一个拥有超强热视力的超级观察者会看到,油和水的分离如何将动能释放给分子,留下一个热学上更无序的状态。"真正发生的是,宏观秩序的形成是以微观无序为代价的,"罗韦利说。热力学第二定律始终成立,只是有时隐藏在视线之外,罢了。

E.T.杰恩斯 (E.T.Jaynes)(上)在解决威尔拉德·吉布斯 (Willard Gibbs) 提出的悖论时,

阐明了熵的主观性质。

Creative Commons(top);The Scientific Papers of J. Willard Gibbs

杰恩斯也帮助澄清了这个问题。为此,他回顾了 1875 年由约西亚·威尔拉德·吉布斯 (Josiah Willard Gibbs) 首次提出的一个思想实验,这个实验后来被称为"吉布斯混合悖论" (Gibbs Mixing Paradox):假设一个盒子里有两种气体,A 和 B,中间由一块隔板分隔。当你移开隔板时,热力学第二定律要求气体扩散并混合,熵会因此增加。但如果 A 和 B 是相同的气体,且保持相同的压力和温度,移开隔板后熵并不会改变,因为粒子已经处于最大混合状态。

问题来了:如果 A 和 B 是不同的气体,但你无法区分它们,会发生什么?

吉布斯提出这个悖论一个多世纪后,杰恩斯给出了解决方案[16](他坚称吉布斯已明白这一点,只是未能清楚表达)。想象盒子里装的是两种不同的氩气,它们完全相同,唯一的区别是其中一种能溶于一种尚未发现的元素------姑且称为"嗅素" (whifnium)。在嗅素被发现之前,无法区分这两种气体,因此移开隔板后,熵看似没有变化。然而,一旦嗅素被发现,一位聪明的科学家就能利用它区分两种氩气,并计算出两种气体混合时熵的增加。更有甚者,这位科学家还能设计一个基于嗅素的活塞,从气体的自然混合中提取此前无法利用的能量。

杰恩斯阐明了一点:一个系统的"有序性"------以及从中提取有用能量的潜力------取决于执行者的相对知识和资源。如果实验者无法区分气体 A 和 B,它们实际上就是同一种气体。一旦科学家有了区分它们的手段,他们就能利用气体混合的倾向来提取功。熵不取决于气体之间的差异,而取决于它们的可区分性。无序是观察者的主观判断。

杰恩斯写道:"我们能从任何系统中提取的有用功的数量,显然且必然地取决于我们对其微观状态的'主观'信息有多少。"

吉布斯悖论强调,需要将熵视为一种依赖于观察者视角的性质,而非系统固有的特性。然而,这种主观的熵的理解,物理学家们难以接受[17]。正如科学哲学家肯尼思·登比 (Kenneth Denbigh) 在 1985 年的一本教科书[18] 中写道:"如果这种观点成立,将带来一些深刻的哲学问题,并可能动摇科学事业的客观性。"

接受这种条件定义的熵,需要重新思考科学的根本目的。这可能意味着物理学更准确地描述的是个体经验,而非某种客观现实。如此一来,科学家们逐渐意识到熵被卷入了的更大趋势:许多物理量只有相对于观察者才有意义。(甚至时间本身,也因爱因斯坦 (Albert Einstein) 的相对论而变得相对。)"物理学家不喜欢主观性------他们对此很排斥,"加州大学圣克鲁斯分校 (University of California, Santa Cruz) 的物理学家安东尼·阿吉雷 (Anthony Aguirre) [19] 说,"但"绝对"性是不存在的,它从来都是幻觉。"

,时长 00:50

视频标题:熵是主观的。

秩序的概念因观察者的知识不同而异。

1/4:这里有一个房间,里面满是不同形状和颜色的物体。任务是按相似性将物体整理到同一侧。

2/4:首先是爱丽丝,她视力模糊且忘了戴眼镜,只能分辨物体的颜色。

3/4:现在鲍勃进入房间,他是色盲,只能分辨物体的形状。对他来说,房间依然很乱。

4/4:这表明熵是一种主观衡量。不同观察者眼中的有序,取决于他们能获取的信息。

约纳斯·帕尔诺 (Jonas Parnow) 和马克·贝兰 (Mark Belan)/《量子杂志》(Quanta Magazine);创意共享 (Creative Commons: CC BY-ND 4.0) [20]

现在,这种接受逐渐到来,一些物理学家开始探索如何将主观性融入熵的数学定义中。

阿吉雷与合作者们设计了一种新度量方法,他们称之为"观测熵" (Observational Entropy) [21]。该方法通过调整观察者以何种方式"模糊"或"粗粒化" (coarse-grain) 他们对现实的感知,从而改变观察者所能观测到的属性。。然后,它对所有与这些观测属性兼容的微观状态赋予相等概率,正如杰恩斯所提议的。这个方程架起了热力学熵(描述宏观特征)与信息熵(捕捉微观细节)之间的桥梁。"这种粗粒化的、部分主观的视角,是我们以有意义的方式与现实互动的方式,"阿吉雷说。

多个独立研究小组已使用阿吉雷的公式,试图寻找热力学第二定律更严格的证明 [22] 。阿吉雷本人则希望用这种度量方法解释:为何宇宙起始于低熵状态 [23](从而解释时间为何向前流动),以及在黑洞中熵究竟意味着什么。"观测熵框架提供了更多的清晰度,"巴塞罗那自治大学 (Autonomous University of Barcelona) 的物理学家菲利普·斯特拉斯伯格 (Philipp Strasberg) 说。他最近在一项比较不同微观熵定义的研究中引入了这一框架[24],"它真正将玻尔兹曼和冯·诺伊曼的思想与现代研究连接了起来。"

安东尼·阿吉雷定义了一种他称为"观测熵"的量,其他研究者认为这具有澄清作用。

丽莎·谢 (Lisa Tse) 为 FQxI 拍摄

与此同时,量子信息理论家们采取了不同的方法[26] 来处理主观性。他们将信息视为一种资源[27],观察者可以利用它与一个日益与其环境融合的系统进行交互。对于一台拥有无限算力的超级计算机来说,如果它能追踪宇宙中每个粒子的确切状态,熵将始终保持恒定------因为信息不会丢失------时间也将停止流动。但对于像我们这样计算资源有限的观察者,总是不得不面对一个粗粒化的现实图景。我们无法追踪房间里所有空气分子的运动,因此我们取平均值,用温度和压力来描述。随着系统演化到更可能的状态,我们逐渐失去对微观细节的掌控,这种无情的趋势体现为时间的流动。"物理学中的时间,归根结底,是我们对世界无知的表达,"罗韦利写道。无知构成了我们的现实。

"世界外面有一个宇宙,每个观察者也携带着一个内在的宇宙,那就是他们对世界的理解和模型,"阿吉雷说。熵提供了一个标尺,用来衡量我们内在模型的不足。这些模型,他说,"让我们能在也许有时充满敌意、但一定总是充满挑战的物理世界中,做出良好预测并智能地行动。"

知识驱动的探索

2023 年夏天,阿吉雷在英格兰约克郡一座历史悠久的庄园山麓举办了一次静修学术研讨会[28],这次活动是由非营利研究组织"基础问题研究所" (Foundational Questions Institute, FQxI) 主办,该组织创办于 2006 年,阿吉雷也是联合发起人之一。这次活动,吸引了来自世界各地的物理学家,他们聚集在一起,进行为期一周的智力休憩,其他可以参加的活动还包括瑜伽、冥想和野外游泳。这次活动中 FQxI 资助也支持了一些研究者,他们研究如何将信息作为能量来源加以利用。

约克郡 FQxI 静修活动场景。

丽莎·谢为 FQxI 拍摄

对于许多物理学家来说,发动机和计算机的研究界限已变得模糊。他们学会将信息视为一种真实、可量化的物理资源------用来诊断从系统中能提取多少功。他们意识到,知识的确就是力量。现在,他们正着手利用这种力量,展开研究。

一天早晨,在庄园圆顶帐篷里进行了可选瑜伽课程后,团队聆听了夏威夷大学马诺阿分校 (University of Hawai'i at Mānoa) 的物理学家苏珊娜·斯蒂尔 (Susanne Still) [29] 的发言。她讨论了一项新工作,这让人回想起一个世纪前由匈牙利裔物理学家莱奥·西拉德 (Leo Szilard) 首次提出的思想实验[30]。

想象一个盒子,里面有一块可左右滑动的垂直隔板,隔板可在盒子的左右壁之间来回移动。盒子里有一个粒子,位于隔板左侧。当粒子在壁上反弹时,它会将隔板向右推动。一个聪明的"妖精"可以设置绳子和滑轮,使得当隔板被粒子推动时,绳子被拉动,从而提起盒子外的重物。此时,妖精可以偷偷重新插入隔板,重新开始这一过程------看似提供了一个无限能量的来源。

然而,要持续从盒子中提取功,妖精必须知道粒子在盒子的哪一侧。西拉德的引擎以信息为燃料。原则上,信息引擎有点像帆船。在海上,你利用对风向的知识调整风帆,推动船前进。

,时长 00:32

视频标题:利用熵的增加。

知识在利用熵的增加时就是力量。

1/3:让我们用你所知道的做一些功。在这个例子中,你将尝试把这个重物从地面抬起。

2/3:这种有序状态将演变为无序状态。你可以利用对粒子的知识设计一台机器,来利用这种倾向。

3/3:你可以将重物挂在连接隔板左侧或右侧的绳子上。如果你想让扩散的粒子抬起重物,应该选择哪一边?

约纳斯·帕尔诺 (Jonas Parnow) 和马克·贝兰 (Mark Belan) /《量子杂志》 (Quanta Magazine);创意共享 (Creative Commons: CC BY-ND 4.0)[31]

但就像热机一样,信息引擎永远不会完美运行。它们也必须以产生熵的形式支付"税收"。正如西拉德等人指出的,我们无法将信息引擎用作永动机,因为测量和存储信息平均产生的熵至少与提取的功相当。知识带来力量,但获取和记住知识会消耗力量。

西拉德构想他的引擎几年后,阿道夫·希特勒成为了德国总理。出生于犹太家庭,住在德国的西拉德逃离了祖国。他的工作被忽视了几十年,直到最终被翻译成英文,正如斯蒂尔在最近关于信息引擎的历史综述[32] 中所描述的。最近,通过研究信息处理的基本要素,斯蒂尔成功扩展并推广了西拉德的信息引擎概念。

十多年来,斯蒂尔她一直在研究如何将观察者本身视为物理系统,并且如何受制于自身的物理限制。这些限制的边界能被接近到什么程度,不仅取决于观察者能获取的数据,还取决于他们的数据处理策略。毕竟,他们必须决定测量哪些属性,以及如何在有限的记忆中存储这些细节。

在研究这一决策过程时,斯蒂尔发现,收集无法帮助观察者做出有用预测的信息,会降低他们的能量效率。她提出,观察者应遵循她所谓的"最小自我阻碍原则" (Principle of Least Self-Impediment)------选择尽可能接近其物理极限的信息处理策略,以提高决策的速度和准确性。她还意识到,通过将这些想法应用于改进的信息引擎,可以进一步探索这些理念。

莱奥·西拉德提出了以信息为动力的引擎概念。

美国能源部 (U.S. Department of Energy)

在西拉德的原始设计中,"妖精"的测量能够完美揭示粒子的位置。然而在现实中,我们永远无法对系统拥有完美的知识,因为我们的测量总是有缺陷------传感器受噪声干扰,显示器分辨率有限,计算机存储容量受限。斯蒂尔展示了如何通过稍微修改西拉德的引擎,即本质上是通过改变隔板的形状来引入现实世界测量中固有的"部分可观测性"[33]。

想象盒子里的隔板是倾斜的,用户只能看到粒子的水平位置(或许他们看到的是粒子投影到盒子底部边缘的影子)。如果影子完全在隔板的左侧或右侧,你能确定粒子在哪一边。但如果影子位于中间区域,粒子可能在倾斜隔板的上方或下方,因此可能在盒子的左侧或右侧。

斯蒂尔利用部分可观测的信息引擎,计算了测量粒子位置并将其编码到内存中的最优策略。这得出了一种纯物理学推导的算法,该算法目前也在机器学习中使用,称为"信息瓶颈算法" (Information Bottleneck Algorithm) [34]。它提供了一种仅保留相关信息来有效压缩数据的方法。

此后,斯蒂尔与她的研究生多利安·戴默 (Dorian Daimer) 一起研究了 [35] 多种经过修改的西拉德引擎设计,并探讨了不同情况下的最优编码策略。这些理论装置被视为"在不确定性下决策的基本构建模块",拥有认知科学与物理学双重背景的戴默表示,"这就是为什么研究信息处理的物理学让我如此着迷,因为在某种意义上你绕了一圈,最终回到了对科学家本身的描述。"

再次工业化

斯蒂尔并非约克郡唯一对西拉德引擎抱有憧憬的研究者。近年来,多位获得 FQxI 资助的科学家已在实验室中成功研发了实用型引擎,这些引擎利用信息为机械装置提供动力。与卡诺时代不同,如今没有人期待这些微型引擎能推动列车或决定战争胜负;它们主要作为探索基础物理学的实验平台。然而,与历史重演般,这些引擎正促使物理学家们重新思考能量、信息和熵的本质含义。

在斯蒂尔的协助下,约翰·贝克霍弗 (John Bechhoefer) 成功在加拿大西蒙弗雷泽大 (Simon Fraser University) 重现了西拉德引擎[37] 的构想,他们使用了一颗比尘埃还小的二氧化硅微珠,让它漂浮在水浴中。贝克霍弗团队利用激光束捕获这颗微珠,并精确监测其随机热运动。当微珠偶然向上跃动时,他们迅速提升激光陷阱的位置,巧妙利用这一运动。这一实验完美实现了西拉德的设想------通过信息的力量抬起重物。

苏珊娜·斯蒂尔修改了西拉德引擎,以解释不确定性和部分信息的情况。

芒果青柠工作室 (Mango Lime Studio)

在研究现实信息引擎提取功的极限[38] 时,贝克霍弗和斯蒂尔发现,在某些条件下,它能显著优于[39] 传统引擎。受斯蒂尔理论工作的启发,他们还追踪了接收珠子状态部分信息[40] 时的低效性。

信息引擎如今在牛津大学 (University of Oxford) 的物理学家纳塔利娅·阿雷斯 (Natalia Ares) [41] 的帮助下,缩小到了量子尺度。她在静修活动中与斯蒂尔同在一个小组[42]。在杯垫大小的硅芯片上,阿雷斯将单个电子捕获在悬浮于两个支柱之间的细碳线中。这个"纳米管" (nanotube),被冷却到接近绝对零度千分之一度,像吉他弦一样振动,其振荡频率由内部电子的状态决定[43]。通过追踪纳米管的微小振动,阿雷斯和同事们计划诊断不同量子现象的功输出。

阿雷斯的研究走廊两侧的黑板上密密麻麻地写满了量子热力学实验计划。"这本质上是一场纳米尺度的工业革命,"她解释道。其中一项计划中的实验汲取了斯蒂尔的思想,该实验将精确调控纳米管振动对电子状态的依赖程度(相对于其他未知因素),本质上创造了一个可以调节观察者认知盲区的精密控制机制。

阿雷斯和她的团队正在探测最小尺度下热力学的极限------某种意义上的"量子火的动力"。在经典物理中,粒子运动转化为功的效率极限由卡诺定理设定。但在量子情况下,有一系列熵[44] 可供选择,确定哪一个设定相关界限------甚至如何定义功输出------要复杂得多。"如果你像我们实验中那样只有一个电子,熵意味着什么?"阿雷斯说,"以我的经验,我们在这方面仍然很迷失。"

阿雷斯和她的团队正在探索热力学在最微小尺度上的极限------某种意义上的"量子火的动力"。在经典物理学中,粒子运动转化为功的效率极限由卡诺定理确定。但在量子领域,面对众多不同类型的熵可供选择,确定哪一种熵能设定相关边界变得极为复杂------甚至连如何定义功率输出都成为难题。"如果你只有一个电子,就像我们实验中的情况,熵到底意味着什么?"阿雷斯说道。"根据我的经验,我们在这个领域仍然处于探索之中。"

纳塔利娅·阿雷斯在牛津实验室研究量子尺度的热力学,她定制的热粉色冷藏室象征着时代的变迁。

纳塔利娅·阿雷斯赠予

最近,由国家标准与技术研究院 (National Institute of Standards and Technology) 的物理学家妮可·扬格·哈尔彭 (Nicole Yunger Halpern) [45] 领导的一项研究表明,在量子领域中,那些通常被视为同义的熵产生定义可能存在分歧[46],这同样是因为不确定性和观察者依赖性。在这种微观尺度上,某些特性无法同时被精确测量,而且测量某些物理量的顺序会影响最终结果。扬格·哈尔彭认为我们可以利用这种量子奇异性为己所用:"量子世界中存在经典物理中不具备的额外资源,因此我们可以绕过卡诺定理的限制,"她说。

阿雷斯在实验室中推动这些新边界,希望为更高效的能量收集、设备充电或计算铺平道路。这些实验还可能洞察我们所知的最有效信息处理系统------我们自身的机制。科学家们还不确定人脑如何仅用 20 瓦的功率完成极其复杂的心理运算。或许生物计算效率的秘密也在于利用小尺度的随机波动,这些实验旨在发掘出任何可能的优势。"如果这里确实有某种优势科研,自然界很可能已经在利用它了,"埃克塞特大学 (University of Exeter) 的理论学家珍妮特·安德斯 (Janet Anders)[47] 说,她也是阿雷斯的合作者。"我们现在发展的这种基础理解,希望未来能帮助我们更好地理解生物如何运作。"

阿雷斯的下一轮实验将在她牛津实验室天花板上悬挂的热粉色冷藏室中进行。几年前,她开玩笑地向制造商建议改造,但他们警告说金属漆颗粒会干扰实验。后来,公司偷偷将冰箱送到汽车店,覆盖上闪亮的粉色薄膜。阿雷斯将她的新实验场地视为时代变迁的象征,反映了她对这场新工业革命与上一次不同的期望------更加注重道德考量、环境友好且包容多元。

"感觉我们正处于某件伟大而美妙事物开端的时刻,"她说。

拥抱不确定性

"当卡诺写下他的论文时......我认为没人能想象它会带来什么。"

卡洛·罗韦利,艾克斯-马赛大学

2024 年 9 月,数百名研究者在法国帕莱索 (Palaiseau) 聚会[48],纪念卡诺出版其著作 200 周年。来自不同科学领域的学者们探讨了熵在其研究中的独特印记------从太阳能电池的量子跃迁到黑洞的事件视界,熵无处不在。在欢迎开幕式致辞中,法国国家科学研究中心 (French National Center for Scientific Research) 的一位主任以国家名义作出历史性致歉,为当年对卡诺开创性工作的忽视郑重致意。当晚,研究者们聚集在一个奢华的金色餐厅,聆听由卡诺父亲创作的交响乐,由包括作曲家一位远亲在内的四重奏表演。

卡诺的深远洞见源于试图完全掌控机械世界,那是理性时代的圣杯。但随着熵的概念扩散到自然科学中,其目的发生了转变。如今对熵的深刻理解抛弃了对完全效率和完美预测的虚假梦幻想,转而承认世界中不可消减的不确定性。"在某种程度上,我们在多个方向上与启蒙主义分道扬镳,"理论物理学家罗韦利指出------从决定论和绝对主义转向不确定性和主观性。

无论我们接受与否,热力学第二定律都深刻塑造了我们对自身与宇宙的理解:我们不可避免地推动宇宙走向极度混乱的终局。不过,通过重新诠释熵,我们能以更加正面的角度看待这一现象。正是这种不可逆的能量耗散过程,为所有机器提供了动力源泉。尽管有用能量的减少确实从根本上限制了我们的技术发展,但范式的转变常能让我们在表面混乱中发现隐藏的有序结构。

更为关键的是,一个熵不断增加的宇宙同时也是一个充满无限可能性的宇宙。当我们不再徒劳地试图消除不确定性,而是学会管理并适应它时,我们会发现正是这种不可避免的未知状态激发了我们探索知识的原动力。从这个角度看,熵既是限制我们的约束,也是定义人类独特存在方式的基本条件。

你可以哀叹秩序不可避免的崩溃,也可以将不确定性视为学习、感知、推演、做出更好选择、以及利用"你"的力量的机会。

原文链接:
https://www.quantamagazine.org/what-is-entropy-a-measure-of-just-how-little-we-really-know-20241213/

参考文献

1\] \[2\] \[3\] \[4\] \[5\] \[6\] \[7\] [https://sites.pitt.edu/\~jdnorton/teaching/2559_Therm_Stat_Mech/docs/Carnot Reflections 1897 facsimile.pdf](https://sites.pitt.edu/~jdnorton/teaching/2559_Therm_Stat_Mech/docs/Carnot%20Reflections%201897%20facsimile.pdf) \[8\] \[9\] [https://www.cpt.univ-mrs.fr/\~rovelli/](https://www.cpt.univ-mrs.fr/~rovelli/) \[10\] \[11\] \[12\] \[13\] \[14\] (\[15\] ) \[16\] \[17\] \[18\] \[19\] \[20\] \[21\] \[22\] \[23\] \[24\] \[25\] \[26\] \[27\] \[28\] \[29\] [http://www2.hawaii.edu/\~sstill/](http://www2.hawaii.edu/~sstill/) \[30\] \[31\] \[32\] \[33\] \[34\] \[35\] \[36\] \[37\] \[38\] \[39\] \[40\] \[41\] \[42\] [https://www.youtube.com/watch?v=xmgiav22hqI\&t=2s\&ab_channel=FQxI](https://www.youtube.com/watch?v=xmgiav22hqI&t=2s&ab_channel=FQxI) \[43\] \[44\] \[45\] \[46\] \[47\] \[48\] *** ** * ** *** ## via: * 熵是什么 1:第一章、熵的物理起源 * 熵是什么 2:第二章、相空间(上) * 熵是什么 3:第二章、相空间(下) * 熵究竟是什么?它可能是物理学中最具争议的概念 * 熵是什么?一场 200 年的探索之旅