世界的本质是概率,没有因果

不想深入讨论技术和理论,写一篇世界观的随感,世界的本质是概率。

先看我朋友圈多年来对随机和概率的执念:

宏观世界中经理也是有机会穿墙和扣篮的,只是概率很低,而这个概率是世界的结构决定的,聊胜于无。

我也一向不相信事先安排的因果,我也一直在构建 "世界的本质是概率" 的世界观,正好最近遇到一些对程序员解释不清的 "涌现" 相关的话题,完善了我的世界观,作此一文。

上周的思考,LLM 的本质是概率,经常听到一种言论,LLM 没有归纳,演绎能力,它只是给出最大概率,但反过来,当我们不能很容易解释归纳,演绎的深层次因果时,世界的本质会不会本身就是概率,没有时间,也没有因果。深度神经网络可能就是世界模型,至少它们是同构的。

世界模型由 N 维空间刻画,该 N 维空间中的一个点表示世界的一个状态,世界不断变化,世界的下一个状态指向概率最大的坐标点。先看时间是怎么个事:

  • 如果概率最大的状态在两个点之间摆动,你无法感受模式的改变,感受不到时间;
  • 如果概率最大的状态总是指向当前的点,你无法感受模式的改变,感受不到时间;
  • 如果概率最大的状态随机指向 N 维空间任意点,你无法感受模式的改变,感受不到时间;
  • 如果概率最大的状态绘制出一个个曲面相交而成的连续点,这些点的轨迹就是时间;

幸运的是,我们当前的世界一直在曲线上,所以我们有时间的概念,我们的大脑在其中被塑造,所以时间是一种主观感受,是一种可感知的模式的单向改变。

世界甚至没有因果,因果只是一种承接趋向,它亦是概率最大的一个状态转换方向,其中没有必然,只是概率大而已。进一步追问为什么概率最大,也许答案在物理定律,最小作用量是本质,但再深入,比如引力本质是什么,是什么将物体吸引向了地心,让这个状态的概率变得最大,以至于看起来是必然的。这种解释似乎绕了一个圈。但物理学只负责描述,不负责解释。

即使用概率描述,"概率最大状态转移" 中的 "概率" 本身是否需要更基础的解释,若再追溯到物理定律,如最小作用量,则仍会陷入循环论证。换个角度,从结构去描述,图景豁然开朗。没什么定律约束,这就不需要 "那么多" 定律以至必须有个第一性,只有结构约束,它就在那里。

结构决定行为,就像深度神经网络的联结和节点权重决定了最大概率输出一样,没有计算,没有存储,整个网络存储一切,每个知识存储在整个网络。世界的结构也决定了世界状态转向的最大概率在哪里,世界的结构即 N 维空间的曲面,这个世界模型可以复证解释时间,正因为曲面相交而成连续的点,才有时间,因为总存在 "下一个点"。

如果重来 1000...00000 次,牛顿的苹果总会有机掉向天空,但在微观量子尺度,苹果掉向任意方向的概率旧大致相同了。在世界模型看来,量子尺度,牛顿尺度,爱因斯坦尺度其实是一回事:

  • 世界是由 N 维空间的不同曲面相交的连续点构成;
  • 量子尺度可看作低维(< 10?)曲面,比如 x-y 曲面;
  • 牛顿尺度可看作中高维曲面;
  • 爱因斯坦尺度可看作高维曲面;

物理观测的过程就是抽样的过程,尺度越大,N 个维度中抽样叠加向量越多,概率期望越尖锐,这背后由大数定律决定,大尺度抽样涉及海量正交独立的小尺度抽样,样本越多,大数定律越精确展现世界结构的期望。正如此,世界的本质是概率,大数定律就是宇宙定律。

抽样越少,越加平坦的期望,越随机,越加尖锐的期望,物理特征越明显,这解释了量子效应和时空弯曲。量子尺度只存在少量低维特征,抽样少,结果是随机的,而相对论尺度则几乎在 N 量级抽样,结果呈现完全统计特征,该统计特征精确刻画了世界的结构,弯曲的时空恰好呈现一个蹦床结构,引力只是沿最短路径的作用力,而经典力学尺度介于中间,既不随机,也看不出世界的结构。

那么什么是熵,熵同样是概率的度量,按照世界的结构,熵永远会向着概率更大的方向前进,但世界模型的曲线并非不会闭合,在闭合处,曲线又绕了回去,这并非不可能,只是那就是概率最大的下一个点,仅此而已。

值得一提,N 维坐标系的坐标轴是状态的一部分,它的度量结果反过来影响它的度量尺度本身,这正是一种 "隐缠序" 风格的度量,与强调分析的笛卡尔序不同,倒是与中国综合传统非常相似,天人合一。在这个综合的而非分析的模型中,宇宙可能热寂,也可能不会热寂,便无关紧要了,正如如上所述,时间和因果也无关紧要。

Cosmos 和近代科学孤立分析空间,时间,物质,能量以及物理定律相互作用的 Universe 不同,它强调秩序与和谐的哲学和诗意,源自古希腊,本意为 "秩序",与"混沌"相对,常带有系统,美丽,宏伟,和谐,统一的审美或哲学内涵,在古希腊归纳,演绎传统之前,世界也是天人合一的整体,本文更多倾向于 Cosmos 思想。

看看下面的链接 What is the cosmic web?,宇宙真的就像一个神经网络,或许应该反过来说更合适,神经网络跟宇宙同构,结构决定行为,它们的工作方式也同构,都是概率。

下面是一个 cosmic-web 图示:

下面单独从 "时间" 的角度来评述。

N 个维度里本不包括时间,不存在单独的时间维度,但世界状态的变化并非一致和均匀的,比如两个等量的变化,变化 1:A1(...R, L, ..., a, b)-> A2(...L, R, ..., 2a, b) 和变化 2:A2(...L, R, ..., 2a, b)-> A4(...L, R, ..., 3a, b) ,变化 2 却不连续,因此变化并非一定均匀发生,为了体现这种不均匀,几乎总是引入一个单独的维度表示时间:

在相对论中,这个单独的时间维度和空间维度在规律(宏观上连续)变化中具有同等地位。但在量子论中,抽样在低维平面是 1-hot,2-hot 等随机的,没有规律变化的概念,也就不需要一个单独的度量连续变化的维度了。

AIMD 的相图就没有时间轴,因此它无法体现 RTT 对公平收敛的影响,也正因为不一致的 RTT 引入了非均匀收敛,造成了 RTT 不公平性。

那么,时间到底是客观的还是主观的?只怪名字取的不好,如果度量 "规律(连续)变化的均匀性",它就是客观的,但这种客观并非一定需要单独的维度去刻画,如果表示单向流逝,它就是主观的,因此这个结果有赖于我们的大脑构造,是大脑给我们的错觉,而大脑 "恰好" 是生物个体单向衰老的产物。

时间在物理上可被测量,但它并非一定就是一个实在的物理量,如上图所示,时间的度量本质上是 "具有反演对称性的钟摆嘀嗒",这是一种典型的,常用的正交量测量,存在的是 L,R 的位置,而不是时间。

在我看来,抽掉单独的时间维度去建模世界,反而更容易统一所有尺度,也更容易进行数学处理,全部都在同一个坐标系中。

剥离了时间,就都好解释了,LLM 只是用概率描述了结构,整个世界也是用概率描述了结构,而人脑正是这个结构表征的概率的产物,发现了吗,这是一个圈圈,人脑身在此山中而无法自举发现这个结构,就把在结构中承上启下的连续变化解释为因果,就好像被安排好的一样,在这个不断变化因果过程中人脑感受到了一种不可逆的方向感,就解释为时间。而在这时空观背后,一个形而上的,不可知的物自体始终存在,为避开二律背反,人们发明了一系列大致意思相同但不允许深究的概念,上帝,自然律,或者道,道,可道非常道。

不信你看,当人们明明做出来了 LLM 却又无法用机械论的符号主义逻辑去解释它时,争论和迷雾就又开始了,就像前轴心时代一样,不过这次人们用 "非线性","涌现" 等词汇代替了造物主,但它依旧是物自体范畴,依然面临二律背反,这是人脑不可自举的缺陷。

但这是人们认识 "世界的结构决定概率,世界的本质是概率" 的好机会,为形象表达这一世界观,请参考复现中心极限定理的经典 高尔顿板实验

当改变高尔顿板的内部结构,就会改变概率分布,这就是 "世界的结构决定概率"。关于高尔顿板,我单独写了一篇,旨在可视化神奇的概率,参考 LLM(大语言模型)和高尔顿板

下面是我此前写的一个 不太成熟的世界观图景,本文与之对照,还是有所进展:

关于笛卡尔方法论,分析的宇宙和机械论世界观的形成,可参考我年初写的 笛卡尔方法论和解析几何的诞生

经理能扣篮,但不经常,也不绝对。

浙江温州皮鞋湿,下雨进水不会胖。

相关推荐
Coding茶水间2 小时前
基于深度学习的木薯病害检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)
图像处理·人工智能·深度学习·yolo·目标检测·计算机视觉
wan55cn@126.com2 小时前
人类文明可通过技术手段(如加强航天器防护、改进电网设计)缓解地球两极反转带来的影响
人工智能·笔记·搜索引擎·百度·微信
c#上位机2 小时前
halcon刚性变换(平移+旋转)——vector_to_rigid
图像处理·人工智能·计算机视觉·c#·halcon
张彦峰ZYF2 小时前
AI赋能原则6解读思考:深度专业、跨界能力与工具协同的复合竞争力-AI时代的人才新逻辑
人工智能·ai·ai赋能和落地
机器学习之心HML2 小时前
机器学习之心程序和数据清单
人工智能
LiYingL2 小时前
针对大规模语言模型的离群值安全预训练创新,可防止离群值并保护量化准确性
人工智能·机器学习·语言模型
ekprada2 小时前
Day 37 - 早停策略与模型权重的保存
人工智能·机器学习
致Great2 小时前
Nano Banana提示语精选
人工智能·gpt·chatgpt·开源·agent
文弱_书生3 小时前
关于模型学习策略
人工智能·深度学习·神经网络