压缩在智能中的作用

为什么"找到规律"就是"压缩"

把一万个数字"2, 4, 6, 8......"传给别人，聪明办法是写一句话："从2开始，每次加2。"这句话完整还原了一万个数字。你做的事，就是找到了生成数据的规律------而"找到规律"正是我们对"理解"和"智能"最朴素的定义。

这个直觉有坚实的数学根基：对一段数据最好的理解，就是能生成它的最短程序。数据越能被压短，说明你越懂它背后的规律；完全随机的数据压不动，因为它本来就没有"道理"可讲。

研究者把大语言模型接上标准编码器去压缩文本、图像、音频，发现它的无损压缩率甚至超过了PNG、FLAC这些专门设计的压缩软件。"预测下一个词"和"压缩数据"在数学上就是同一件事------预测得越准，需要的编码就越短。

但这个命题有强弱两个版本。弱版本------"预测=压缩"------是被严格证明的数学定理。强版本------"压缩=智能"------是一个有力但尚未被证明的工作假设。本文把它当成"一张极有解释力的地图"，而不是"已经盖棺定论的定律"。

压缩的六种方式，对应六类智能

数据里藏着的规律，并不只有"统计规律"一种。还有程序结构、几何对称、因果关系、逻辑公理、物理定律......每一种规律，对应一种压缩方式，也对应一类潜在的智能。今天的大模型，只占据了这张地图上的一小块。

概率压缩：压缩统计规律，学会"下一个最可能是什么"。大模型通过预测"下一个词"，被迫学习语法、常识、推理模式乃至世界知识。这是目前唯一被大规模工程化的范式，但它学到的是"相关性"，不是"为什么"。

算法压缩：压缩生成数据的程序本身，寻找能产出这段数据的最短程序。圆周率π的小数展开看起来完全随机，但存在一个很短的程序能把它一位一位算出来------算法压缩能看穿它背后那段简洁的代码，而概率压缩只会觉得它是"乱码"。

几何压缩：压缩数据的形状与对称结构，把对称性内建进模型结构。一个分子在空间里旋转一下，还是同一个分子。如果一开始就把"旋转不变"这条规则焊进网络结构里，它瞬间就省掉了靠海量数据去学这件事的成本。

因果压缩：压缩变量之间的因果关系，抓住"动手干预"后的规律，而不只是"旁观"到的规律。公鸡打鸣和太阳升起高度相关，但把公鸡抓走，太阳照样升起------真正的因果是"太阳→公鸡"。光靠旁观数据，永远分不清因果和巧合。

符号压缩：压缩规则与逻辑系统，寻找能推出一切的最小公理集合。整个欧几里得几何建立在五条公理之上，从这五条出发可以严格推导出成百上千条定理。门捷列夫把几十种元素的繁杂性质压缩进一张表的位置规律里，甚至反过来预测了还没被发现的元素。

物理压缩 ：压缩物理系统的运转方式，从数据里反推守恒量和自然定律。一条F=ma吞掉了无穷多张实验数据表。核心工具是符号回归------给机器一堆实验数据，让它自动搜索出一条人类可读、可理解的方程，而不是给你一个黑箱预测器。

压缩方式的三条分界线

"会背规律" vs "会推规律"：概率压缩学到的是"见过类似的就会"，算法压缩掌握的是"生成这些题的方法本身"。大模型是那个背了海量例题的学生------在它见过的套路里所向披靡，遇到真正需要现推全新逻辑的题就打滑。

"旁观者" vs "实验者"：概率压缩只能总结相关性，因果压缩需要"动手干预"。大模型像一个读遍了所有书、却从没做过实验的人------他知道书里写"公鸡打鸣后太阳升起"，但从没亲手抓走过一只公鸡去验证。

"靠见得多" vs "靠想得通"：概率压缩是数据驱动，几何和符号压缩是结构驱动------把人类已知的先验直接告诉模型，从而在数据稀缺时也能举一反三。大模型对数据的胃口大得惊人，正是因为它只会第一种。

压缩能力与智能的关系：对数曲线，不是直线

曾有研究跨31个模型、12个基准观察到压缩能力与智能近似线性相关（相关系数约−0.95），给"无脑堆数据、堆算力"提供了理论护身符。但更细致的研究打了个重要补丁：二者的关系其实是对数曲线------单调相关没错，但回报递减。早期每提升一点压缩能力，智能蹭蹭往上涨；到了后期，要付出指数级代价才能换来一点点增长。当初看到的"直线"，只是这条对数曲线最陡的那一小段尾巴。

更深一层：并不是"压缩任何东西"都能换来智能。 如果模型靠的是不稳定的相关性，它就要不断为各种"例外"打补丁；而如果它压缩的是"换了环境也不变的稳定规律"，这笔成本就能被一次性摊销。真正与能力挂钩的，是对稳定不变量的压缩------而这些稳定不变量，往往恰恰对应着因果机制。这等于从理论上预告：纯统计压缩有天花板，要想突破，得换一种压缩对象。

对"压缩即智能"的三种质疑

Chollet：智能是"学得快"，不是"压得好"。 智能不是你能压缩多少存量知识，而是面对全新任务时获取新技能的效率------用尽量少的先验和经验，快速适应陌生问题。压缩衡量的是"存量"，Chollet衡量的是"增量"。

随机鹦鹉批评："压得好"可能只是"记得巧"，不等于"懂"。 高压缩率完全可能只是高效的记忆加插值，而非智能。把因果题目里有意义的变量名换成无意义的占位符，但保持背后的因果图和概率完全不变------结果模型准确率大面积坍塌，说明它之前答对题靠的是词汇层面的先验，而不是真正的推理。

Friston自由能原理：纯压缩静态数据，缺了"具身"和"干预"那一环。 智能体必须通过行动去主动改变世界、再从反馈里学习，而不是被动地压缩一个给定的静态数据集。光靠旁观式的压缩，够不着因果。

三种质疑指向的方向（学得快、要理解、要干预），恰恰和后五种压缩想要补上的短板严丝合缝------质疑者说的"压缩观不够"，和"第一种压缩只是地图的一角"，是同一件事的两种说法。

探讨：下一波跃迁来自换一个压缩对象

大模型先成功，不是因为概率压缩"最智能"，而是因为它最好优化------在"必须可微分、必须能大规模并行、必须有海量数据"这些工程约束下，它是对那个不可计算的理想做出的一个能跑起来的近似。算法、因果、符号压缩之所以"落后"，往往不是因为它们不重要，而是因为它们的搜索空间不可微、会组合爆炸、驯服不了。

如果压缩与能力的关系真的是对数式的、边际递减的，那么"无脑把模型做大、把数据堆多"的纯scaling时代，正在接近它的拐点。下一波真正的能力跃迁，大概率不会来自"压缩得更多"，而会来自换一个压缩对象------从压缩相关性，转向压缩不变量、压缩因果、压缩程序结构。

真正的通用智能，也许不是在六种压缩方式之间来回切换的"调度器"，而是一个统一的底层世界表征------我们费力区分的六种压缩，不过是这同一个底层表征在不同问题上投下的六道不同影子。这件事我们今天还完全不会做，它是整张地图上最大的一块空白。

参考文献

Hutter, Universal Artificial Intelligence (AIXI)
Delétang et al., Language Modeling Is Compression (DeepMind, 2023)
Huang et al., Compression Represents Intelligence Linearly (COLM 2024)
压缩与能力对数关系修正（arxiv 2505.11441）
Dittrich & Kinne, The Information-Theoretic Imperative（压缩效率原理）
ARC Prize, ARC-AGI-3
Bronstein et al., Geometric Deep Learning (2021)
Pearl & Mackenzie, The Book of Why (2018)
METER (ACL 2026) | Caliper (2026) | Causal Tongue-Tie (2026)
Google DeepMind --- Gemini在IMO达到金牌标准
Liu & Tegmark, AI Poincaré | Udrescu & Tegmark, AI Feynman
Chollet, On the Measure of Intelligence (2019)
Bender et al., On the Dangers of Stochastic Parrots (FAccT 2021)
Friston, Free Energy Principle