压缩在智能中的作用
为什么"找到规律"就是"压缩"
把一万个数字"2, 4, 6, 8......"传给别人,聪明办法是写一句话:"从2开始,每次加2。"这句话完整还原了一万个数字。你做的事,就是找到了生成数据的规律------而"找到规律"正是我们对"理解"和"智能"最朴素的定义。
这个直觉有坚实的数学根基:对一段数据最好的理解,就是能生成它的最短程序。数据越能被压短,说明你越懂它背后的规律;完全随机的数据压不动,因为它本来就没有"道理"可讲。
研究者把大语言模型接上标准编码器去压缩文本、图像、音频,发现它的无损压缩率甚至超过了PNG、FLAC这些专门设计的压缩软件。"预测下一个词"和"压缩数据"在数学上就是同一件事------预测得越准,需要的编码就越短。
但这个命题有强弱两个版本。弱版本------"预测=压缩"------是被严格证明的数学定理。强版本------"压缩=智能"------是一个有力但尚未被证明的工作假设。本文把它当成"一张极有解释力的地图",而不是"已经盖棺定论的定律"。
压缩的六种方式,对应六类智能
数据里藏着的规律,并不只有"统计规律"一种。还有程序结构、几何对称、因果关系、逻辑公理、物理定律......每一种规律,对应一种压缩方式,也对应一类潜在的智能。今天的大模型,只占据了这张地图上的一小块。
概率压缩:压缩统计规律,学会"下一个最可能是什么"。大模型通过预测"下一个词",被迫学习语法、常识、推理模式乃至世界知识。这是目前唯一被大规模工程化的范式,但它学到的是"相关性",不是"为什么"。
算法压缩:压缩生成数据的程序本身,寻找能产出这段数据的最短程序。圆周率π的小数展开看起来完全随机,但存在一个很短的程序能把它一位一位算出来------算法压缩能看穿它背后那段简洁的代码,而概率压缩只会觉得它是"乱码"。
几何压缩:压缩数据的形状与对称结构,把对称性内建进模型结构。一个分子在空间里旋转一下,还是同一个分子。如果一开始就把"旋转不变"这条规则焊进网络结构里,它瞬间就省掉了靠海量数据去学这件事的成本。
因果压缩:压缩变量之间的因果关系,抓住"动手干预"后的规律,而不只是"旁观"到的规律。公鸡打鸣和太阳升起高度相关,但把公鸡抓走,太阳照样升起------真正的因果是"太阳→公鸡"。光靠旁观数据,永远分不清因果和巧合。
符号压缩:压缩规则与逻辑系统,寻找能推出一切的最小公理集合。整个欧几里得几何建立在五条公理之上,从这五条出发可以严格推导出成百上千条定理。门捷列夫把几十种元素的繁杂性质压缩进一张表的位置规律里,甚至反过来预测了还没被发现的元素。
物理压缩 :压缩物理系统的运转方式,从数据里反推守恒量和自然定律。一条F=ma吞掉了无穷多张实验数据表。核心工具是符号回归------给机器一堆实验数据,让它自动搜索出一条人类可读、可理解的方程,而不是给你一个黑箱预测器。
压缩方式的三条分界线
"会背规律" vs "会推规律":概率压缩学到的是"见过类似的就会",算法压缩掌握的是"生成这些题的方法本身"。大模型是那个背了海量例题的学生------在它见过的套路里所向披靡,遇到真正需要现推全新逻辑的题就打滑。
"旁观者" vs "实验者":概率压缩只能总结相关性,因果压缩需要"动手干预"。大模型像一个读遍了所有书、却从没做过实验的人------他知道书里写"公鸡打鸣后太阳升起",但从没亲手抓走过一只公鸡去验证。
"靠见得多" vs "靠想得通":概率压缩是数据驱动,几何和符号压缩是结构驱动------把人类已知的先验直接告诉模型,从而在数据稀缺时也能举一反三。大模型对数据的胃口大得惊人,正是因为它只会第一种。
压缩能力与智能的关系:对数曲线,不是直线
曾有研究跨31个模型、12个基准观察到压缩能力与智能近似线性相关(相关系数约−0.95),给"无脑堆数据、堆算力"提供了理论护身符。但更细致的研究打了个重要补丁:二者的关系其实是对数曲线------单调相关没错,但回报递减。早期每提升一点压缩能力,智能蹭蹭往上涨;到了后期,要付出指数级代价才能换来一点点增长。当初看到的"直线",只是这条对数曲线最陡的那一小段尾巴。
更深一层:并不是"压缩任何东西"都能换来智能。 如果模型靠的是不稳定的相关性,它就要不断为各种"例外"打补丁;而如果它压缩的是"换了环境也不变的稳定规律",这笔成本就能被一次性摊销。真正与能力挂钩的,是对稳定不变量的压缩------而这些稳定不变量,往往恰恰对应着因果机制。这等于从理论上预告:纯统计压缩有天花板,要想突破,得换一种压缩对象。
对"压缩即智能"的三种质疑
Chollet:智能是"学得快",不是"压得好"。 智能不是你能压缩多少存量知识,而是面对全新任务时获取新技能的效率------用尽量少的先验和经验,快速适应陌生问题。压缩衡量的是"存量",Chollet衡量的是"增量"。
随机鹦鹉批评:"压得好"可能只是"记得巧",不等于"懂"。 高压缩率完全可能只是高效的记忆加插值,而非智能。把因果题目里有意义的变量名换成无意义的占位符,但保持背后的因果图和概率完全不变------结果模型准确率大面积坍塌,说明它之前答对题靠的是词汇层面的先验,而不是真正的推理。
Friston自由能原理:纯压缩静态数据,缺了"具身"和"干预"那一环。 智能体必须通过行动去主动改变世界、再从反馈里学习,而不是被动地压缩一个给定的静态数据集。光靠旁观式的压缩,够不着因果。
三种质疑指向的方向(学得快、要理解、要干预),恰恰和后五种压缩想要补上的短板严丝合缝------质疑者说的"压缩观不够",和"第一种压缩只是地图的一角",是同一件事的两种说法。
探讨:下一波跃迁来自换一个压缩对象
大模型先成功,不是因为概率压缩"最智能",而是因为它最好优化------在"必须可微分、必须能大规模并行、必须有海量数据"这些工程约束下,它是对那个不可计算的理想做出的一个能跑起来的近似。算法、因果、符号压缩之所以"落后",往往不是因为它们不重要,而是因为它们的搜索空间不可微、会组合爆炸、驯服不了。
如果压缩与能力的关系真的是对数式的、边际递减的,那么"无脑把模型做大、把数据堆多"的纯scaling时代,正在接近它的拐点。下一波真正的能力跃迁,大概率不会来自"压缩得更多",而会来自换一个压缩对象------从压缩相关性,转向压缩不变量、压缩因果、压缩程序结构。
真正的通用智能,也许不是在六种压缩方式之间来回切换的"调度器",而是一个统一的底层世界表征------我们费力区分的六种压缩,不过是这同一个底层表征在不同问题上投下的六道不同影子。这件事我们今天还完全不会做,它是整张地图上最大的一块空白。
参考文献
- Hutter, Universal Artificial Intelligence (AIXI)
- Delétang et al., Language Modeling Is Compression (DeepMind, 2023)
- Huang et al., Compression Represents Intelligence Linearly (COLM 2024)
- 压缩与能力对数关系修正(arxiv 2505.11441)
- Dittrich & Kinne, The Information-Theoretic Imperative(压缩效率原理)
- ARC Prize, ARC-AGI-3
- Bronstein et al., Geometric Deep Learning (2021)
- Pearl & Mackenzie, The Book of Why (2018)
- METER (ACL 2026) | Caliper (2026) | Causal Tongue-Tie (2026)
- Google DeepMind --- Gemini在IMO达到金牌标准
- Liu & Tegmark, AI Poincaré | Udrescu & Tegmark, AI Feynman
- Chollet, On the Measure of Intelligence (2019)
- Bender et al., On the Dangers of Stochastic Parrots (FAccT 2021)
- Friston, Free Energy Principle