压缩在智能中的作用

压缩在智能中的作用

为什么"找到规律"就是"压缩"

把一万个数字"2, 4, 6, 8......"传给别人,聪明办法是写一句话:"从2开始,每次加2。"这句话完整还原了一万个数字。你做的事,就是找到了生成数据的规律------而"找到规律"正是我们对"理解"和"智能"最朴素的定义。

这个直觉有坚实的数学根基:对一段数据最好的理解,就是能生成它的最短程序。数据越能被压短,说明你越懂它背后的规律;完全随机的数据压不动,因为它本来就没有"道理"可讲。

研究者把大语言模型接上标准编码器去压缩文本、图像、音频,发现它的无损压缩率甚至超过了PNG、FLAC这些专门设计的压缩软件。"预测下一个词"和"压缩数据"在数学上就是同一件事------预测得越准,需要的编码就越短。

但这个命题有强弱两个版本。弱版本------"预测=压缩"------是被严格证明的数学定理。强版本------"压缩=智能"------是一个有力但尚未被证明的工作假设。本文把它当成"一张极有解释力的地图",而不是"已经盖棺定论的定律"。


压缩的六种方式,对应六类智能

数据里藏着的规律,并不只有"统计规律"一种。还有程序结构、几何对称、因果关系、逻辑公理、物理定律......每一种规律,对应一种压缩方式,也对应一类潜在的智能。今天的大模型,只占据了这张地图上的一小块。

概率压缩:压缩统计规律,学会"下一个最可能是什么"。大模型通过预测"下一个词",被迫学习语法、常识、推理模式乃至世界知识。这是目前唯一被大规模工程化的范式,但它学到的是"相关性",不是"为什么"。

算法压缩:压缩生成数据的程序本身,寻找能产出这段数据的最短程序。圆周率π的小数展开看起来完全随机,但存在一个很短的程序能把它一位一位算出来------算法压缩能看穿它背后那段简洁的代码,而概率压缩只会觉得它是"乱码"。

几何压缩:压缩数据的形状与对称结构,把对称性内建进模型结构。一个分子在空间里旋转一下,还是同一个分子。如果一开始就把"旋转不变"这条规则焊进网络结构里,它瞬间就省掉了靠海量数据去学这件事的成本。

因果压缩:压缩变量之间的因果关系,抓住"动手干预"后的规律,而不只是"旁观"到的规律。公鸡打鸣和太阳升起高度相关,但把公鸡抓走,太阳照样升起------真正的因果是"太阳→公鸡"。光靠旁观数据,永远分不清因果和巧合。

符号压缩:压缩规则与逻辑系统,寻找能推出一切的最小公理集合。整个欧几里得几何建立在五条公理之上,从这五条出发可以严格推导出成百上千条定理。门捷列夫把几十种元素的繁杂性质压缩进一张表的位置规律里,甚至反过来预测了还没被发现的元素。

物理压缩 :压缩物理系统的运转方式,从数据里反推守恒量和自然定律。一条F=ma吞掉了无穷多张实验数据表。核心工具是符号回归------给机器一堆实验数据,让它自动搜索出一条人类可读、可理解的方程,而不是给你一个黑箱预测器。


压缩方式的三条分界线

"会背规律" vs "会推规律":概率压缩学到的是"见过类似的就会",算法压缩掌握的是"生成这些题的方法本身"。大模型是那个背了海量例题的学生------在它见过的套路里所向披靡,遇到真正需要现推全新逻辑的题就打滑。

"旁观者" vs "实验者":概率压缩只能总结相关性,因果压缩需要"动手干预"。大模型像一个读遍了所有书、却从没做过实验的人------他知道书里写"公鸡打鸣后太阳升起",但从没亲手抓走过一只公鸡去验证。

"靠见得多" vs "靠想得通":概率压缩是数据驱动,几何和符号压缩是结构驱动------把人类已知的先验直接告诉模型,从而在数据稀缺时也能举一反三。大模型对数据的胃口大得惊人,正是因为它只会第一种。


压缩能力与智能的关系:对数曲线,不是直线

曾有研究跨31个模型、12个基准观察到压缩能力与智能近似线性相关(相关系数约−0.95),给"无脑堆数据、堆算力"提供了理论护身符。但更细致的研究打了个重要补丁:二者的关系其实是对数曲线------单调相关没错,但回报递减。早期每提升一点压缩能力,智能蹭蹭往上涨;到了后期,要付出指数级代价才能换来一点点增长。当初看到的"直线",只是这条对数曲线最陡的那一小段尾巴。

更深一层:并不是"压缩任何东西"都能换来智能。 如果模型靠的是不稳定的相关性,它就要不断为各种"例外"打补丁;而如果它压缩的是"换了环境也不变的稳定规律",这笔成本就能被一次性摊销。真正与能力挂钩的,是对稳定不变量的压缩------而这些稳定不变量,往往恰恰对应着因果机制。这等于从理论上预告:纯统计压缩有天花板,要想突破,得换一种压缩对象。


对"压缩即智能"的三种质疑

Chollet:智能是"学得快",不是"压得好"。 智能不是你能压缩多少存量知识,而是面对全新任务时获取新技能的效率------用尽量少的先验和经验,快速适应陌生问题。压缩衡量的是"存量",Chollet衡量的是"增量"。

随机鹦鹉批评:"压得好"可能只是"记得巧",不等于"懂"。 高压缩率完全可能只是高效的记忆加插值,而非智能。把因果题目里有意义的变量名换成无意义的占位符,但保持背后的因果图和概率完全不变------结果模型准确率大面积坍塌,说明它之前答对题靠的是词汇层面的先验,而不是真正的推理。

Friston自由能原理:纯压缩静态数据,缺了"具身"和"干预"那一环。 智能体必须通过行动去主动改变世界、再从反馈里学习,而不是被动地压缩一个给定的静态数据集。光靠旁观式的压缩,够不着因果。

三种质疑指向的方向(学得快、要理解、要干预),恰恰和后五种压缩想要补上的短板严丝合缝------质疑者说的"压缩观不够",和"第一种压缩只是地图的一角",是同一件事的两种说法。


探讨:下一波跃迁来自换一个压缩对象

大模型先成功,不是因为概率压缩"最智能",而是因为它最好优化------在"必须可微分、必须能大规模并行、必须有海量数据"这些工程约束下,它是对那个不可计算的理想做出的一个能跑起来的近似。算法、因果、符号压缩之所以"落后",往往不是因为它们不重要,而是因为它们的搜索空间不可微、会组合爆炸、驯服不了。

如果压缩与能力的关系真的是对数式的、边际递减的,那么"无脑把模型做大、把数据堆多"的纯scaling时代,正在接近它的拐点。下一波真正的能力跃迁,大概率不会来自"压缩得更多",而会来自换一个压缩对象------从压缩相关性,转向压缩不变量、压缩因果、压缩程序结构。

真正的通用智能,也许不是在六种压缩方式之间来回切换的"调度器",而是一个统一的底层世界表征------我们费力区分的六种压缩,不过是这同一个底层表征在不同问题上投下的六道不同影子。这件事我们今天还完全不会做,它是整张地图上最大的一块空白。


参考文献

  • Hutter, Universal Artificial Intelligence (AIXI)
  • Delétang et al., Language Modeling Is Compression (DeepMind, 2023)
  • Huang et al., Compression Represents Intelligence Linearly (COLM 2024)
  • 压缩与能力对数关系修正(arxiv 2505.11441)
  • Dittrich & Kinne, The Information-Theoretic Imperative(压缩效率原理)
  • ARC Prize, ARC-AGI-3
  • Bronstein et al., Geometric Deep Learning (2021)
  • Pearl & Mackenzie, The Book of Why (2018)
  • METER (ACL 2026) | Caliper (2026) | Causal Tongue-Tie (2026)
  • Google DeepMind --- Gemini在IMO达到金牌标准
  • Liu & Tegmark, AI Poincaré | Udrescu & Tegmark, AI Feynman
  • Chollet, On the Measure of Intelligence (2019)
  • Bender et al., On the Dangers of Stochastic Parrots (FAccT 2021)
  • Friston, Free Energy Principle
相关推荐
染指111018 小时前
26.RAG进阶(Advanced RAG)-假设性问题索引
人工智能·windows·agent·rag·advanced rag
闵孚龙18 小时前
动态图机制:为什么 PyTorch 调试起来更舒服
人工智能·pytorch·python
甲维斯19 小时前
还要啥Codex!DeepSeek接入Zcode远程连接!
人工智能
百胜软件@百胜软件19 小时前
百胜软件亮相“AI消费新生活”主题日活动,AI智能运营平台入选市级案例征集
人工智能·生活·零售数字化·数智中台·珠宝行业
专注搞钱20 小时前
GPT-4o写设备Recipe:从3小时到10分钟
数据库·人工智能·gpt·半导体
闻道参看20 小时前
贝芯宠AI灵兽 ELFVET 大模型聚焦临床应用,强化宠物诊疗综合能力
人工智能·宠物
MartinYeung521 小时前
[论文学习]重新思考大型语言模型忘却目标:梯度视角与超越
人工智能·学习·语言模型
财经资讯数据_灵砚智能21 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年6月14日
大数据·人工智能·python·ai·信息可视化·自然语言处理·灵砚智能
m0_3801671421 小时前
加密货币价格 API、市场数据 API 与 分析 API 有什么区别?
人工智能·ai·区块链
zyplayer-doc21 小时前
企业知识库安全与权限管理完全指南:从加密到审计的六层防护
人工智能·安全·pdf·编辑器·创业创新