这是当前 AI 领域最核心的问题之一。
简单说:
大模型越来越智能,不是因为人类写进去了更多规则,而是因为模型规模、数据规模和训练计算量同时增长后,出现了"涌现能力(Emergent Ability)"。
这和人类大脑的发展有一些相似之处。
一、智能到底是什么?
从信息处理角度看:
智能 ≈ 预测 + 记忆 + 推理 + 规划
例如:
看到:
1,2,3,4,?
你预测:
5
这是智能。
看到:
春天来了,树上长出了...
你预测:
新叶
这也是智能。
本质上:
智能就是发现规律并利用规律预测未来。
二、大模型本质在干什么?
以 GPT 为例。
训练目标其实非常简单:
给定前面的文字,预测下一个词。
例如:
中国的首都是
预测:
北京
或者:
天空为什么是蓝色的?
预测下一句话。
表面看:
只是补全句子。
实际上:
为了预测正确,
模型被迫学习:
- 语言
- 数学
- 逻辑
- 物理
- 编程
- 人类行为
等各种规律。
三、为什么参数越多越聪明?
模型参数相当于:
神经网络里的记忆单元。
例如:
小模型
100万个参数
只能记:
- 猫有四条腿
- 苹果能吃
这种简单规律。
大模型
1万亿参数
可以记:
- 量子力学
- 法律
- 编程
- 商业逻辑
- 人类心理学
大量复杂规律。
类似:
小学生
脑子里连接较少。
博士
脑子里连接更多。
参数越多:
能表达的规律越复杂。
四、为什么会出现"突然变聪明"?
这叫:
Emergent Ability
(涌现能力)
研究发现:
模型不是线性成长。
而是:
10亿参数
↓
50亿参数
↓
100亿参数
↓
突然会推理
就像:
0℃
↓
50℃
↓
99℃
↓
100℃
突然沸腾
一样。
例如:
GPT-2:
不会推理。
GPT-3:
突然出现:
- 翻译
- 写代码
- 逻辑分析
能力。
GPT-4:
进一步出现:
- 长链推理
- 工程设计
- 多领域知识整合
能力。
五、Transformer 为什么这么厉害?
2017年,
Attention Is All You Need
提出了:
Transformer
架构。
核心是:
Attention(注意力机制)
例如:
小明把球扔给小红,
因为她接住了。
"她"是谁?
模型会看:
- 小明
- 球
- 小红
之间关系。
Attention 能动态建立关联:
词A ←→ 词B
词A ←→ 词C
词A ←→ 词D
形成巨大的关系网络。
这非常像大脑神经元。
六、为什么数据越多越聪明?
因为:
智能本质是压缩规律。
例如:
模型读了:
100本书
学到一点规律。
读了:
1000万本书
学到更多规律。
读了:
- 维基百科
- 论文
- 代码
- 新闻
- 小说
之后,
模型实际上获得了:
人类文明的大量统计规律。
七、为什么会推理?
这是最神奇的地方。
很多人以为:
OpenAI写了推理程序。
实际上不是。
训练目标仍然是:
预测下一个Token
但为了预测:
12 × 13 =
模型发现:
背答案不够。
必须学会:
12 × 13
=
12 × (10+3)
=
120 + 36
=
156
这种过程。
于是:
推理能力在训练中自己形成。
研究发现:
神经网络内部会自发形成:
- 加法电路
- 减法电路
- 语法电路
- 翻译电路
类似功能模块。
这属于 Mechanistic Interpretability 的研究方向。
八、人脑和大模型有什么共同点?
共同点:
都是神经网络。
人脑:
860亿神经元
连接:
约100万亿突触
GPT类模型:
数千亿到数万亿参数
两者都通过:
输入
↓
调整连接
↓
形成规律
来学习。
区别是:
人脑:
- 耗电约20W
- 持续学习
大模型:
- 训练耗电巨大
- 训练后基本固定
九、未来为什么还会继续变强?
目前有三个增长引擎:
1. 更大的模型
参数增加。
2. 更强的训练
强化学习。
例如:
OpenAI 的推理模型会学习如何分步骤思考。
3. Agent系统
未来不是一个模型。
而是:
大模型
+
搜索
+
代码执行
+
记忆
+
规划
组成智能体。
例如你正在研究的方向:
任务
↓
AI生成代码
↓
执行
↓
失败反馈
↓
重新生成
↓
循环
这已经接近 Agent 的核心结构。
从第一性原理总结
智能越来越强的根本原因可以归结为一个公式:
智能 ≈
神经网络规模
× 数据规模
× 计算量
× 反馈优化能力
当这四个因素持续增长时,模型会不断发现更深层的世界规律。
从本质上看,大模型并不是在"背答案"。
它是在压缩整个人类文明中的规律,而当压缩到足够高的层次时,就会表现出我们称为"智能"的能力。
规律是无限的吗?推理能发现新规律吗?
这是一个非常深的问题,已经触及到智能、科学和哲学的核心。
规律是无限的吗?
答案是:
目前看来,规律可能是无限可发现的,但不一定是无限存在的。
这里有两个不同的问题:
第一种:世界只有有限规律
例如:
- 牛顿三定律
- 麦克斯韦方程
- 量子力学基本方程
如果宇宙最终由少数几个基本定律决定,那么:
text
少量基本规律
↓
组合
↓
无限复杂现象
就像国际象棋:
规则很少,但棋局几乎无穷。
第二种:规律本身也是层层递进的
例如:
text
原子规律
↓
化学规律
↓
生物规律
↓
神经规律
↓
社会规律
↓
经济规律
↓
文明规律
每一层都能发现新的规律。
即使知道原子物理,也无法直接推出:
- 股票市场
- 企业竞争
- 人类爱情
这些高层规律。
所以:
规律可能像分形一样,永远有更高层的规律等待发现。
推理能发现新规律吗?
答案是:
能,而且人类所有重大科学突破几乎都依赖推理。
例如:
牛顿
观察:
text
苹果落地
月亮绕地球
推理:
text
两者会不会是同一种力?
发现:
Universal Gravitation
Albert Einstein
发现:
牛顿理论解释不了一些现象。
推理:
text
时间和空间
是不是会弯曲?
提出:
General Relativity
James Clerk Maxwell
把:
- 电
- 磁
统一起来。
发现:
光其实是电磁波。
这些都不是从数据里直接看出来的。
而是:
text
观察
+
推理
+
验证
得到的。
大模型能发现新规律吗?
这是目前 AI 研究最热门的问题之一。
答案是:
弱规律:已经可以
例如:
AI 已经帮助发现:
- 新蛋白结构
- 新材料候选
- 药物分子
其中代表性成果包括 AlphaFold。
它们本质上是在海量数据中发现人类没注意到的模式。
强规律:目前还比较弱
例如:
让 AI 独立提出:
text
相对论
量子力学
新的数学体系
目前还做不到。
原因是:
AI 主要依赖已有数据训练。
而真正伟大的科学发现往往需要:
text
大胆假设
↓
构造新概念
↓
设计实验
↓
验证
这比单纯模式识别难得多。
推理为什么能发现新规律?
因为推理可以组合旧规律。
举例:
你知道:
text
A → B
B → C
通过推理得到:
text
A → C
更进一步:
你知道:
text
鸟会飞
飞机会飞
有人想到:
text
飞机能不能模仿鸟?
于是有了航空学。
很多创新本质上是:
text
规律A
+
规律B
=
规律C
新的组合。
那么创新到底是什么?
从信息论角度看:
创新 ≠ 无中生有
创新 ≈ 已知规律的新组合
例如:
智能手机:
text
电话
+
计算机
+
互联网
+
触摸屏
=
iPhone
深度学习:
text
神经网络
+
大数据
+
GPU
=
AI革命
所以很多时候:
推理不是创造规律,而是发现规律之间隐藏的连接。
一个更深的问题
如果未来 AI 足够强:
text
观察宇宙
↓
提出假说
↓
设计实验
↓
自动验证
↓
修正理论
形成闭环。
那么 AI 就可能成为真正的"规律发现机器"。
事实上,很多科学家认为:
智能的最高形态,不是聊天,不是写代码,而是持续发现新的规律。
从这个角度看:
人类文明的发展史,本质上就是不断发现更深层规律的历史。
而智能,无论是人脑还是 AI,本质上都可以看成:
text
观察世界
↓
压缩规律
↓
利用规律预测未来
↓
发现更深规律
的过程。