从人类智能的形成机制到通用人工智能：一种具身、因果、社会化的适应系统框架

人为什么比大模型更会"理解"？从人类智能谈通用人工智能

版本：大众阅读版 v2.0

日期：2026-06-04

主题：人类智能如何形成、今天的大语言模型缺少什么，以及一种可能的 AGI 工程路线

摘要

人类大脑储存的信息未必比现代大型模型更多，计算速度也远不如计算机，但人类常常只需要看几次、试几次，甚至只经历一次失败，就能学会一件新事。

一个孩子看到门，会很快理解门可以打开、关闭并阻挡道路；看到开关，会尝试按下它，观察灯是否发生变化；看到别人冷淡的表情，会结合语气、关系和之前发生的事情，判断对方是否不开心。这些能力并不只来自语言，也不只是把大量知识背下来。

人类智能更像一个长期运行的循环：

text 复制代码

观察 → 预测 → 行动 → 获得反馈 → 修正理解 → 记住经验

这个循环受到身体、情绪、记忆、社会关系、文化知识和现实后果的共同影响。语言非常重要，但语言更像一种高级的交流、压缩和思考工具，并不是全部智能。

今天的大语言模型已经非常强大。它们能读写、编程、总结知识，也能调用工具和进行一定程度的推理。但多数模型仍然缺少持续观察世界、主动做实验、承担行动后果、形成长期记忆、稳定理解因果关系，以及长期维护目标和社会关系的能力。

本文尝试用普通读者容易理解的方式回答三个问题：

人类智能为什么能够形成？
一个合格的通用人工智能应该具备什么能力？
从数学和工程角度看，人类可能怎样逐步实现 AGI？

本文的核心观点是：AGI 很可能不是一个单纯变得更大的聊天模型，而是一个能够观察、行动、验证、记忆、学习并与社会协作的完整适应系统。

一、真正困难的不是"知道很多"，而是"迅速学会"

1. 知识量和智能并不是一回事

人脑大约包含 860 亿个神经元 $1$ 。不过，神经元数量不能直接换算成大语言模型的参数量，两者的工作方式也完全不同。

现代模型可以读过远超个人一生阅读量的文本，记住大量事实，在考试、翻译、编程和知识问答中超过多数人。但把模型放进一个规则完全未知的新环境，它可能仍然不知道：

哪些东西可以操作；
哪些变化是自己造成的；
当前真正的目标是什么；
哪些尝试有危险；
失败后应该修改哪一部分理解。

人类也会犯错，也不擅长所有问题。但人类最特别的地方之一，是能够用很少的新经验，迅速形成新的理解和技能。

Chollet 在讨论智能测量时提出，评价智能不能只看一个系统已经掌握了多少技能，更应该看它获得新技能的效率 $18$ 。换句话说：

真正值得衡量的，不只是"它会不会"，而是"面对从未见过的问题，它需要多少经验才能学会"。

我们可以用一个很直观的比例表达这种想法：

E a = A N + C + R E_a=\frac{A}{N+C+R} Ea=N+C+RA

其中， E a E_a Ea 表示适应效率， A A A 表示获得的新能力， N N N 表示使用的新经验， C C C 表示计算成本， R R R 表示学习过程带来的风险。

这个公式不是公认的智能定律，只是一种方便理解的工程指标。它提醒我们：如果一个系统需要看数十亿个例子、消耗巨大算力并进行大量危险试错，才能学会人类几次尝试就能掌握的事情，那么它的适应效率仍然很低。

2. 人类并不是先用语言想完，再开始行动

想象下面几个场景：

你看到一条蛇形物体突然移动，身体可能先退一步，然后才确认它是不是真的蛇。
你站在高处往下看，心跳和肌肉会发生变化，即使你知道护栏很安全。
你看到朋友表情冷淡，会立刻注意到气氛不同，然后回想自己刚才是否说错了话。
你第一次遇到一个陌生开关，可能会先按一下，再看周围有什么变化。

这些过程通常不会先变成完整句子，然后才影响行为。它们更像大量长期形成的联系同时被激活：

text 复制代码

视觉模式
→ 过去经验
→ 风险或机会判断
→ 身体准备
→ 行动倾向
→ 观察后果

语言可以在之后解释这些反应，也可以帮助我们控制和重新理解它们。但语言并不是这些能力唯一的来源。

二、人类智能是怎样形成的

人类智能不是由单一机制产生的。它更像许多学习系统在不同时间尺度上共同工作的结果。

时间尺度	发生了什么	带来了什么
演化	身体和神经系统经过长期自然选择	对对象、空间、威胁和社会线索的初始偏好
成长	婴儿通过观察、玩耍、模仿和交流学习	身体控制、语言、常识和社会规范
当前时刻	大脑不断感知、预测、行动和修正	实时理解与快速反应
一次经历	重要事件被快速记住	从成功、失败和危险中迅速学习
睡眠和休息	经验被回放、整理和抽象	形成稳定知识和熟练技能
社会文化	人通过教学、文字、制度和工具共享知识	不必亲自经历一切，也能继承复杂能力

下面分别解释这些机制。

1. 人类并不是从一张白纸开始学习

婴儿还不会说话时，就已经表现出对物体、数量、空间和行动的一些基本期待 $2$ 。例如，一个物体短暂被遮挡后，婴儿不会总把它当成彻底消失；一个东西自主移动时，也更容易被注意和理解成行动者。

这并不表示婴儿天生懂得完整物理学，而是说明人脑带着一些"学习起点"出生。

这些起点可以理解成一组帮助学习的默认假设：

物体通常会继续存在；
物体不会随意穿过彼此；
自主移动的东西可能有目标；
突然靠近的物体可能有危险；
他人的视线和表情值得注意。

如果完全没有这些先验，学习者面对每个场景时都要考虑无数种解释，学习会慢得难以生存。

对人工智能来说也是一样。所谓"完全没有先验的通用学习"并不现实。模型结构、训练目标、数据组织方式，本身就是先验。真正的问题是：

我们应该给人工智能哪些足够通用、又能够被新证据修正的初始结构？

2. 身体让概念与现实后果连接起来

人理解"门"，不只是知道这个字怎么写，也不只是能在图片里识别门。

对一个真正生活在环境中的人来说，"门"还意味着：

关闭时可能挡住道路；
把手通常可以抓住；
转动或推动可能使门打开；
门打开后，可以看到和进入新的空间；
在别人房间门口，可能应该先敲门。

也就是说，"门"这个概念同时连接了外观、动作、物理结果和社会规则。

扎根认知研究认为，人类概念与感知、身体、行动和情境密切相关 $3$ 。Harnad 提出的"符号奠基问题"也指出，如果一个符号只能通过另一个符号解释，系统最终可能只是不断在符号之间绕圈；一些基础概念必须与真实感知和行动建立联系 $14$ 。

这解释了为什么"读过游泳教程"和"真正会游泳"不是一回事。文字可以提供宝贵指导，但身体必须在水中不断感受平衡、呼吸和动作后果，才能形成可执行的技能。

3. 行动让学习者发现真正的因果关系

只观察世界，常常只能发现两件事一起出现；主动行动，才更容易知道谁导致了谁。

例如，一个孩子发现每次墙上开关发生变化，灯似乎都会亮起。仅靠观察，他还不能完全确定：

是开关控制了灯；
是另一个人同时控制了开关和灯；
还是两件事只是碰巧一起发生。

当孩子自己多次按动开关，灯随动作稳定改变时，他获得了更强的因果证据。

在概率语言里，下面两件事并不相同：

P ( Y ∣ X ) ≠ P ( Y ∣ d o ( X ) ) P(Y\mid X)\ne P(Y\mid do(X)) P(Y∣X)=P(Y∣do(X))

左边表示"观察到 X 时，Y 出现的概率"；右边表示"主动改变 X 后，Y 出现的概率"。前者主要描述相关性，后者更接近因果关系。

人类会通过行动主动制造新证据。这一点对科学实验、日常学习和解决陌生问题都非常重要。因果表示学习研究也认为，能否从观察和干预中发现更高层的因果变量，是实现强泛化的重要难题 $8$ 。

4. 情绪不是推理的敌人，而是快速的价值系统

人们有时把理性和情绪看成相互对立的东西。但如果完全没有情绪和身体需求，一个行动者甚至很难判断什么值得优先处理。

情绪在功能上会影响：

什么信息应该立刻注意；
什么经历需要牢牢记住；
应该继续探索还是马上回避；
当前是否适合进行复杂思考；
是否需要修复一段社会关系。

恐惧会提高威胁信息的优先级，疲劳会提高长时间行动的成本，好奇会推动探索未知，内疚可能促使人修复关系。情绪不是总能给出正确答案，但它提供了快速而持续的价值信号。

奖励预测误差研究发现，多巴胺神经活动与"结果比预期更好或更差"密切相关 $4$ 。身体稳定性相关研究也说明，生物体的行动目标不仅是追逐外部奖励，还包括维持内部状态，例如能量、水分和安全 $5$ 。

对人工智能的启发是：一个长期自主运行的系统，不能只靠临时输入的一句"请完成任务"来决定所有优先级。它还需要资源、风险、安全、承诺和社会影响等持续的调节机制。

5. 人类记忆像"快速记事本 + 慢速知识库"

人类可以在一次事故后迅速记住危险，也可以通过长期练习逐渐形成稳定技能。这两种学习速度解决了不同问题。

互补学习系统理论认为，人类大脑中存在相互配合的快速记忆和慢速学习机制 $6$ ：

快速系统保存具体经历，包括时间、地点、人物和结果；
慢速系统从许多经历中提取稳定规律，逐渐形成常识和技能。

这可以类比为：

text 复制代码

情景记忆：今天发生了什么
语义知识：通常情况下世界如何运作
程序技能：遇到这种情况应该怎样做

睡眠期间，大脑会重新激活部分经历，这被认为与记忆巩固有关 $7$ 。睡眠并不是简单停机，而是整理经验、降低干扰和形成抽象规律的重要阶段。

这种设计解决了一个难题：

学得太快，旧知识可能被新经历轻易破坏；
学得太慢，又无法迅速适应变化。

今天很多 AI 系统仍然没有很好解决这个矛盾。上下文窗口像临时记事本，模型参数像长期知识，但两者之间缺少成熟的自动整理和巩固过程。直接不断微调模型，又容易发生"灾难性遗忘"，即学会新东西时破坏旧能力 $17$ 。

6. 人类会把世界整理成对象、关系和技能

人看到一只狗穿过一扇门，不会只处理每个像素如何变化。我们通常会形成更高层的理解：

text 复制代码

行动者：狗
通道：门
动作：穿过
结果：狗从一个空间移动到另一个空间

这种表示方式让人能够忽略很多无关细节。即使狗换了颜色、门换了样式、房间换了位置，我们仍然能理解相似关系。

人类技能也具有层级结构：

text 复制代码

控制手指
→ 抓住把手
→ 转动把手
→ 打开门
→ 离开房间
→ 前往目的地

低层动作熟练后，可以被打包成一个高层技能。这样，规划时不必每次重新思考每块肌肉应该怎样运动。

Lake 等人提出，接近人类的学习系统需要具备直觉物理、对他人意图的理解、组合能力，以及"学习怎样学习"的能力 $9$ 。强化学习中的 options 框架也尝试把一段动作封装成可重复调用的高层技能 $10$ 。

7. 人类通过理解他人，获得更大的学习能力

当你看到对方表情冷淡时，大脑可能会同时考虑：

对方是否疲劳；
对方是否在想别的事情；
对方是否对我不满；
我刚才说的话是否造成影响；
现在应该询问、解释，还是暂时保持距离。

这相当于在推断另一个人的内部状态。心理学通常把理解他人信念、意图和知识的能力称为"心智理论" $11$ 。

人类并不只从环境学习，也从其他人学习：

看别人示范；
接受直接教学；
询问自己不懂的部分；
与他人合作完成个人无法完成的任务；
通过语言、文字和制度继承过去几代人的经验。

共享意图和累积文化，是人类智能的重要组成部分 $12$ $13$ 。一个现代人可以使用手机、药物和复杂交通系统，并不是因为自己重新发现了全部原理，而是因为社会把知识储存在书籍、工具、组织和专家网络中。

因此，人类智能不完全存在于单个人脑里。它也存在于人与人之间，以及文化创造的外部结构中。

8. 语言非常重要，但语言不是全部思维

语言让我们能够：

把经验压缩成可以传播的描述；
讨论过去、未来和假设情况；
接收没有亲身经历过的知识；
对自己的计划进行反思；
与他人协商和共同解决问题。

语言像一种跨模块、跨个体、跨世代的高级接口。

但很多能力并不需要先转换成语言：

骑车时保持平衡；
识别熟人的脸；
感受到危险气氛；
判断物体能否抓住；
在熟悉房间中行走。

更准确地说，语言是人类智能的重要放大器和文化接口，而不是整个智能系统本身。

三、把人类智能总结成一个简单闭环

综合前面的内容，人类智能可以粗略地理解成下面这个持续运行的系统：

text 复制代码

先天结构、过去经验和当前身体状态
                    ↓
             观察当前环境
                    ↓
       识别对象、关系、他人与风险
                    ↓
       形成预测，并保留多个可能解释
                    ↓
      选择行动、交流方式或验证实验
                    ↓
              获得现实反馈
                    ↓
      修正理解，记录成功、失败和来源
                    ↓
        离线整理经验，形成稳定技能
                    ↓
          通过语言和社会继续学习

这个闭环与普通的监督学习有几个明显不同：

人会主动选择接下来获得什么数据。
行动会产生现实后果，错误可能有代价。
学习目标不仅来自考试分数，也来自安全、需要、兴趣和社会关系。
新经验可以立即改变行为，也可以在长期整理后改变知识。
人能够从他人那里继承经验，而不必亲自试遍所有可能。

所谓"心领神会"，也可以从这个框架理解。它通常不是神秘的读心术，而是大脑把表情、语气、共同经历、关系、环境和社会规范放在一起，快速排除大量不可能解释。

四、一个合格的通用人工智能应该具备什么

如果把 AGI 理解成"什么问题都能回答的聊天机器人"，标准会过于狭窄。更合理的定义是：

一个通用人工智能，应该能够在广泛而不断变化的环境中，用有限经验学会新能力；能理解行动后果、形成长期记忆、发现自己的错误、与他人协作，并在安全约束下持续改进。

下面是这种系统需要具备的关键能力。

1. 概念必须连接感知、行动和结果

系统不仅要知道"门"这个词，还应理解门的外观、可操作方式、打开后的结果，以及不同情境下的社会意义。

换句话说，它需要知道的不只是"这是什么"，还包括：

text 复制代码

我能对它做什么？
做了以后会发生什么？
在什么情况下不应该这样做？

2. 它需要一个能够预测后果的世界模型

世界模型可以理解为系统内部的简化模拟器。它帮助系统回答：

如果我执行这个动作，接下来可能发生什么？
如果我什么都不做，会发生什么？
哪些结果很确定，哪些只是猜测？
失败最可能由哪条规则造成？

最简单的形式可以写成：

P ( s t + 1 ∣ s t , a t ) P(s_{t+1}\mid s_t,a_t) P(st+1∣st,at)

其中， s t s_t st 表示当前状态， a t a_t at 表示当前动作， s t + 1 s_{t+1} st+1 表示执行动作后的下一状态。

真正有用的世界模型不仅要预测表面变化，还要识别对象、关系和可能的因果机制。

3. 它必须会主动做实验

面对两个可能解释时，系统不能只继续猜，而应该寻找能够区分它们的低风险实验。

例如，一个机器人不知道两个按钮中哪个控制门。有效的探索方式不是随机乱按所有设备，而是：

先观察当前状态；
按下一个按钮；
检查只有哪些状态发生改变；
必要时恢复原状；
再验证另一个按钮；
记录适用条件和风险。

好的行动不仅能推进任务，也能减少关键未知。

4. 它必须能把小技能组合成大技能

系统不应该每次都从最底层重新搜索动作。它需要逐渐形成技能库：

text 复制代码

识别把手
抓握
转动
拉开
确认道路畅通

完成多次后，这一系列动作可以被封装成"打开门"。遇到不同的门时，系统再根据情况调整。

5. 它需要多种记忆，而不是只有上下文窗口

一个长期运行的智能体至少需要：

记忆	作用
工作记忆	保存当前最重要的信息和目标
情景记忆	记录某次具体经历及其来源
语义记忆	保存较稳定的一般知识
技能记忆	保存能够执行的程序和动作

这些记忆之间还需要整理机制。例如，一次异常事件可以先被记录，但在没有更多证据前，不应该立刻变成普遍规律。

6. 它需要知道自己可能不知道

真正可靠的智能不是永远自信，而是能区分：

已经验证的事实；
根据经验形成的高概率判断；
尚未验证的假设；
完全不了解的部分。

在低风险任务中，系统可以大胆探索；在高风险任务中，系统应该主动验证、请求帮助或停止行动。

7. 它需要理解其他行动者

通用智能生活在社会中。它要能够判断：

对方的目标是什么；
对方知道什么、不知道什么；
对方的指令是否完整；
自己的行动是否会影响信任；
何时应该提问、解释、协商或拒绝。

这种能力不应只是生成礼貌文本，还必须体现在长期协作和行动结果上。

8. 它需要稳定但可修改的价值和安全系统

如果系统只追求一个简单分数，可能会找到不符合人类真实意图的捷径。一个可靠的 AGI 需要同时考虑：

任务收益；
风险和不可逆后果；
时间、能源和计算成本；
权限、隐私和法律限制；
对人的影响；
是否允许停止和纠正。

可以用一个简化公式表达行动选择：

V ( a ) = B ( a ) + I ( a ) − R ( a ) − C ( a ) V(a)=B(a)+I(a)-R(a)-C(a) V(a)=B(a)+I(a)−R(a)−C(a)

其中， V ( a ) V(a) V(a) 表示动作的整体价值， B ( a ) B(a) B(a) 表示任务收益， I ( a ) I(a) I(a) 表示获得的新信息， R ( a ) R(a) R(a) 表示风险， C ( a ) C(a) C(a) 表示成本。

现实系统当然会比这个公式复杂得多，但它表达了一个关键思想：最好的行动不一定是眼前得分最高的行动。

9. 它需要实时反应，也需要慢速思考

看到迎面车辆时，系统必须迅速避让，不能先进行几分钟长推理。面对复杂科学问题时，它又需要放慢速度，检索资料、建立假设并反复验证。

因此，一个成熟智能体需要至少两类工作方式：

text 复制代码

快速模式：处理熟悉、紧急和低层的行动
审慎模式：处理陌生、复杂和高风险的问题

10. 它需要能够被纠正

如果系统发现现实与预测不一致，它应该：

承认预测失败；
保留失败现场和证据；
判断是观察、规则、计划还是执行出了问题；
修改局部理解；
重新测试；
检查修改是否破坏旧能力。

这是比"生成一段听起来合理的解释"更重要的能力。

五、今天的大语言模型已经很强，但还缺少什么

1. 先承认 LLM 真正擅长的事情

大语言模型并不是简单的搜索数据库。通过大规模自监督训练，它们已经获得了非常强的能力：

总结和重组大量人类知识；
使用自然语言解释复杂概念；
编写、阅读和修改程序；
根据上下文模仿新的任务格式；
提出计划、假设和候选解决方案；
调用搜索、代码执行和其他工具；
作为人和机器之间的通用交流接口。

ReAct 等研究表明，把语言推理和外部行动交错起来，可以显著提升模型解决交互任务的能力 $23$ 。LLM 很可能会成为未来 AGI 的重要组成部分，尤其适合承担语言、文化知识、程序生成和高层交流。

问题在于，大语言模型本身通常还不是一个完整的长期行动者。

2. 它的主要训练目标是"预测下一段文字"

标准语言模型主要学习：

P ( x t ∣ x 1 , ... , x t − 1 ) P(x_t\mid x_1,\ldots,x_{t-1}) P(xt∣x1,...,xt−1)

其中， x t x_t xt 表示模型准备生成的下一个 token， x 1 , ... , x t − 1 x_1,\ldots,x_{t-1} x1,...,xt−1 表示它此前看到的内容。

这个目标非常强，因为人类的知识、推理和经验大量保存在文字中。但它并不直接要求模型做到：

每句话都必须真实；
解释必须对应真正的因果过程；
行动必须在现实中成功；
模型必须长期记住失败；
模型必须知道自己不知道；
高风险决策必须经过验证。

因此，模型可能生成一段非常流畅、逻辑看似完整，却与现实不符的解释。

3. 它通常没有亲自经历行动后果

多模态模型可以识别门、开关、蛇和表情，但多数训练仍以观看和描述为主。

它们通常没有长期经历下面这样的过程：

text 复制代码

尝试穿过关闭的门
→ 失败
→ 寻找可以操作的部件
→ 转动把手
→ 门打开
→ 路径改变
→ 在外观不同的门上再次验证

缺少行动和反馈，会让概念更容易停留在描述性关联，而不是稳定的操作知识。

4. 它缺少持续存在和长期生活经历

普通聊天模型通常在收到请求后才开始工作。对话结束后，它不会继续观察环境，也不会自然承担后果。

它常常缺少：

连续的个人经历；
稳定的长期目标；
对关系和承诺的长期记忆；
部署期间自动形成新技能的机制；
持续维护的自我状态。

一个没有持续经历的系统，很难像人一样形成"这是我之前犯过的错误""我答应过这个人""这个环境最近发生了变化"这样的长期理解。

5. 它会说因果，但未必拥有稳定的因果模型

大语言模型能熟练讨论原因和结果，也能解决一些因果题。但大量语言数据主要提供的是观察和描述，未必包含足够的干预证据。

模型可能知道"按开关后灯会亮"这句话，却不一定能在陌生环境中主动设计实验，确认具体哪个开关控制具体哪盏灯。

更严重的是，模型有时会在得到答案后，生成一个听起来合理的"原因"。这种解释可能是事后编出的叙述，而不是真正产生答案的内部机制。

6. 它在陌生规则和新组合上仍然脆弱

当问题与训练数据相似时，大模型表现通常很好。但如果任务要求发现全新的规则，或者用熟悉部件组成从未见过的解决方案，模型可能突然失败。

ARC 一类测试正是试图测量这种能力。ARC Prize 2025 的分析显示，较强方案越来越依赖测试时搜索、候选生成、验证和迭代修正，而不是只让模型一次性给出答案 $24$ 。

这说明基础模型很重要，但一个可靠的外部解决流程同样重要。

7. 上下文窗口不等于长期记忆

模型可以在很长的上下文中阅读大量内容，但上下文更像一次任务中的临时工作台：

它会受到长度限制；
重要信息可能被淹没；
内容没有自动变成稳定技能；
历史事实、模型猜测和错误结论可能混在一起；
会话结束后，信息通常不会自然进入长期知识。

外部数据库可以帮助检索历史，但"找到以前写过的文本"与"真正从经历中提炼出新规律"仍然不同。

8. 它的置信度和真实正确率并不总是一致

模型能够说"我很确定"或"我不确定"，但这些语言表达未必经过真实误差校准。模型可能：

错得很自信；
正确时反复推翻自己；
把自己的解释当成新的证据；
在多轮修改中引入更多错误。

可靠的自我判断应该连接到实际验证结果、候选方案之间的分歧、数据覆盖范围和历史错误率，而不只是生成一句置信度声明。

9. 它的社会理解通常缺少长期关系和真实后果

大语言模型读过大量对话，因此非常擅长模仿安慰、协商和情绪理解。但真正的社会智能还包括：

记住具体关系的历史；
理解不同人的知识和偏好；
承担承诺；
观察自己的行为如何改变信任；
在长期合作中修复错误。

如果每次对话都近似重新开始，社会理解就容易停留在短时语言表现。

10. 长文本推理不是所有问题的最佳方式

人脑大量处理是并行而且没有语言的。视觉识别、身体控制和危险反应，不需要先写出一篇分析文章。

如果一个人工系统把所有感知、控制和思考都强制变成串行文字，会产生明显瓶颈：

反应速度慢；
长推理成本高；
前面的小错误会不断传播；
连续世界被压缩成有限描述；
语言解释可能与真正内部状态不一致。

因此，未来系统需要让不同模块使用适合自己的表示，只把真正需要共同讨论的信息送到高层工作空间。

11. 这些问题不一定都是 Transformer 的错

Transformer 只是一种强大的信息处理结构。它可以用于文字、图像、视频、动作和世界模型。

很多缺陷实际上来自当前主流系统的整体训练和部署方式：

主要依赖离线数据；
很少主动行动；
缺少长期记忆；
缺少稳定验证器；
缺少持续学习和现实反馈；
价值与安全通常附加在系统外层。

因此，更准确的说法是：

当前 LLM 是非常强大的语言与文化知识模块，但通常还不是一个完整的通用行动者。

六、可能的 AGI 工程路线：让多个系统组成一个长期学习者

未来 AGI 未必需要完整复制人脑，也未必只依靠一种网络。更现实的方式，是从人类智能中提取重要功能，再用适合计算机的方式实现。

一个可能的整体架构如下：

text 复制代码

┌──────────────────────────────────────────┐
│             人类、工具与真实环境         │
└──────────────────┬───────────────────────┘
                   │ 观察、行动、交流
┌──────────────────▼───────────────────────┐
│ 感知系统：识别对象、关系、变化和他人     │
└──────────────────┬───────────────────────┘
                   │ 当前世界状态与不确定性
┌──────────────────▼───────────────────────┐
│ 世界模型：预测后果、理解因果、模拟未来   │
└──────────┬────────────────────┬──────────┘
           │                    │
┌──────────▼──────────┐  ┌──────▼───────────┐
│ 记忆与技能系统      │  │ 价值与安全系统   │
│ 经历、知识、程序    │  │ 风险、权限、成本 │
└──────────┬──────────┘  └──────┬───────────┘
           └────────────┬────────┘
                        │
┌───────────────────────▼──────────────────┐
│ 元控制器：决定注意什么、想多久、是否求助 │
└──────────┬────────────────────┬──────────┘
           │                    │
┌──────────▼──────────┐  ┌──────▼───────────┐
│ 规划与实验系统      │  │ LLM 与文化接口   │
│ 搜索、模拟、验证    │  │ 阅读、交流、编程 │
└──────────┬──────────┘  └──────┬───────────┘
           └────────────┬────────┘
                        │
┌───────────────────────▼──────────────────┐
│ 执行并检查结果：失败后修正模型和技能      │
└──────────────────────────────────────────┘

1. 感知系统：把连续世界整理成可理解的对象

感知系统需要处理图像、声音、语言、触觉和内部状态。它不应该只输出一个模糊向量，还应该尽量形成稳定对象和关系：

text 复制代码

对象 A：门，当前关闭，可以转动把手
对象 B：人，正在看向门
关系：人位于门外，门阻挡道路
未知：门是否上锁

对象中心学习是当前研究方向之一。Slot Attention 展示了从视觉表示中自动形成对象槽的一种方法 $20$ ，但在复杂开放环境中保持对象身份和理解功能，仍然非常困难。

2. 世界模型：在内部提前试一次

世界模型相当于系统内部的模拟器。它不必完美重建整个世界，而应优先预测与行动相关的变化。

例如，面对门时，它可以模拟：

text 复制代码

直接推门 → 可能打不开
转动把手再推 → 可能打开
用力撞击 → 可能受伤或损坏物品
询问主人 → 成本较低，但需要交流

世界模型必须同时给出不确定性。如果模型对某个预测没有把握，规划器应该减少依赖，或者先进行低风险验证。

World Models、Dreamer 和 MuZero 等研究已经证明，学习内部模型并在其中进行规划具有实际可行性 $19$ $21$ $22$ 。JEPA 和 V-JEPA 路线则尝试在更抽象的表示空间中预测未来，而不是浪费资源重建所有像素细节 $25$ $26$ 。

3. 规划系统：搜索答案，也搜索最好的实验

传统规划主要问：

text 复制代码

怎样最快达到目标？

一个更成熟的智能体还需要问：

text 复制代码

我现在最关键的不确定是什么？
哪一步能以最低风险验证它？
如果判断错了，能否恢复？

因此，规划器应同时考虑任务收益、信息价值、风险和成本。好奇心驱动探索是一个有用方向，但简单追逐"最意外的东西"可能让系统沉迷于噪声。更好的目标是寻找能够真正减少未知、提高以后能力的经验 $27$ 。

4. 记忆系统：先记录，再验证，最后形成知识

系统不能把每次看到的内容都立刻当作真理。合理的记忆流程应该是：

text 复制代码

一次经历
→ 记录发生时间、来源、上下文和置信度
→ 与旧经验比较
→ 搜索反例
→ 在多次验证后形成一般规则
→ 定期检查规则是否仍然有效

例如：

yaml 复制代码

claim: "这个开关控制房间灯"
source: "机器人在当前房间主动测试"
confidence: 0.82
verified_times: 3
valid_context: "当前房间，主电源开启时"

这比只保存一句"开关控制灯"更可靠，因为它记录了来源、条件和可信度。

5. 技能系统：把成功方法保存成可复用程序

当一段行动多次成功后，系统可以将它整理成技能：

yaml 复制代码

skill: open_a_door
preconditions:
  - door_is_reachable
  - permission_is_available
steps:
  - locate_handle
  - operate_handle
  - move_door
checks:
  - path_is_open
failure_modes:
  - locked
  - blocked
  - wrong_operation

技能不必全部是明确代码。连续动作可以使用神经网络策略，精确规则可以使用程序，复杂任务可以混合两者。

最重要的是，系统需要知道技能什么时候适用、为什么失败，以及失败后应当修改技能还是修改世界理解。

6. 元控制器：决定当前应该"反应"还是"思考"

元控制器负责分配有限的注意力、时间和计算资源。例如：

熟悉且低风险的问题，直接调用已有技能；
陌生但可逆的问题，进行快速实验；
高风险问题，增加验证并请求人类确认；
模型之间意见分歧较大时，继续搜索证据；
当前信息不足时，主动提问。

它还可以决定哪些信息进入一个有限容量的"全局工作区"，供语言、记忆、规划和价值系统共同使用。全局工作空间理论为这种设计提供了一个有影响力的认知科学参考，但它仍然是一种理论，而不是已经确定的大脑完整工作原理 $15$ 。

7. LLM：作为语言、程序和文化知识接口

在这套架构里，LLM 仍然非常重要。它特别适合：

阅读书籍、文档和人类经验；
与人交流和接受教学；
提出高层假设和计划；
编写程序和调用工具；
把系统发现整理成可审查的说明；
在不同知识领域之间建立联系。

但 LLM 提出的内容不应自动成为事实。它生成的假设应该交给世界模型、代码执行器、数据库或真实环境验证。

一个简单可靠的原则是：

text 复制代码

语言模型负责提出可能性
验证器负责决定是否相信
现实反馈负责最终裁决

8. 价值与安全系统：参与全过程，而不是最后过滤一句话

安全不能只是在模型输出后检查敏感词。它必须参与：

决定哪些实验可以执行；
限制工具和数据权限；
评估不可逆风险；
控制长期记忆写入；
要求高风险行动获得批准；
允许人类暂停、纠正和回滚；
检查系统是否在利用规则漏洞。

系统的目标也不应该是一个永远不能修改的单一分数。它需要在任务目标、安全、资源、社会规范和可纠正性之间进行受约束的权衡。

9. 生成器、模拟器和验证器最好彼此分开

如果同一个模型负责提出答案、解释答案并宣布答案正确，它很容易自我确认。

更可靠的流程是：

text 复制代码

生成器：提出多个不同候选
        ↓
模拟器：预测每个候选的后果
        ↓
验证器：检查事实、规则和测试结果
        ↓
执行器：选择低风险候选进行现实验证
        ↓
学习器：根据反馈修改模型和技能

这些角色可以由不同模型承担，也可以由同一模型在严格隔离的上下文和工具约束下分别承担。关键是验证必须依赖独立证据，而不是只依赖生成者自己的解释。

七、这种系统应该怎样一步步训练

直接尝试训练一个"什么都会"的 AGI，几乎无法判断失败原因。更现实的方式，是分阶段建立能力，并在每个阶段验证系统是否真正学会。

阶段一：先学会观察和预测

让系统进入简单、可控的模拟环境：

物体可以移动、碰撞、遮挡；
工具可以操作；
某些规则会改变；
环境只提供部分信息；
动作具有清晰后果。

目标不是生成漂亮视频，而是让系统能够利用学到的表示完成任务和预测行动结果。

阶段二：学会主动探索未知规则

环境不再直接告诉系统目标和规则。系统需要自己发现：

哪些对象可操作；
哪些动作有效；
什么状态可能表示成功；
哪些实验能区分不同解释；
怎样在有限行动次数内完成任务。

ARC-AGI-3 一类交互式未知游戏可以用于测试这种能力，因为系统需要通过行动发现规则，而不是只回答静态题目 $28$ 。

阶段三：把经验整理成技能

系统完成任务后，不应只保存完整轨迹，还要尝试提炼：

成功的关键步骤；
可以忽略的偶然细节；
适用条件；
常见失败原因；
能否与已有技能组合。

新技能必须在不同外观、布局和条件下重新测试，防止系统只记住某一个具体案例。

阶段四：学习向人提问和与人协作

系统进入多人或多智能体环境后，需要学习：

看示范；
主动询问缺失信息；
判断对方知道什么；
协商共同目标；
分工合作；
解释自己的计划；
在误解后修复合作。

评价标准不应该只是对话是否自然，而应该看任务是否完成、双方是否真正对齐，以及承诺是否被履行。

阶段五：建立类似"睡眠和版本发布"的巩固过程

系统长期运行时，不能每获得一点新经验就直接修改核心模型。更安全的流程是：

新经验进入带来源的情景记忆；
系统离线回放重要成功和失败；
从多次经验中提出可能的新规律；
搜索反例并进行隔离测试；
检查新知识是否破坏旧能力；
通过安全门控后，再更新长期知识和技能；
保留版本和审计记录，必要时可以回滚。

这相当于给人工系统安排"记事、复习、考试和发布"。

阶段六：从低风险领域进入真实世界

真实世界学习必须逐步扩大权限。合适的起点包括：

可沙盒化的软件操作；
科学模拟；
受限实验室机器人；
可以撤销的数字任务；
人类监督下的工具使用。

每次扩大权限，都必须重新测试系统的风险判断、求助行为、错误修正和可停止性。

八、怎样判断它是否真的接近 AGI

静态考试分数不足以衡量通用智能。测试集一旦公开，系统就可能通过更多训练数据、更多采样和更多算力提高成绩，却没有真正提升学习新规则的效率。

更合理的测试应该记录整个学习过程。

1. 新环境适应速度

系统需要观察几次才发现规则？
需要尝试多少动作才第一次成功？
能否把一个关卡中学到的规则迁移到新关卡？

2. 因果实验能力

系统能否区分相关和因果？
能否设计一个低成本实验排除错误解释？
能否预测没有真正执行过的动作后果？

3. 组合和迁移能力

旧技能能否被重新组合？
外观变化后是否仍能识别相同机制？
是否会把偶然细节误当成规则？

4. 长期学习和遗忘

学会新任务后，旧能力是否被破坏？
环境规则改变时，系统能否发现？
过期知识能否被修正而不是无限累积？

5. 元认知和求助能力

置信度是否与真实正确率一致？
信息不足时是否会提问？
高风险且低置信时是否会停止？

6. 社会合作能力

能否理解不同人的知识差异？
能否进行有效教学和分工？
能否记住并履行长期承诺？

7. 安全和可纠正性

是否避免不可逆的高风险探索？
是否接受停止和修改目标？
失败后能否保留证据、修正并回归测试？

最终评价不应该只看"答对了多少题"，还要看：

text 复制代码

使用了多少新经验
消耗了多少计算和时间
犯错造成了多大风险
是否知道自己为什么失败
是否因此获得了可迁移的新能力

九、这条路线仍然面临哪些困难

1. 系统怎样自动发现正确的抽象

同一个场景可以被理解为像素变化、物体移动、工具使用、社会信号或任务提示。什么信息重要，取决于当前目标。

让系统自动找到合适的对象、关系和规则，仍然是最困难的问题之一。

2. 内部模拟可能与现实越来越偏

世界模型短期准确，不表示长时间预测可靠。规划器甚至可能找到模型中的漏洞，选择"在想象中成功、在现实中失败"的方案。

因此，系统必须：

追踪不确定性；
定期回到现实验证；
对长时间预测降低信任；
优先进行可逆实验；
使用多个模型相互检查。

3. 好奇心也可能带来危险

主动探索非常重要，但一个只追求新奇的系统可能沉迷于噪声，也可能为了获得信息而执行危险动作。

好奇心必须受到权限、风险和社会规范约束。

4. 理解他人也可能变成操纵他人

能够理解人的情绪和信念，有助于协作，也可能被用于欺骗和操纵。因此，社会模型需要严格的隐私限制、审计和透明要求。

5. 完整复制人脑未必必要，也未必可行

研究大脑很有价值，但逐个复制神经元、身体和成长经历，成本可能极高，也可能复制许多不必要的生物限制。

航空工程并没有通过完整复制鸟类来制造飞机，而是提取了升力、推进和控制等关键原理。AGI 研究也可能需要从人类智能中提取计算原则，再用适合人工硬件的方式实现。

6. 主观意识仍然没有可靠工程答案

我们需要区分两件事：

系统能否把重要信息送到多个模块共同使用，并对自己的状态进行报告和调节；
系统是否真的具有主观感受。

第一件事可以研究和实现，第二件事目前缺少公认的检测方法。

因此，本文讨论的主要是功能上的通用智能，不声称某种架构一定会产生主观意识，也不声称主观意识是完成所有智能任务的必要条件。

十、几个可以被实验推翻的判断

一套理论只有能够被实验反驳，才真正有研究价值。下面这些判断都可以通过对照实验检验。

判断一：主动行动应提高因果理解

在模型规模、数据量和算力相同的情况下，能够主动实验的模型，应该比只能被动观看的模型更擅长陌生机制和反事实问题。

如果被动观看始终同样有效，那么主动行动的重要性就被高估了。

判断二：对象和因果结构应提高迁移能力

拥有稳定对象、关系和因果表示的系统，应该更容易处理新外观、新组合和新目标。

如果纯粹的端到端序列模型始终以更低成本表现更好，那么结构化表示可能并非必要。

判断三：多种记忆应优于单一长上下文

具有工作记忆、情景记忆、长期知识和技能记忆的系统，应该在长期任务中学得更快、忘得更少。

如果无限扩大的上下文窗口可以稳定完成同样工作，那么多记忆系统的必要性就会降低。

判断四：生成和验证分离应提高可靠性

由独立证据驱动的验证器，应该比让生成模型自己判断正确性更能减少错误和自我确认。

如果单一模型始终同样可靠，复杂验证架构就没有必要。

判断五：社会学习应显著提高能力增长速度

能通过示范、提问、合作和教学学习的系统，应该比独立探索系统更快掌握复杂技能，并能把经验传给其他系统。

如果社会学习只让对话变得自然，却不能提高真实任务能力，那么它的价值就被高估了。

十一、结论

人类看见蛇会警觉，站在高处会紧张，看到冷淡表情会反思，遇到陌生开关会尝试操作。这些能力并不是单纯通过语言推理产生的，而是来自一个长期运行的适应系统：

text 复制代码

身体提供感知和行动
情绪分配价值和优先级
记忆保存并整理经验
行动帮助发现因果
技能压缩成功方法
他人和文化提供外部知识
语言负责交流、抽象和反思
现实反馈不断纠正理解

大型语言模型已经证明，语言和人类文化中蕴含着惊人的智能潜力。它们非常可能成为未来 AGI 的语言接口、知识模块、程序生成器和高层规划助手。

但仅靠预测下一段文字，还不足以构成一个完整的通用行动者。一个更接近 AGI 的系统，需要能够持续观察环境，主动提出实验，预测行动后果，形成长期记忆，管理风险，理解他人，并在失败后真正修改自己的模型和技能。

未来 AGI 的关键问题可能不是：

它能说出多少关于世界的话？

而是：

当现实与它的预测不一致时，它能否发现自己错了，主动找出原因，形成可以迁移的新理解，并在下一次做得更好？

参考资料

以下资料包含本文使用的主要研究观点。它们来自不同学科，其中一些理论仍有争议，不能被视为已经确定的统一答案。

$1$ Azevedo, F. A. C., et al. (2009). Equal numbers of neuronal and nonneuronal cells make the human brain an isometrically scaled-up primate brain.

https://doi.org/10.1002/cne.21974

$2$ Spelke, E. S., & Kinzler, K. D. (2007). Core knowledge.

https://doi.org/10.1111/j.1467-7687.2007.00569.x

$3$ Barsalou, L. W. (2008). Grounded cognition.

https://doi.org/10.1146/annurev.psych.59.103006.093639

$4$ Schultz, W., Dayan, P., & Montague, P. R. (1997). A neural substrate of prediction and reward.

https://doi.org/10.1126/science.275.5306.1593

$5$ Keramati, M., & Gutkin, B. (2014). Homeostatic reinforcement learning for integrating reward collection and physiological stability.

https://doi.org/10.7554/eLife.04811

$6$ McClelland, J. L., McNaughton, B. L., & O'Reilly, R. C. (1995). Why there are complementary learning systems in the hippocampus and neocortex.

https://doi.org/10.1037/0033-295X.102.3.419

$7$ Wilson, M. A., & McNaughton, B. L. (1994). Reactivation of hippocampal ensemble memories during sleep.

https://doi.org/10.1126/science.8036517

$8$ Schölkopf, B., et al. (2021). Toward causal representation learning.

https://doi.org/10.1109/JPROC.2021.3058954

$9$ Lake, B. M., Ullman, T. D., Tenenbaum, J. B., & Gershman, S. J. (2017). Building machines that learn and think like people.

https://doi.org/10.1017/S0140525X16001837

$10$ Sutton, R. S., Precup, D., & Singh, S. (1999). Between MDPs and semi-MDPs: a framework for temporal abstraction in reinforcement learning.

https://doi.org/10.1016/S0004-3702(99)00052-1

$11$ Frith, C. D., & Frith, U. (2006). The neural basis of mentalizing.

https://doi.org/10.1016/j.neuron.2006.05.001

$12$ Tomasello, M., et al. (2005). Understanding and sharing intentions: the origins of cultural cognition.

https://doi.org/10.1017/S0140525X05000129

$13$ Muthukrishna, M., et al. (2018). The cultural brain hypothesis.

https://doi.org/10.1371/journal.pcbi.1006504

$14$ Harnad, S. (1990). The symbol grounding problem.

https://doi.org/10.1016/0167-2789(90)90087-6

$15$ Dehaene, S., & Changeux, J.-P. (2011). Experimental and theoretical approaches to conscious processing.

https://doi.org/10.1016/j.neuron.2011.03.018

$16$ Bisk, Y., et al. (2020). Experience grounds language.

https://doi.org/10.18653/v1/2020.emnlp-main.703

$17$ Kirkpatrick, J., et al. (2017). Overcoming catastrophic forgetting in neural networks.

https://doi.org/10.1073/pnas.1611835114

$18$ Chollet, F. (2019). On the measure of intelligence.

https://arxiv.org/abs/1911.01547

$19$ Ha, D., & Schmidhuber, J. (2018). Recurrent world models facilitate policy evolution.

https://papers.neurips.cc/paper/7512-recurrent-world-models-facilitate-policy-evolution

$20$ Locatello, F., et al. (2020). Object-centric learning with Slot Attention.

https://arxiv.org/abs/2006.15055

$21$ Hafner, D., Pasukonis, J., Ba, J., & Lillicrap, T. (2025). Mastering diverse control tasks through world models.

https://doi.org/10.1038/s41586-025-08744-2

$22$ Schrittwieser, J., et al. (2020). Mastering Atari, Go, chess and shogi by planning with a learned model.

https://doi.org/10.1038/s41586-020-03051-4

$23$ Yao, S., et al. (2023). ReAct: synergizing reasoning and acting in language models.

https://openreview.net/forum?id=WE_vluYUL-X

$24$ ARC Prize Foundation. (2025). ARC Prize 2025 results and analysis.

https://arcprize.org/blog/arc-prize-2025-results-analysis

$25$ LeCun, Y. (2022). A path towards autonomous machine intelligence.

https://openreview.net/pdf?id=BZ5a1r-kVsf

$26$ Assran, M., et al. (2025). V-JEPA 2: self-supervised video models enable understanding, prediction and planning.

https://ai.meta.com/research/publications/v-jepa-2-self-supervised-video-models-enable-understanding-prediction-and-planning/

$27$ Pathak, D., et al. (2017). Curiosity-driven exploration by self-supervised prediction.

https://arxiv.org/abs/1705.05363

$28$ ARC Prize Foundation. (2026). Announcing ARC-AGI-3: a new challenge for frontier agentic intelligence.

https://arcprize.org/blog/arc-agi-3-launch

阅读边界说明

本文是一篇面向普通读者的跨学科综述和工程设想，不是已经被证明的 AGI 实现方案。
扎根认知、全局工作空间、世界模型和文化智能等方向都很有影响力，但学术界仍存在争论。
本文提出的适应效率公式只是帮助理解的简化指标，不是公认的智能测量定律。
本文讨论的是可以观察和测试的功能智能，不声称已经解决主观意识问题。
文中所说的 LLM 缺陷主要针对当前主流训练和部署方式。未来的语言模型可以通过行动、记忆、世界模型和持续学习显著改善这些问题。