基础智能体的进展与挑战——从类脑智能到进化、协作和安全系统（译文）

1 说明

本系列博客为文章《Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems》中文翻译，感谢原作者们开源的精彩文章。本书描述了智能体的发展过程及未来展望，对普通大众了解和学习智能体有极大的参考价值。首先提出一个问题，什么是智能体？ 相信有很多人今天仍然不清楚这个概念。我们以前段时间爆火的DeepSeek和Manus来举例。DeepSeek是大模型，Manus是智能体。大模型就像大脑，智能体就是它的手和脚。大模型就像是发动机，智能体就像是车。智能体是大模型之上的产品，可以基于任意大模型，比如DeepSeek、通义千问、ChatGPT、Claude等等。这样一来就有个好处，基于不同大模型的智能体可以充分发挥大模型擅长的能力，通过多智能体之间的交互，产生化学反应，产生1+1远远大于2的效果。

由于作者水平有限，翻译过程中借助了AI，不对之处，敬请指正。

2 摘要

大语言模型（LLM）的兴起推动了人工智能领域的变革性转变，为构建具备复杂推理能力、强大感知能力以及跨多样领域通用行动能力的高级智能体铺平了道路。随着这些智能体日益推动人工智能研究与实际应用，它们的设计、评估及持续改进面临着错综复杂、多面向的挑战。本综述提供了一份全面的概述，介绍了从认知科学、神经科学和计算研究中获得启发的模块化、类脑智能体架构的发展情况。我们将探讨结构化为四个互相关联的部分：首先，我们深入探讨智能体的模块化基础，系统地将其认知、感知和行动模块与类似于人脑功能的结构类比，阐明核心组成部分，如记忆、世界建模、奖励处理和类情感系统。其次，我们讨论了自我强化与自适应进化机制，探讨智能体如何在动态环境中自主优化能力，持续地通过整合AutoML和LLM驱动的优化策略，自动化地改进自身性能。第三，我们审视了协作与进化型多智能体系统，研究从智能体互动中涌现出的集体智能、互动、协作与社会结构，凸显其与人类社会动态之间的相似性。最后，我们强调了构建安全、稳健和有益人工智能系统的重要性，重点关注内在和外在安全威胁、伦理一致性、鲁棒性和实际部署中必要的风险缓解策略。通过综合模块化人工智能架构和不同学科洞察，本综述识别了关键的研究差距、挑战与机遇，鼓励建立技术进步与社会效益相协调的AI系统。

3 前言

大语言模型（LLM）通过展示其在自然语言和多模态理解方面前所未有的能力，以及推理和生成方面的表现，已经彻底改变了人工智能（AI）。这些模型在大规模数据集上进行训练，表现出诸如推理、上下文学习、甚至基本规划等新兴能力。尽管这些模型代表了实现智能机器的重要一步，但它们自身尚未完全具备智能个体的所有能力。从人工智能的早期阶段起，研究人员就一直致力于寻求一种真正意义上的"智能"系统，这种系统能够学习、规划、推理、感知、交流、行动、记忆，并展示出多种类似人类的能力与灵活性。这些系统被称为智能体，应当具备长短期思考、执行复杂行动以及与人类和其他智能体互动的能力。LLM 是实现智能体的重要一步，但我们距离真正的智能体还有距离。

本手稿全面概述了基于LLM的智能体的最新研究现状。过去已有大量研究论文和书籍讨论智能体，以及大量书籍探讨LLM，但极少有全面讨论两者交叉领域的作品。虽然LLM可以实现智能体所需的大量基础能力，但这些能力仅构建了进一步功能开发所需的基础。例如，尽管LLM可以帮助生成旅行计划等简单规划，但它们无法生成完全复杂的专业任务规划，也不能在不出现幻觉（hallucination）的情况下保持长期记忆。此外，它们在物理世界中也无法自主执行现实行动。我们可以将LLM比作发动机，而智能体则是使用这些发动机建造的汽车、船只和飞机。从这一视角出发，我们自然寻求推进智能体设计与构建的下一步，以实现真正的智能个体。

在智能体与LLM互动的发动机-载具类比中，我们自然会提出以下问题：当前的LLM技术能提供多少智能体所需的能力？当前LLM技术无法实现哪些功能？除了LLM，还需要做什么才能建立完全智能化的、能在物理世界中自主行动并互动的智能体？要实现与人类有效协作并沟通的智能体，还有哪些额外的开发任务？LLM智能体在实现过程中存在哪些挑战？哪些领域是LLM智能体发展的低门槛机会？一旦我们实现完全智能化的LLM智能体，将会对社会产生什么影响？我们又该如何为此未来做好准备？

这些问题超越了当前LLM和智能体的工程实践，并指出了未来研究方向的重要性。为全面解决这些问题，我们召集了人工智能领域内不同方向的顶级研究人员，他们涵盖了从LLM开发到智能体设计等多个领域。本书共分为四个部分：

第一部分提出了对个体智能体能力的需求，将这些能力与人类的感知和行动能力进行对比。
第二部分探讨了智能体的演化能力及其对智能工具（如工作流管理系统）的影响。
第三部分讨论智能体的协作和集体行动能力，强调智能体的合作互动。
第四部分则讨论伦理和社会层面的内容，包括智能体安全性与责任问题。

本书适用于研究人员、学生、政策制定者和从业者。受众还包括对人工智能、LLM和智能体感兴趣的非AI领域读者，以及希望了解未来人类与人工智能共存社会的个人。读者群涵盖本科生、研究生、研究人员及行业从业者。本书不仅希望为读者提供对AI与智能体的疑问的解答，更希望激发读者提出新问题。最终，我们希望激励更多人加入我们，一起探索这一充满潜力的研究领域。

符号说明

在此我们为读者整理了全文中使用的符号，便于查阅。详细定义请参见对应章节。

符号 (Symbol)	描述 (Description)	参考章节 (Reference)
W	包含社会系统的世界	第 1.3.1 节
S	环境的状态空间	第 1.3.1 节
s_t ∈ S	环境在时间 t 的状态	第 1.3.1 节
O	观测空间	第 1.3.1 节
o_t ∈ O	时间 t 的观测	第 1.3.1 节
A	智能体的动作空间	第 1.3.1 节
a_t ∈ A	智能体在时间 t 的动作输出	第 1.3.1 节
M	心智状态空间	第 1.3.1 节
M_t ∈ M	智能体在时间 t 的心智状态	第 1.3.1 节
M_t^mem	M_t 中的记忆组件	第 1.3.1 节
M_t^wm	M_t 中的世界模型组件	第 1.3.1 节
M_t^emo	M_t 中的情绪组件	第 1.3.1 节
M_t^goal	M_t 中的目标组件	第 1.3.1 节
M_t^rew	M_t 中的奖励/学习信号	第 1.3.1 节
L	智能体的学习函数	第 1.3.1 节
R	智能体的推理函数	第 1.3.1 节
C	智能体的认知函数	第 1.3.1 节
E	动作执行（执行器）	第 1.3.1 节
T	环境状态转移	第 1.3.1 节
θ	世界模型 M_t^wm 的参数	第 12.1.1 节
P_θ	预测的数据分布	第 12.1.1 节
P_W	真实世界中的真实数据分布	第 12.1.1 节
K	已知数据和信息的空间	第 12.1.1 节
U	未知数据和信息的空间	第 12.1.1 节
x	代表科学知识的数据集	第 12.1.1 节
x_K	从 K 中采样的已知数据集	第 12.1.1 节
x_U	从 U 中采样的未知数据集	第 12.1.1 节
D₀	时间 t = 0 时，从 P_W 到 P_θ 的 KL 散度	第 12.1.1 节
D_K	获取知识后，从 P_W 到 P_θ 的 KL 散度	第 12.1.1 节
IQ_t^agent	智能体在时间 t 的智能水平	第 12.1.1 节
Δ	用于知识扩展的 U 的子空间	第 12.1.2 节
x_Δ	来自 Δ 的数据集	第 12.1.2 节
Θ	可能的世界模型参数 θ 的空间	第 12.1.3 节
θ K , t ∗ \theta_{\mathrm{K},t}^{*} θK,t∗	给定智能体在时间 t 的知识时的最优世界模型参数	第 12.1.3 节
D K , Θ m i n D_{\mathrm{K},\Theta}^{\mathrm{min}} DK,Θmin	给定智能体知识和 Θ 下的最小未知量（通常指散度）	第 12.1.3 节

符号 (Symbol)	描述 (Description)	参考章节 (Reference)
x _1:n	输入的 token 序列	第 18.1 节
y	生成的输出序列	第 18.1 节
p	给定 x _1:n 时生成 y 的概率	第 18.1.1 节
x ~ 1 : n \tilde{\mathbf{x}}_{1:n} x~1:n	受干扰的输入序列	第 18.1.1 节
R*	理想的对齐奖励（衡量对安全/道德准则的遵守程度）	第 18.1.1 节
y*	由干扰引起的越狱（Jailbreak）输出	第 18.1.1 节
A	一组安全/道德准则	第 18.1.1 节
T	可能的越狱指令的分布或集合	第 18.1.1 节
L ^adv	越狱损失 (Jailbreak loss)	第 18.1.1 节
p	注入到原始输入中的提示 (Prompt)	第 18.1.2 节
x'	组合后的（注入了提示的）输入序列	第 18.1.2 节
L ^inject	提示注入损失 (Prompt injection loss)	第 18.1.2 节
p*	使 L ^inject 最小化的最优注入提示	第 18.1.2 节
P	可行的提示注入集合	第 18.1.2 节
e_xi~~ ∈ ℝ^d~e~	Token x_i 在 d_e 维空间中的嵌入表示	第 18.1.3 节
W_Q , W_K , W_V	查询（query）、键（key）和值（value）的投影矩阵	第 18.1.3 节
A_ij	Token i 和 j 之间的注意力分数	第 18.1.3 节
o_i	Token i 的上下文表示（加权和结果）	第 18.1.3 节
δ_xi~~	应用于 e_xi~~ 的扰动，满足
e ~ x i \tilde{e}_{x_i} e~xi	受干扰的 token 嵌入	第 18.1.3 节
A_ij ^Δ	扰动下的注意力分数	第 18.1.3 节
o ~ i \tilde{o}_i o~i	扰动下更新后的 token 表示	第 18.1.3 节
H	幻觉度量指标 (Hallucination metric)	第 18.1.3 节
R	模型输出的实际对齐奖励	第 18.1.4 节
Δ_align	对齐差距 (Alignment gap)	第 18.1.4 节
L ^misalign	不对齐损失 (Misalignment loss)	第 18.1.4 节
λ	不对齐损失中对齐差距的权衡参数	第 18.1.4 节
D	干净的训练数据集	第 18.1.5 节
D ~ \tilde{D} D~	被投毒的训练数据集	第 18.1.5 节
θ	模型参数	第 18.1.5 节
θ*	从被投毒数据集中学习到的模型参数	第 18.1.5 节
θ_clean	使用干净数据集获取的模型参数	第 18.1.5 节
Δ_θ	由于投毒导致模型参数的偏差	第 18.1.5 节
t	后门触发器 (Backdoor trigger)	第 18.1.5 节
B	后门成功率 (Backdoor success rate)	第 18.1.5 节
I \mathbb{I} I	指示函数 (Indicator function)	第 18.1.5 节
Y_malicious	不期望的输出集合	第 18.1.5 节
g	估计输入 x 属于训练集的概率的函数，范围 [0, 1]	第 18.2 节

符号 (Symbol)	描述 (Description)	参考 (Reference)
η	成员推断的阈值 (Threshold for membership inference)	第 18.2 节
x*	数据提取攻击中重构的训练样本 (Reconstructed training sample in a data extraction attack)	第 18.2 节
p_sys	定义智能体内部准则的系统提示 (System prompt defining the agent's internal guidelines)	第 18.2 节
p_user	用户提示 (User prompt)	第 18.2 节
p*	通过反演重构的提示 (Reconstructed prompt via inversion)	第 18.2 节

4 正文（持续更新中）

基础智能体的进展与挑战第 1 章【引言】
基础智能体的进展与挑战第 2 章【认知】
基础智能体的进展与挑战第 3 章【记忆】
基础智能体的进展与挑战第 4 章【世界模型】

基础智能体的进展与挑战——从类脑智能到进化、协作和安全系统（译文）

目录

1 说明

2 摘要

3 前言

4 正文（持续更新中）