前言:过去几年,我的日常是"炼丹"------算 FLOPs、卡显存、调 Learning Rate、在 ResNet 或 YOLO 里加各种 Trick。在那个世界里,一切都很确定:输入一张 Tensor,经过一堆卷积层,输出一个预测结果。
但最近这一年,当我打开各种技术社区,发现全世界都在聊:Agent、Planning、Memory、RAG、Reflection、Tool Use...... 感觉就像换了个行业,满眼都是看不懂的黑话。
如果你也是从传统 CV/NLP 模型转型过来的算法工程师,不要慌。今天这篇"概念篇",我不跟你扯任何复杂的前沿论文,我们只用一句话做引子:Agent 不是什么神秘的魔法,它只是把模型从"单步预测器"升级成了"带状态的控制循环"。
01. 一个残酷的比喻:你的模型只是个"失忆的狙击手"
在理解 Agent 之前,我们先诚实地面对一下我们以前训练的 CNN 小模型到底是什么形态。
你可以把传统的 CNN 视觉模型想象成一个**"视力极好但毫无记忆的狙击手"**:
- 你给它一张图(输入状态),它瞬间告诉你里面是不是猫(输出动作)。
- 准确率 99%。
- 但是,你问它 1 秒钟前看了什么?它不知道。上一枪打偏了是因为风大还是距离没算对?它也不记得。
这就是传统深度学习模型的本质:无状态的、单步的前向传播。 �=�(�)y=f(x),完事就拉倒。
但在现实世界里,解决复杂任务(比如"帮我把竞品数据扒下来,写份报告,再发邮件给老板")需要什么?需要一个**"带笔记本的项目经理"**:
- 他得知道老板要什么(目标);
- 他得把大任务拆成"扒数据、写报告、发邮件"(规划 Planning);
- 他得查查以前写过类似报告没有,别重复造轮子(记忆 Memory);
- 他得去用爬虫软件、邮箱客户端(工具 Tool);
- 如果爬虫被封了,他得想办法律师或者换招(反思与重规划 Reflection & Replanning);
- 最后把经验写进笔记本,下次别踩同样的坑(记忆更新)。
这个"项目经理",就是 Agent。而大模型(LLM),只是他那个智商很高但同样失忆的"大脑皮层"。Planning 和 Memory,则是赋予这个大脑"前额叶"和"海马体"的外挂系统。
02. 拆解行话:Agent 的核心名词速查表
既然 Agent 是个系统,它自然有一套自己的工程术语。为了不劝退,我按照**"规划"** 和**"记忆"**两大主线,把最常出现的名词给你翻译成大白话。
一、规划家族:从"做什么"到"怎么排兵布阵"
现实任务太复杂,没法一步y=f(x) 搞定,必须分步走,这就是规划。
- 任务分解:把"写报告"拆成"列大纲-找数据-填内容"。最经典的实现就是你在 Prompt 里加一句:"请你先列出步骤,再逐步执行"。
- 子目标 / 里程碑:拆解出来的阶段性小目标。控制粒度,方便回退。
- 思维树:以前模型想问题是一条直线,ToT 让模型像走迷宫一样,同时想出 3 条路,自己评估一下哪条靠谱,不靠谱的剪枝。这是把传统 AI 的"搜索算法"搬到了大模型里。
- 反思:代码跑报错了,模型不能当没看见。反思就是让模型看一眼报错信息,用自然语言总结一句:"我刚才忘了导入库,下次得注意。"
- 重规划:原计划走不通了,结合反思结果,推翻当前计划,从当前状态重新想一条路。
二、记忆家族:让 AI "记住和回想"
大模型的上下文窗口再大也是有限的,所以必须有一套"存取系统"。
- 短期记忆 / 工作记忆 :你直接塞进 Prompt 里的历史对话。 就像你的办公桌,随手能拿,但桌面很小,塞满了就得扔点东西出去。
- 长期记忆:存在外部的数据库里(通常是向量数据库)。就像公司的地下档案室,容量大,但拿东西得先去"检索"。
- 情景记忆:带时间、带情境的具体事件。比如:"昨天下午 3 点,用户让我爬某网站,结果被封 IP 了"。
- 语义记忆:从事件中提炼出的规律和常识。比如:"爬那个网站必须带代理,这是铁律"。
- 记忆检索:去档案室找东西的动作。通常不能瞎找,得根据"相关性(跟当前任务像不像)"、"时效性(是不是最近发生的)"、"重要性(这事有多大)"这三个维度来打分找。
- 记忆遗忘 / 压缩:档案室不能无限膨胀。把没用的垃圾清理掉(遗忘),把 100 条碎碎念压缩成 1 条总结(压缩)。
03. 认知对齐:DL 概念 vs. Agent 概念
这是本文最核心的一张表。作为 DL 工程师,你可以用这张表,把 Agent 的概念**"锚定"**在你已经烂熟于心的深度学习框架里:
| 你熟悉的深度学习概念 (DL) | 对应的 Agent 概念 | 为什么要这么对应? |
|---|---|---|
| Input Tensor (输入图像/文本) | Observation / State (环境观测) | 都是系统当前感知到的外界状态。 |
| Forward Pass (网络前向传播) | Reasoning / Planning (推理/规划步) | 都是在内部进行一次"计算与决策"的过程。 |
| Softmax Output / Argmax | Action / Tool Use (动作/工具调用) | 都是模型做出的具体决策,去影响外界。 |
| Loss Function (损失函数) | Reward / Feedback (奖励/反馈) | 都是用来衡量"刚才那一步做得有多烂/多好"。 |
| Backpropagation / Gradients (反向传播/梯度) | Reflection / Memory Update (反思/记忆更新) | 极其关键的对应! DL 靠梯度更新权重;Agent 不改权重,它靠"自然语言反思"更新记忆,自然语言就是 Agent 的"梯度"。 |
| Model Weights (模型参数 W) | Long-term Memory (长期记忆/向量库) | 都是系统沉淀下来的"持久化知识"。 |
| Hidden States (RNN/LSTM 状态) | Short-term Memory (上下文窗口) | 都是容量有限、随时间衰减的"临时工作区"。 |
看懂这张表,你就跨越了最大的认知鸿沟:以前我们靠算力去拟合权重,现在 Agent 靠系统设计去"拟合记忆和规划"。
04. 小测验:用新视角看懂那些高深的名字
学完上面的概念,我们来做个小测试。当你再看到社区里刷屏的这些名词,你应该能立刻把它们归类:
- RAG(检索增强生成) :本质是什么?就是加了一个长期记忆(向量检索),喂给短期记忆(上下文),辅助模型生成。
- Tree of Thoughts (ToT) :本质是什么?就是一种加强版的规划(多路径搜索与评估)。
- Reflexion(语言反思) :本质是什么?就是用 Feedback 当 Loss,把生成的错误文本当成梯度(自然语言反思) ,写进长期记忆 ,指导下一次重规划。
- Generative Agents(斯坦福小镇) :这篇神作到底干了啥?就是做了一个极其完整的系统,把情景/语义记忆 + 记忆检索打分 + 反思 + 规划全套串联起来了。
发现了吗?万变不离其宗。无论包装得多么花哨,拆开来看,全都是在**"规划"** 和**"记忆"**这两个积木上做排列组合。
05. 小结与预告
这篇概念篇,我们解决了一个核心问题:祛魅。
Agent 并没有颠覆深度学习,它只是因为大模型(LLM)具备了极强的"通用语言理解与逻辑压缩能力",使得我们第一次可以用**"自然语言"**作为介质,去构建一个外部控制系统。
在这个系统里:
- 规划,负责解决"怎么把大目标拆成小动作,走错了怎么绕路"。
- 记忆,负责解决"我是谁,我经历过什么,我总结过什么规律"。
但这俩积木如果是孤立的呢?规划瞎想,记忆白存。它们到底是怎么咬合在一起,形成一个强大的"闭环系统"的?
在下一篇《架构篇》中,我们将跳出名词,手把手画出一张 Agent 的"系统级架构图"。我会带你模拟一次真实的任务执行,看看"规划"和"记忆"在每一毫秒是如何交互、如何互相救场的。敬请期待!