从 CNN 到 Agent：给 DL 工程师的“智能体”入门黑话指南（概念篇）

前言：过去几年，我的日常是"炼丹"------算 FLOPs、卡显存、调 Learning Rate、在 ResNet 或 YOLO 里加各种 Trick。在那个世界里，一切都很确定：输入一张 Tensor，经过一堆卷积层，输出一个预测结果。

但最近这一年，当我打开各种技术社区，发现全世界都在聊：Agent、Planning、Memory、RAG、Reflection、Tool Use...... 感觉就像换了个行业，满眼都是看不懂的黑话。

如果你也是从传统 CV/NLP 模型转型过来的算法工程师，不要慌。今天这篇"概念篇"，我不跟你扯任何复杂的前沿论文，我们只用一句话做引子：Agent 不是什么神秘的魔法，它只是把模型从"单步预测器"升级成了"带状态的控制循环"。

01. 一个残酷的比喻：你的模型只是个"失忆的狙击手"

在理解 Agent 之前，我们先诚实地面对一下我们以前训练的 CNN 小模型到底是什么形态。

你可以把传统的 CNN 视觉模型想象成一个**"视力极好但毫无记忆的狙击手"**：

你给它一张图（输入状态），它瞬间告诉你里面是不是猫（输出动作）。
准确率 99%。
但是，你问它 1 秒钟前看了什么？它不知道。上一枪打偏了是因为风大还是距离没算对？它也不记得。

这就是传统深度学习模型的本质：无状态的、单步的前向传播。 �=�(�)y=f(x)，完事就拉倒。

但在现实世界里，解决复杂任务（比如"帮我把竞品数据扒下来，写份报告，再发邮件给老板"）需要什么？需要一个**"带笔记本的项目经理"**：

他得知道老板要什么（目标）；
他得把大任务拆成"扒数据、写报告、发邮件"（规划 Planning）；
他得查查以前写过类似报告没有，别重复造轮子（记忆 Memory）；
他得去用爬虫软件、邮箱客户端（工具 Tool）；
如果爬虫被封了，他得想办法律师或者换招（反思与重规划 Reflection & Replanning）；
最后把经验写进笔记本，下次别踩同样的坑（记忆更新）。

这个"项目经理"，就是 Agent。而大模型（LLM），只是他那个智商很高但同样失忆的"大脑皮层"。Planning 和 Memory，则是赋予这个大脑"前额叶"和"海马体"的外挂系统。

02. 拆解行话：Agent 的核心名词速查表

既然 Agent 是个系统，它自然有一套自己的工程术语。为了不劝退，我按照**"规划"** 和**"记忆"**两大主线，把最常出现的名词给你翻译成大白话。

一、规划家族：从"做什么"到"怎么排兵布阵"

现实任务太复杂，没法一步y=f(x) 搞定，必须分步走，这就是规划。

任务分解：把"写报告"拆成"列大纲-找数据-填内容"。最经典的实现就是你在 Prompt 里加一句："请你先列出步骤，再逐步执行"。
子目标 / 里程碑：拆解出来的阶段性小目标。控制粒度，方便回退。
思维树：以前模型想问题是一条直线，ToT 让模型像走迷宫一样，同时想出 3 条路，自己评估一下哪条靠谱，不靠谱的剪枝。这是把传统 AI 的"搜索算法"搬到了大模型里。
反思：代码跑报错了，模型不能当没看见。反思就是让模型看一眼报错信息，用自然语言总结一句："我刚才忘了导入库，下次得注意。"
重规划：原计划走不通了，结合反思结果，推翻当前计划，从当前状态重新想一条路。

二、记忆家族：让 AI "记住和回想"

大模型的上下文窗口再大也是有限的，所以必须有一套"存取系统"。

短期记忆 / 工作记忆 ：你直接塞进 Prompt 里的历史对话。 就像你的办公桌，随手能拿，但桌面很小，塞满了就得扔点东西出去。
长期记忆：存在外部的数据库里（通常是向量数据库）。就像公司的地下档案室，容量大，但拿东西得先去"检索"。
情景记忆：带时间、带情境的具体事件。比如："昨天下午 3 点，用户让我爬某网站，结果被封 IP 了"。
语义记忆：从事件中提炼出的规律和常识。比如："爬那个网站必须带代理，这是铁律"。
记忆检索：去档案室找东西的动作。通常不能瞎找，得根据"相关性（跟当前任务像不像）"、"时效性（是不是最近发生的）"、"重要性（这事有多大）"这三个维度来打分找。
记忆遗忘 / 压缩：档案室不能无限膨胀。把没用的垃圾清理掉（遗忘），把 100 条碎碎念压缩成 1 条总结（压缩）。

03. 认知对齐：DL 概念 vs. Agent 概念

这是本文最核心的一张表。作为 DL 工程师，你可以用这张表，把 Agent 的概念**"锚定"**在你已经烂熟于心的深度学习框架里：

你熟悉的深度学习概念 (DL)	对应的 Agent 概念	为什么要这么对应？
Input Tensor (输入图像/文本)	Observation / State (环境观测)	都是系统当前感知到的外界状态。
Forward Pass (网络前向传播)	Reasoning / Planning (推理/规划步)	都是在内部进行一次"计算与决策"的过程。
Softmax Output / Argmax	Action / Tool Use (动作/工具调用)	都是模型做出的具体决策，去影响外界。
Loss Function (损失函数)	Reward / Feedback (奖励/反馈)	都是用来衡量"刚才那一步做得有多烂/多好"。
Backpropagation / Gradients (反向传播/梯度)	Reflection / Memory Update (反思/记忆更新)	极其关键的对应！ DL 靠梯度更新权重；Agent 不改权重，它靠"自然语言反思"更新记忆，自然语言就是 Agent 的"梯度"。
Model Weights (模型参数 W)	Long-term Memory (长期记忆/向量库)	都是系统沉淀下来的"持久化知识"。
Hidden States (RNN/LSTM 状态)	Short-term Memory (上下文窗口)	都是容量有限、随时间衰减的"临时工作区"。

看懂这张表，你就跨越了最大的认知鸿沟：以前我们靠算力去拟合权重，现在 Agent 靠系统设计去"拟合记忆和规划"。

04. 小测验：用新视角看懂那些高深的名字

学完上面的概念，我们来做个小测试。当你再看到社区里刷屏的这些名词，你应该能立刻把它们归类：

RAG（检索增强生成） ：本质是什么？就是加了一个长期记忆（向量检索），喂给短期记忆（上下文），辅助模型生成。
Tree of Thoughts (ToT) ：本质是什么？就是一种加强版的规划（多路径搜索与评估）。
Reflexion（语言反思） ：本质是什么？就是用 Feedback 当 Loss，把生成的错误文本当成梯度（自然语言反思） ，写进长期记忆 ，指导下一次重规划。
Generative Agents（斯坦福小镇） ：这篇神作到底干了啥？就是做了一个极其完整的系统，把情景/语义记忆 + 记忆检索打分 + 反思 + 规划全套串联起来了。

发现了吗？万变不离其宗。无论包装得多么花哨，拆开来看，全都是在**"规划"** 和**"记忆"**这两个积木上做排列组合。

05. 小结与预告

这篇概念篇，我们解决了一个核心问题：祛魅。

Agent 并没有颠覆深度学习，它只是因为大模型（LLM）具备了极强的"通用语言理解与逻辑压缩能力"，使得我们第一次可以用**"自然语言"**作为介质，去构建一个外部控制系统。

在这个系统里：

规划，负责解决"怎么把大目标拆成小动作，走错了怎么绕路"。
记忆，负责解决"我是谁，我经历过什么，我总结过什么规律"。

但这俩积木如果是孤立的呢？规划瞎想，记忆白存。它们到底是怎么咬合在一起，形成一个强大的"闭环系统"的？

在下一篇《架构篇》中，我们将跳出名词，手把手画出一张 Agent 的"系统级架构图"。我会带你模拟一次真实的任务执行，看看"规划"和"记忆"在每一毫秒是如何交互、如何互相救场的。敬请期待！