从看清到理解:CNN、Transformer 与 RAG 背后的 AI 架构迁徙
一个 CV 旧人眼中的模型范式迁移:从视觉识别、语义建模,到外部知识与 Agent 系统。

1. 引言:为什么 RAG 不等于向量数据库
今天很多人一提 RAG,就直接想到向量数据库。这个联想并不奇怪,因为向量数据库确实是 RAG 最常见的基础设施之一。
但从架构本质上看,RAG 不是一个数据库产品,而是一种系统策略:先从外部知识源中检索相关证据,再把这些证据组织进模型上下文,最后由大模型生成回答。
换句话说,向量数据库解决的是"怎么找",而 RAG 解决的是"如何让模型带着证据回答"。
如果只把 RAG 理解成"向量数据库 + LLM",就会漏掉更关键的部分:检索前的文档切分、metadata 设计、权限过滤、rerank、上下文构建、引用溯源,以及回答后的评测与追踪。
真正的 RAG,不是把资料塞给模型这么简单,而是让模型在生成之前有证据,在生成之后可追溯。
2. 从 CNN 到 Transformer:不是淘汰,而是重心迁移
如果把 AI 系统看成一个不断进化的架构,CNN、RNN、Transformer 分别代表了不同阶段的问题意识。
| 架构 | 更擅长的问题 | 历史位置 |
|---|---|---|
| RNN | 序列建模、时间依赖 | 曾经是 NLP 主流,但受限于并行效率和长程依赖 |
| CNN | 局部特征提取、视觉模式识别 | CV 商业化时代的核心架构之一 |
| Transformer | 全局关联、语义建模、上下文推理 | 当前大模型时代的基础结构 |
RNN 的问题在于,它天然依赖时间步推进。处理长序列时,信息需要一步一步传递,训练效率和长程依赖都会遇到瓶颈。
Transformer 的突破不只是"效果更好",而是改变了计算组织方式。自注意力机制让模型可以在同一层中建立全局关联,也让大规模并行训练成为可能。
这意味着 AI 的重心开始从"识别一个局部模式"转向"在更大的上下文中理解关系"。
但这并不意味着 CNN 被 Transformer 简单取代。更准确的说法是:AI 系统的重心发生了迁移,CNN 代表的高效感知能力仍然存在,只是它不再独自定义整个 AI 时代的叙事。
3. 看清与理解:视觉 AI 的二层分工
在视觉 AI 时代,CNN 解决了一个极其重要的问题:让机器能够稳定地从图像中提取特征。
边缘、纹理、轮廓、局部形状、空间模式,这些能力支撑了人脸识别、目标检测、工业质检、安防和城市视觉等大量场景。
所以我并不认为 CNN 是被抛弃的旧技术。更准确地说,CNN 代表的是一种高效的感知器官。
而 Transformer 带来的变化,是把这些感知结果放进更大的关系网络里。它关心的不只是"图里有什么",还包括"这些东西之间是什么关系""当前场景意味着什么""下一步可能发生什么"。
这里的"看清"和"理解"不是严格的技术边界,而是一个架构隐喻:
- CNN 更像感知层,负责高效捕捉局部特征。
- Transformer 更像认知层,负责建立全局关联和语义关系。
在很多真实系统里,这两者不是对立关系,而是协作关系。感知层需要足够高效、稳定、低延迟;认知层需要把这些信号放到更大的上下文中解释。
自动驾驶、多模态理解、机器人和具身智能,都会遇到类似问题:系统既要看得清,也要理解场景,还要能预测和行动。
4. 旷视、印奇与 CV 时代的转场
对我来说,旷视不是一个新闻里的公司名。它代表过一个时代:那个时代里,计算机视觉是 AI 商业化最锋利、最清晰的一把刀。
人脸识别、安防、城市视觉、工业检测,这些场景让"AI 可以落地"第一次变得具体。那时的核心问题是:机器能不能看得准、看得快、看得稳。
这也是 CV 时代最迷人的地方。它不像今天的大模型叙事那样宏大,却非常扎实。一个模型效果的提升,可能就意味着一个摄像头、一条产线、一个城市治理场景里的真实改进。
但大模型时代到来后,行业叙事的中心变了。
过去的问题是"机器能不能看清",现在的问题变成了"机器能不能理解、推理、协作,并连接真实世界"。
印奇从旷视,到千里科技,再到阶跃星辰的角色变化,在我看来不只是个人履历的变化,也像是一个时代重心迁移的缩影:从视觉识别,到物理世界智能,再到通用认知模型。
这并不意味着旧时代没有价值。相反,正是 CV 时代积累的工程能力、场景经验和商业化路径,构成了今天多模态与具身智能的一部分底座。
只是,AI 的主战场变了。
曾经最重要的问题是"看见";现在越来越重要的问题是"理解之后能做什么"。
5. RAG:大模型时代的外部知识层
Transformer 让模型具备了强大的语义建模能力,但它并没有解决所有问题。
模型参数里的知识有几个天然限制:
- 可能过期。
- 不包含企业内部私有知识。
- 很难精确追溯来源。
- 很难保证回答完全基于事实。
- 更新成本高。
RAG 的出现,就是为了解决这些问题。
它给大模型接入了一个外部知识层:
失败样本
用户问题
问题理解
检索相关知识
权限与 metadata 过滤
重排序 rerank
上下文构建
大模型生成回答
引用溯源
评测与追踪
向量数据库只是这个链路中的一环。真正重要的是整个闭环:检索、过滤、排序、上下文构建、生成、引用和评测。
所以,与其说 RAG 是"向量数据库 + LLM",不如说它是大模型时代的一种知识接入架构。
它让模型从"只依赖参数中的知识"变成"可以查询外部世界"。这一步非常关键,因为真实企业系统里的知识不是静止的,也不是都能被训练进模型参数。
代码库、产品文档、工单、CRM、会议纪要、历史决策、团队规范,这些都需要通过外部知识层接入模型。
这也是为什么 RAG 和 Agent 会天然走到一起:RAG 负责提供证据,Agent 负责基于证据做决策、调用工具、推进任务。
举一个 coding agent 的例子:用户让 agent 修改一个项目功能时,系统不应该只把用户需求丢给模型。更合理的链路是先检索当前项目的架构说明、编码规范、相似实现和历史决策,再把这些上下文组装给模型,最后让 agent 在受控范围内修改代码、运行测试并记录 trace。
在这个过程中,向量数据库只是"找相关材料"的一部分;真正决定系统质量的,是检索结果是否属于正确项目、是否过期、是否有权限、是否能被引用,以及失败后能不能复盘。
6. 新的智能系统分层
如果把这次架构迁徙总结成一个系统框架,我会把它分成四层:
| 层级 | 代表技术 | 解决的问题 |
|---|---|---|
| 感知层 | CNN、视觉模型、传感器、端侧模型 | 看见世界,提取物理特征 |
| 认知层 | Transformer、多模态大模型 | 理解语义、关系与上下文 |
| 知识层 | RAG、向量库、知识库、Memory | 接入外部知识与长期信息 |
| 行动层 | Agent、Tool Calling、Workflow | 调用工具,执行任务,改变系统状态 |
这也是为什么我认为未来的 AI 架构师,不能只理解单个模型。真正重要的是理解这些层之间如何协作。
CNN 不会消失,它会继续作为高效感知层存在。
Transformer 也不是终点,它需要外部知识、工具系统和工作流来完成真实任务。
RAG 更不是向量数据库的代名词,而是智能系统接入现实知识的一种方式。
Agent 则是在这个基础上,把"回答问题"推进到"完成任务"。
从这个角度看,今天的 AI 架构已经不再是一个模型单打独斗,而是一个分层协作系统:
任务反馈与新状态
外部上下文
行动层
Agent / Tool Calling / Workflow
知识层
RAG / 知识库 / Memory
认知层
Transformer / 多模态大模型
感知层
CNN / 视觉模型 / 传感器
这套分层并不意味着每个系统都要完整实现四层。一个客服 Agent 可能更依赖知识层和行动层,一个自动驾驶系统可能更强调感知层和认知层,一个 coding agent 则会把代码库知识、项目上下文、工具调用和评测闭环结合得更紧。
但无论具体形态如何,趋势是清楚的:AI 正在从单点模型能力,走向系统级智能。
7. 结语:从看见世界,到理解世界,再到参与世界
AI 的演进不是简单的新技术替代旧技术,而是系统能力的层层叠加。
CNN 让机器看见世界。
Transformer 让机器理解上下文。
RAG 让机器连接外部知识。
Agent 让机器开始参与任务执行。
从这个角度看,所谓 AI 架构迁徙,并不是某个模型家族的胜利,而是智能系统从单点能力走向分层协作。
对于经历过 CV 时代的人来说,这种迁移难免带着一点复杂情绪。我们见证过视觉识别如何把 AI 带入现实世界,也正在见证大模型如何把 AI 推向更广阔的认知与行动空间。
旧时代没有消失,它只是变成了新系统的一层。