从看清到理解:CNN、Transformer 与 RAG 背后的 AI 架构迁徙

从看清到理解:CNN、Transformer 与 RAG 背后的 AI 架构迁徙

一个 CV 旧人眼中的模型范式迁移:从视觉识别、语义建模,到外部知识与 Agent 系统。

1. 引言:为什么 RAG 不等于向量数据库

今天很多人一提 RAG,就直接想到向量数据库。这个联想并不奇怪,因为向量数据库确实是 RAG 最常见的基础设施之一。

但从架构本质上看,RAG 不是一个数据库产品,而是一种系统策略:先从外部知识源中检索相关证据,再把这些证据组织进模型上下文,最后由大模型生成回答。

换句话说,向量数据库解决的是"怎么找",而 RAG 解决的是"如何让模型带着证据回答"。

如果只把 RAG 理解成"向量数据库 + LLM",就会漏掉更关键的部分:检索前的文档切分、metadata 设计、权限过滤、rerank、上下文构建、引用溯源,以及回答后的评测与追踪。

真正的 RAG,不是把资料塞给模型这么简单,而是让模型在生成之前有证据,在生成之后可追溯。

2. 从 CNN 到 Transformer:不是淘汰,而是重心迁移

如果把 AI 系统看成一个不断进化的架构,CNN、RNN、Transformer 分别代表了不同阶段的问题意识。

架构 更擅长的问题 历史位置
RNN 序列建模、时间依赖 曾经是 NLP 主流,但受限于并行效率和长程依赖
CNN 局部特征提取、视觉模式识别 CV 商业化时代的核心架构之一
Transformer 全局关联、语义建模、上下文推理 当前大模型时代的基础结构

RNN 的问题在于,它天然依赖时间步推进。处理长序列时,信息需要一步一步传递,训练效率和长程依赖都会遇到瓶颈。

Transformer 的突破不只是"效果更好",而是改变了计算组织方式。自注意力机制让模型可以在同一层中建立全局关联,也让大规模并行训练成为可能。

这意味着 AI 的重心开始从"识别一个局部模式"转向"在更大的上下文中理解关系"。

但这并不意味着 CNN 被 Transformer 简单取代。更准确的说法是:AI 系统的重心发生了迁移,CNN 代表的高效感知能力仍然存在,只是它不再独自定义整个 AI 时代的叙事。

3. 看清与理解:视觉 AI 的二层分工

在视觉 AI 时代,CNN 解决了一个极其重要的问题:让机器能够稳定地从图像中提取特征。

边缘、纹理、轮廓、局部形状、空间模式,这些能力支撑了人脸识别、目标检测、工业质检、安防和城市视觉等大量场景。

所以我并不认为 CNN 是被抛弃的旧技术。更准确地说,CNN 代表的是一种高效的感知器官。

而 Transformer 带来的变化,是把这些感知结果放进更大的关系网络里。它关心的不只是"图里有什么",还包括"这些东西之间是什么关系""当前场景意味着什么""下一步可能发生什么"。

这里的"看清"和"理解"不是严格的技术边界,而是一个架构隐喻:

  • CNN 更像感知层,负责高效捕捉局部特征。
  • Transformer 更像认知层,负责建立全局关联和语义关系。

在很多真实系统里,这两者不是对立关系,而是协作关系。感知层需要足够高效、稳定、低延迟;认知层需要把这些信号放到更大的上下文中解释。

自动驾驶、多模态理解、机器人和具身智能,都会遇到类似问题:系统既要看得清,也要理解场景,还要能预测和行动。

4. 旷视、印奇与 CV 时代的转场

对我来说,旷视不是一个新闻里的公司名。它代表过一个时代:那个时代里,计算机视觉是 AI 商业化最锋利、最清晰的一把刀。

人脸识别、安防、城市视觉、工业检测,这些场景让"AI 可以落地"第一次变得具体。那时的核心问题是:机器能不能看得准、看得快、看得稳。

这也是 CV 时代最迷人的地方。它不像今天的大模型叙事那样宏大,却非常扎实。一个模型效果的提升,可能就意味着一个摄像头、一条产线、一个城市治理场景里的真实改进。

但大模型时代到来后,行业叙事的中心变了。

过去的问题是"机器能不能看清",现在的问题变成了"机器能不能理解、推理、协作,并连接真实世界"。

印奇从旷视,到千里科技,再到阶跃星辰的角色变化,在我看来不只是个人履历的变化,也像是一个时代重心迁移的缩影:从视觉识别,到物理世界智能,再到通用认知模型。

这并不意味着旧时代没有价值。相反,正是 CV 时代积累的工程能力、场景经验和商业化路径,构成了今天多模态与具身智能的一部分底座。

只是,AI 的主战场变了。

曾经最重要的问题是"看见";现在越来越重要的问题是"理解之后能做什么"。

5. RAG:大模型时代的外部知识层

Transformer 让模型具备了强大的语义建模能力,但它并没有解决所有问题。

模型参数里的知识有几个天然限制:

  • 可能过期。
  • 不包含企业内部私有知识。
  • 很难精确追溯来源。
  • 很难保证回答完全基于事实。
  • 更新成本高。

RAG 的出现,就是为了解决这些问题。

它给大模型接入了一个外部知识层:
失败样本
用户问题
问题理解
检索相关知识
权限与 metadata 过滤
重排序 rerank
上下文构建
大模型生成回答
引用溯源
评测与追踪

向量数据库只是这个链路中的一环。真正重要的是整个闭环:检索、过滤、排序、上下文构建、生成、引用和评测。

所以,与其说 RAG 是"向量数据库 + LLM",不如说它是大模型时代的一种知识接入架构。

它让模型从"只依赖参数中的知识"变成"可以查询外部世界"。这一步非常关键,因为真实企业系统里的知识不是静止的,也不是都能被训练进模型参数。

代码库、产品文档、工单、CRM、会议纪要、历史决策、团队规范,这些都需要通过外部知识层接入模型。

这也是为什么 RAG 和 Agent 会天然走到一起:RAG 负责提供证据,Agent 负责基于证据做决策、调用工具、推进任务。

举一个 coding agent 的例子:用户让 agent 修改一个项目功能时,系统不应该只把用户需求丢给模型。更合理的链路是先检索当前项目的架构说明、编码规范、相似实现和历史决策,再把这些上下文组装给模型,最后让 agent 在受控范围内修改代码、运行测试并记录 trace。

在这个过程中,向量数据库只是"找相关材料"的一部分;真正决定系统质量的,是检索结果是否属于正确项目、是否过期、是否有权限、是否能被引用,以及失败后能不能复盘。

6. 新的智能系统分层

如果把这次架构迁徙总结成一个系统框架,我会把它分成四层:

层级 代表技术 解决的问题
感知层 CNN、视觉模型、传感器、端侧模型 看见世界,提取物理特征
认知层 Transformer、多模态大模型 理解语义、关系与上下文
知识层 RAG、向量库、知识库、Memory 接入外部知识与长期信息
行动层 Agent、Tool Calling、Workflow 调用工具,执行任务,改变系统状态

这也是为什么我认为未来的 AI 架构师,不能只理解单个模型。真正重要的是理解这些层之间如何协作。

CNN 不会消失,它会继续作为高效感知层存在。

Transformer 也不是终点,它需要外部知识、工具系统和工作流来完成真实任务。

RAG 更不是向量数据库的代名词,而是智能系统接入现实知识的一种方式。

Agent 则是在这个基础上,把"回答问题"推进到"完成任务"。

从这个角度看,今天的 AI 架构已经不再是一个模型单打独斗,而是一个分层协作系统:
任务反馈与新状态
外部上下文
行动层

Agent / Tool Calling / Workflow
知识层

RAG / 知识库 / Memory
认知层

Transformer / 多模态大模型
感知层

CNN / 视觉模型 / 传感器

这套分层并不意味着每个系统都要完整实现四层。一个客服 Agent 可能更依赖知识层和行动层,一个自动驾驶系统可能更强调感知层和认知层,一个 coding agent 则会把代码库知识、项目上下文、工具调用和评测闭环结合得更紧。

但无论具体形态如何,趋势是清楚的:AI 正在从单点模型能力,走向系统级智能。

7. 结语:从看见世界,到理解世界,再到参与世界

AI 的演进不是简单的新技术替代旧技术,而是系统能力的层层叠加。

CNN 让机器看见世界。

Transformer 让机器理解上下文。

RAG 让机器连接外部知识。

Agent 让机器开始参与任务执行。

从这个角度看,所谓 AI 架构迁徙,并不是某个模型家族的胜利,而是智能系统从单点能力走向分层协作。

对于经历过 CV 时代的人来说,这种迁移难免带着一点复杂情绪。我们见证过视觉识别如何把 AI 带入现实世界,也正在见证大模型如何把 AI 推向更广阔的认知与行动空间。

旧时代没有消失,它只是变成了新系统的一层。

相关推荐
把你拉进白名单3 小时前
8.OpenClaw源码解析——三层洋葱重试
人工智能·llm·agent
To_OC14 小时前
搞懂 Token 和 Embedding 后,我终于明白大模型是怎么 "读" 文字的
人工智能·llm·agent
Hyyy17 小时前
Temperature 与 Top-p:控制模型输出的两个参数
llm·ai编程
小白跃升坊19 小时前
Codex 增强部署:基于 Codex++ 接入 DeepSeek
ai·ai编程·codex·deepseek·ai coding·codex++
Darling噜啦啦19 小时前
LLM 无状态本质与上下文工程:从 Prompt 到 Context 的进化——为什么 AI 总是"失忆"?
llm
AlfredZhao19 小时前
GPT 省钱,不是别用最新模型,而是别浪费缓存
gpt·ai
智泊AI20 小时前
AI大模型到底是怎么训练出来的?完整预训练过程一次性讲明白!
llm
doiito1 天前
【Agent Harness】Gliding Horse 本体论系统设计:给 AI Agent 装上“语义大脑”
ai·rust·架构设计·系统设计·ai agent
嘻嘻仙人1 天前
Python 开发者的性能革命:为什么你应该从 pip 转向 uv?
llm·agent
universeplayer1 天前
我给 AI Agent 装了个飞机黑匣子:录下每一次 LLM 调用,崩了能确定性回放
llm·agent