深度学习四大核心架构：神经网络（NN）、卷积神经网络（CNN）、循环神经网络（RNN）与Transformer全概述

特性	NN（全连接网络）	CNN（卷积网络）	RNN（循环网络）	Transformer
输入类型	固定长度的结构化数据（如表格）	网格状数据（图像/音频）	时序数据（文本/时间序列）	长序列数据（文本/语音）
核心结构	全连接层	卷积层 + 池化层	循环单元（LSTM/GRU）	自注意力机制 + 位置编码
参数共享	❌ 无	✅ 卷积核共享（空间局部性）	✅ 循环权重共享（时序共享）	✅ 注意力权重动态分配
时序依赖处理	❌ 忽略时序关系	❌ 仅局部空间关系	✅ 顺序处理（短期记忆依赖）	✅ 全局依赖（并行计算）
典型应用	房价预测/简单分类	图像分类/目标检测	文本生成/股票预测	机器翻译/文本摘要（如BERT）
训练效率	低效（参数爆炸）	高效（参数共享）	低效（顺序计算）	高效（并行计算）但内存消耗大
长序列处理	❌ 不支持	❌ 不支持	❌ 梯度消失/遗忘早期信息	✅ 自注意力直接关联任意位置
关键创新	基础神经元模型	局部感知/权重共享	时间步状态传递	多头注意力 + 位置编码

NN

→ 类比：盲人摸象，每个神经元独立感知全局特征

→ 局限：输入图像需展平为向量，丢失空间信息（如将28x28图片变成784维向量）
CNN

→ 类比：人类视觉系统，先识别边缘→形状→物体

→ 实战：用3x3卷积核扫描猫的图片，提取耳朵、胡须等局部特征
RNN

→ 类比：阅读理解，需记住前文才能理解后文

→ 痛点：输入句子"The cat sat on the mat"，到第6个单词时可能已遗忘"cat"
Transformer

→ 类比：团队协作，每个单词直接关注全局上下文

→ 优势：处理句子"I arrived at the bank after crossing the river"时，"bank"可同时关注"river"（消除歧义）